<<

стр. 2
(всего 4)

СОДЕРЖАНИЕ

>>

основных свойств решения задачи стимулирования, поэтому рассматри-
вать подобные искусственные «усложнения» модели мы не будем, стре-
мясь акцентировать внимание на специфике динамики.
33
T
? H t(z1,T) и ?(z1,T) (см. (11)), что и
зировала бы разность между
t =1
отражено выражением (10). •
Обсудим результат теоремы 1.
Очевидно, что, во-первых, в соответствии с (9) центр может не
запоминать какие действия выбирает АЭ в каждом периоде – ему
необходимо лишь знать отклонялся ли АЭ в прошлом хотя бы раз
от планов или нет.
Во-вторых, в силу полной дальновидности центра результат
теоремы 1 справедлив для любого режима управления активным
элементом со стороны центра, то есть центр может в рамках пред-
положения А.0 как сообщать АЭ всю информацию (9)-(10) до
начала первого периода, так и в каждом периоде сообщать только
управление для этого периода и/или на любое число будущих
периодов (см. более подробное обсуждение в разделе 3.5).
В третьих, введение различного учета будущего1 участниками
АС не изменяет результата теоремы 1, за исключением того, что
оптимальная плановая траектория, независимо от распределения
дальновидностей АЭ, будет иметь вид
T
? ?0t {Ht(y1,t) – ct(y1,t)},
1,T
x = arg max
y 1,T ? A1,T t =1
где ?0 = (?0 , ?0 , ..., ?0T)
– распределение дальновидностей центра
1,T 1 2

типа РД1 или РД3. Справедливость последнего утверждения следует
из того, что при использовании центром системы стимулирования
(9) выигрыш АЭ в каждом периоде тождественно равен нулю.
Сделав маленькое отступление, отметим, что отказ от предпо-
ложения о том, что центр должен в каждом периоде обеспечить АЭ
неотрицательную полезность, и замена его требованием обеспече-
ния неотрицательной суммарной (по всем T периодам) полезности,
приводит к тому, что центр должен решать следующую задачу:
T
? {H t(y1,t) – ? t} >
(19) max ,
y 1,T ? A0,T ,{? t }
1
t =1


1
Рассматриваемый учет участниками АС будущих периодов может
считаться автоматически включенным в зависимость функции дохода
центра и функции затрат АЭ от времени.
34
где последовательность {?t} неотрицательных чисел и вектор y1,T
таковы, что
T T
? ?
?=
t
ct(y1,t).
(20)
t =1 t =1
Условие (20) гарантирует АЭ компенсацию суммарных затрат
(то есть обеспечивает неотрицательность суммарной (по всем T
периодам) полезности АЭ.
Отметим также, что (10) удовлетворяет условию (20), но в об-
щем случае не является ни одним из решений задачи (19)-(20).
Другими словами, при отказе от условий индивидуальной рацио-
нальности АЭ в каждом периоде множество допустимых (с точки
зрения условий участия (индивидуальной рациональности) и согла-
сованности стимулирования) управлений увеличивается и, следова-
тельно, не снижается эффективность управления.
Если условие индивидуальной рациональности АЭ (условие его
T
? ? t f t ? U, где ?1,T = (?1, ?2, ..., ?T)
участия) имеет вид (ср. с (20))
t =1
– распределение дальновидностей АЭ, то центру следует в каждом
периоде доплачивать АЭ (помимо компенсации затрат) величину ?t,
совокупность которых определится из решения задачи (ср. с (19))
T
? ? t {Ht(y1,t) – ct(y1,t) – ? t} > max .
T
t =1 y 1,T ? A0,T , {? t ? 0}: ? ? t ? t ?U
1

t =1

В четвертых, если центр одинаково учитывает будущие полез-
ности (выигрыши всех периодов входят в его целевую функцию с
одинаковыми весами), то система стимулирования (9)-(10) опти-
мальна и при отказе от необходимости обеспечения неотрицатель-
ности целевой функции АЭ в каждом периоде (достигается мини-
мум суммарного стимулирования, компенсирующего затраты и
реализующего требуемую плановую траекторию).
Если центр по-разному учитывает будущие периоды и не тре-
буется обеспечивать АЭ в каждом периоде неотрицательную по-
лезность, то система стимулирования (9)-(10) в общем случае не
оптимальна. Например, если
(21) 1 ? ? 0 ? ... > 0,
1



35
то оптимальной для центра будет следующая система стимулиро-
вания ? T,T (?);
1

? T t 1, t
?? c ( x ), y = x
1, T 1, T
(22) ? T, t (y1,t) = 0, t = 1, T ? 1 ; ? T,T
1 1 1,T
(y ) = ?t =1
? 0, y 1,T ? x1,T
?
при плановой траектории
T T
{? ?
?0 ?0
t T
1,T t 1,t
ct(y1,t)}.
(23) x = arg max H (y ) –
y 1,T ? A1,T t =1 t =1
Содержательно, использование центром управлений (22)-(23) в
рассматриваемом случае означает, что ему выгодны аккордные
системы оплаты деятельности АЭ, при которых расчет осуществля-
ется «полной суммой», но откладывается до последнего момента
времени (при этом, правда, нарушается требование обеспечения
условия индивидуальной рациональности АЭ в каждом периоде).
Таким образом, так как методика анализа одинакова, то будем
считать, что условия f t ? 0 выполнены для всех периодов t = 1,T .
Завершив обсуждение теоремы 1, рассмотрим случай, когда
вознаграждение АЭ в каждом периоде может зависеть только от его
действий в этом периоде, то есть ?t = ?t(yt) и центр использует
систему стимулирования (3). Если АЭ недальновиден, или если его
затраты не связаны, то в рамках предположения А.0 оптимальна и
реализуема плановая траектория (10). Отличие появляется при
использовании центром программного управления, то есть сообще-
ния дальновидному АЭ со связанными затратами до начала первого
периода сразу всей (или части) плановой траектории и всех (или
части) зависимостей вознаграждения от действий. Оказывается, что
при связанных затратах и несвязанном стимулировании множество
реализуемых траекторий не шире, а эффективность стимулирова-
ния не выше, чем при связанном стимулировании (см. описание
контрактов с памятью в приложении) – ср. (10) и (24), (25).
Теорема 2. Если выполнены предположения А.0, А.1, А.2’, А.3
и А.4, то при использовании центром системы стимулирования1 (3)
и оптимальной плановой траектории:
1
Отметим, что в соответствии с (3) выплаты АЭ в текущем периоде
зависят от его действий в этом периоде и от планов (но не действий!) в
36
T
?
1,T
{Ht(y1,t) – ct(y1,t)},
(24) x = arg max1,T
?X
1,T
y t =1
где1


(25) X1,T = {x1,T ? A0,T | ? y1,T ? A0,T
1 1

T T
? ?
c (y ) ?
t 1,t
[ct(x1,t) – ct(y1,t-1, xt)]},
t =1 t =1
xt ? y t xt = y t

действия АЭ совпадут с планами и эффективность стимулирования
будет максимально возможной при несвязанном стимулировании.
Доказательство. Отметим, что формулировка теоремы 2 отли-
чается от формулировки теоремы 1 только видом системы стиму-
лирования (ср. (3) и (9)) и тем множеством траекторий, по которому
ведется максимизация при определении оптимальной плановой
траектории.
Невозможность реализации произвольной плановой траекто-
рии системой стимулирования (3) обусловлена тем, что, выбирая в
некотором периоде действия, отличные от планов, в случае связан-
ных затрат АЭ может в общем случае изменить свои затраты в
будущих периодах, а центр не имеет возможности в текущем пе-
риоде наказать АЭ за отклонения в прошлых периодах.
Система неравенств (25) отражает невыгодность отклонения
АЭ от плана. Действительно, при отклонениях АЭ несет потери,
фигурирующие в левой части (суммирование ведется по тем перио-
дам, в которых планы не выполнялись), в правой части стоит выиг-
рыш от отклонений. Если потери превышают выигрыш, то откло-
нение невыгодно.
Итак, выражение (25) определяет множество плановых траек-
торий, реализация которых выгодна для АЭ (точнее – невыгодно
отклонение от них). В остальном доказательство теоремы 2 повто-
ряет доказательство теоремы 1 и опускается. •
Содержательно множество X1,T, определяемое выражением
(25), может интерпретироваться как множество согласованных
планов.


предыдущих периодах (ср. для контраста с (26)).
1
В частности, при несвязанных затратах выполнено X1,T = A1,T.
37
Отметим, что, если вместо (3) центр может использовать сле-
дующую систему стимулирования, являющуюся более «мягкой»,
чем (9):
? c t ( y1, t ?1 , x t ), если y t = x t
(26) ? K(x , y ) = ?
t 1,T 1,t
, t = 1,T ,
0, в оcтальных случаях
?
то реализуема любая траектория из A0 ,T , но при этом, в соответст-
1

вии с (26), выплаты АЭ в текущем периоде зависят уже от всей
предыстории (в отличие от (3)). Это утверждение сформулируем в
виде следствия из теорем 1 и 2:
Следствие 1. Системы стимулирования (9) и (26) характеризу-
ются максимальным множеством реализуемых действий и макси-
мальной эффективностью.
Содержательно, при использовании системы стимулирования
(9) центр отслеживает отклонения АЭ от плана в течение всей
предыстории (по отношению к рассматриваемому периоду) и вы-
плачивает АЭ ненулевое вознаграждение (компенсирует ему затра-
ты) только если он ни разу не отклонился от плана. В соответствии
с (26) центр может не «помнить» отклонения, а компенсировать в
каждом периоде затраты АЭ при выполнении им плана в этом
периоде с учетом фактически сложившейся истории. Легко видеть,
что при этом АЭ не может получить в текущем периоде выигрыша
за счет отклонений в предыдущих периодах (ср. с выражением
(25)).


3.4. Многоэлементные динамические активные системы

Рассмотрим кратко многоэлементную модель – ДАС с n АЭ,
стратегией каждого из которых в каждом периоде является выбор
(при известном управлении со стороны центра) некоторого дейст-
вия yit ? Ait , i ? I = {1, 2, ..., n}, t = 1,T (см. также обозначения и
основные результаты исследования многоэлементных статических
t
t t
АС в разделе 3.1). Обозначим yt = ( y1 , y 2 , ..., y n ) – вектор страте-
гий всех игроков в момент времени t, y1,T = (y1, y2, ..., yT) – вектор
стратегий всех игроков за периоды с первого периода по период T.

38
Пусть ? it = ? it (y1,t), cit = cit (y1,t), H t = H t(y1,t), Ait = Ait (y1,t-1),
?
?
? ? At ,
i ? I, t = 1,T . Определим A = Atj
Ait t
t 1,?
, A? i = ,A =
i?I j ?i t =1

(1) A0,? = {y1,? ? A1,? | yt ? At(y1,t-1), t = 1,? }, ? = 1, T .
1

Введем дополнительное предположение относительно свойств
функций затрат АЭ (отметим, что данное предположение является
«объединением» предположений А.2 и А.2’, отражающих свойства
функций затрат, соответственно, в статической многоэлементной
АС и в одноэлементной ДАС).
А.2’’. ? t = 1,T , i ? I 1) функция cit (?) непрерывна по всем
переменным; 2) ? y1,t?A1,t cit (y1,t) не убывает по yit ; 3) ? y1,t?A1,t
cit (y1,t) ? 0; 4) ? y1,t-1?A1,t-1, ? y ?i ? A?i ct(y1,t-1, y ?i , 0) = 0.
t t t

Теорема 3. Если выполнены предположения А.1, А.2’’, А.3 и
А.4, то при использовании центром системы стимулирования
? c ti ( xi1, t , y1,it ), если yik = xik , k = 1, t
?
(2) ? iK(x ,y )= ?
t 1,T 1,t
, t= 1,T , i?I,
в оcтальных случаях
?0,
где
T
?
? cit (y1,t)},
1,T
{H t(y1,t) –
(3) x = arg max
y 1,T ? A0,T
1
i?I
t =1
действия АЭ совпадут с планами и эффективность стимулирования
будет максимально возможной.
Доказательство. В [59] был введен принцип декомпозиции иг-
ры АЭ в задачах стимулирования, заключающийся в том, что при
использовании в многоэлементных АС компенсаторных систем
стимулирования, в которых АЭ компенсировались затраты в случае
выбора им соответствующей плановой компоненты (независимо от
действий других АЭ!), выбор действий, совпадающих с планами,
является доминантной стратегией каждого АЭ.
Если выполнено (2), то, применяя принцип декомпозиции, по-
лучаем возможность независимо рассматривать n задач управления
несвязанными между собой активными элементами. Для каждой из
этих задач в отдельности применима теорема 1. •

39
Для многоэлементных ДАС в предположении, что АЭ в каж-
дом периоде выбирают равновесные по Нэшу стратегии, справед-
ливы аналоги теоремы 2 и следствия 1.




40
3.5. Влияние распределений дальновидности
и горизонтов принятия решений
на эффективность управления

Результаты теорем 1-3 были получены в предположении, что
центр полностью дальновиден и использует программный режим
управления, а АЭ либо недальновиден и принимает решения на
текущий период, либо полностью дальновиден и принимает
решения сразу на все T периодов (что в силу предположения А.0
возможно только при программном управлении со стороны цен-
тра).
Приведенная во втором разделе таблица 1 содержит класси-
фикацию ДАС по распределениям дальновидности и горизонтам
принятия решений. Исследуем сравнительную эффективность
различных режимов управления при тех или иных распределени-
ях дальновидностей, считая стимулирование связанным1. Будем
последовательно рассматривать модели, соответствующие неза-
штрихованным ячейкам таблицы 1, двигаясь из верхнего левого
угла вправо и вниз. При этом, если не оговорено особо, стимули-
рование будем считать связанным.
Модель НТ-НТ (ДАС1). Данная модель подробно исследова-
на выше. Центр в каждом периоде сообщает АЭ систему стиму-
лирования
? c t ( y1, t ?1 , x t ), если y t = x t
(1) ? K(x , y ) = ?
t 1,t 1,t
, t = 1,T ,
?0, в оcтальных случаях
где y1,t-1 – траектория реализаций, сложившаяся к периоду t, и
план xt, а АЭ выбором действия yt стремится максимизировать
свой выигрыш в текущем периоде.
Очевидно, что выбор действия, совпадающего с планом, вы-
годен для АЭ, поэтому центру достаточно решить задачу выбора
плановой траектории исходя из условия, что план каждого перио-
да максимизирует выигрыш центра в этом (и только в этом, в
силу недальновидности центра) периоде:
1
Для случая несвязанного стимулирования, но связанных остальных
параметров ДАС, оценки сравнительной эффективности управления
получаются по аналогии с теоремой 2 (ср. теоремы 1 и 2) и поэтому
опускаются.
(2) xt = ˜ t (x1,t-1)= arg {H t(x1,t-1, yt) – ct(x1,t-1, yt)}, t = 1, T .
x max
y t ? A t ( x 1,t ?1 )
Обозначим K1 – эффективность стимулирования в модели
ДАС1: K1 = ?(?1,T, x1,T), где ?1,T удовлетворяет (1), а x1,T удовле-
творяет (2).
Напомним (см. выше), что в рассматриваемой модели центр
может добиться той же эффективности, используя систему сти-
мулирования
?c t ( x1, t ), если y i = x i , i = 1, t
(1а) ? K(x , y ) = ?
t 1,T 1,t
, t = 1,T ,
? 0, в оcтальных случаях
с планами (2).
Модель НТ-ДТ. В данной модели центр использует управле-
ния (1)-(2), так как его дальновидность и ГПР не изменились по
сравнению с моделью ДАС1. Так как АЭ дальновиден, то он
должен либо отказаться от своей дальновидности и принимать
решения, стремясь максимизировать текущие однопериодные
выигрыши (при этом приходим к модели ДАС1), либо прогнози-
ровать будущие управления центра в пределах своего горизонта
дальновидности. Прогнозы зависят от тех предположений, кото-
рые АЭ делает о поведении центра, то есть от того, каким обра-
зом он устраняет существующую игровую неопределенность.
Если АЭ рассчитывает на максимальный гарантированный ре-
зультат, то есть предполагает, что стимулирование со стороны
центра в будущие периоды будет тождественно равно нулю, то и
его будущие действия должны быть равны нулю. Этот случай
практически не интересен. Поэтому будем считать, что при про-
гнозе АЭ рассчитывает, что центр будет выбирать ненулевое
стимулирование в будущих периодах.
Тогда в общем случае будет иметь место эффект обмена
ролями1 (ЭОР), заключающийся в том, что АЭ начнет играть

1
Эффект обмена ролями в терминах теории иерархических игр заклю-
чается в переходе от игры Г2 к игре Г2*, в которой АЭ становится
«первым игроком», то есть игроком, делающим первый ход. Обсужде-
ние распределения ролей также проводилось с теоретической точки
зрения в [60], с точки зрения трудовых контрактов – в [42], с точки
зрения задач рекрутинга – в [43].
41
роль «центра», навязывая «настоящему центру» будущие управ-
ления. Поясним последнее утверждение. Задача АЭ в периоде t
заключается в следующем: выбрать такое действие yt, которое
максимизировало бы сумму его выигрышей за периоды с t по
(t + ?(t)) при условии что центр в периодах (t+1, t + ?(t)) исполь-
зует принцип планирования (2), подставляя в него вместо плано-
вой траектории x1,t-1 траекторию реализаций (историю игры) y1,t-1,
то есть АЭ рассчитывает на назначение центром плана
xt = arg max {H t(y1,t-1, yt) – ct(y1,t-1, yt)}, t = 1, T .
y t ? A t ( x 1,t ?1 )

Обозначая ? t ,t +? ( t ) (?) – предположения АЭ об управлении со
˜
стороны центра, формально задачу принятия АЭ решений можно
записать в виде:
t + ? (t )
? {? ?(x1,t-1, ˜? (x1,t-1,zt,?), y1,t-1,z?) –
˜
t,t+?(t)
(3) y = arg x
max
t ,t +? ( t )
z t ,t +? ( t ) ? A0 ? =t
– c?(x1,t-1, zt,?)}.
Итак, АЭ имеет возможность манипулировать центром, вли-
яя на «историю» игры (то есть, выбирая, например, yt ? xt, побуж-
дать центр выбрать в периоде (t+1) план ˜ t +1 (x1,t-1, yt)). При нали-
x
чии ЭОР в общем случае действия АЭ, выбираемые им в
соответствии с (3), не совпадают с планами, назначаемыми цен-
тром в соответствии с (2), то есть АЭ становится неуправляемым
и может манипулировать центром1.
Отметим, что при использовании центром системы стимули-
рования (1) ЭОР в рассматриваемой модели не возникает, так как
выигрыш АЭ в каждом периоде не может быть строго положи-
тельным. Действительно, предположим, что АЭ в некотором
периоде не выполнил план, тогда его выигрыш в этом периоде
неположителен. Даже, если он этим изменил будущую плановую
траекторию, то в следующих периодах, независимо от плановой


1
Отметим, что в рамках введенных предположений центр не может
отразить (осознать и принять соответствующие меры) наличие ЭОР,
так как это потребовало бы от него дальновидности не меньшей, чем у
АЭ.
42
траектории и независимо от выполнения или невыполнения пла-
на, он также получит неположительный выигрыш.
Ситуация меняется, если стимулирование несвязанно, или
если центр должен обеспечивать АЭ в каждом периоде строго
положительную резервную полезность, зависящую от траектории
реализаций, то есть обеспечивать выполнение ft(y1,t) ? U t ,
t = 1,T , где { U t } – набор резервных полезностей. В случае
несвязанного стимулирования ЭОР исключается использованием
центром планов, согласованных в смысле теоремы 2.
Таким образом, справедливо следующее утверждение.
Теорема 4. При связанном стимулировании или при несвя-
занном стимулировании с согласованными планами эффекта
обмена ролями в ДАС не возникает.
ЭОР может приводить как к снижению эффективности
управления, так и к ее увеличению (точнее, к увеличению значе-
ния целевой функции центра). Приводимый ниже пример иллю-
стрирует возможность возникновения ситуации, когда более
дальновидный, чем центр, АЭ навязывает центру планы, которые
выгодны им обоим с точки зрения суммарных по всем периодам
выигрышей.
Пример 5. Пусть T =2, A1 = A2 = {0; 1}, а значения затрат,
доходов и резервных полезностей равны приведенным таблице 2.

Табл. 2. Значения затрат и доходов в примере 5.
1 2
c1 c2 H1 H2 U1 U2
y y
0 0 1 1 2 4 0 2
0 1 1 2 2 6 0 2
1 0 3 1 3 12 0 7
1 1 3 2 3 9 0 7


Пусть центр недальновиден. Тогда с его точки зрения опти-
мальна плановая траектория (0; 1), дающая ему за два периода
выигрыш K1 = 3. Если центр полностью дальновиден, то опти-
мальная плановая траектория есть (1; 0), дающая выигрыш K4 = 4.


43
Если центр недальновиден, а АЭ полностью дальновиден, то
АЭ в рамках ЭОР в первом периоде при плане x1 = 0 выберет
действие y1 = 1, что заставит центр во втором периоде назначить
план x2 = 0. АЭ во втором периоде выберет действие, совпадаю-
щее с планом, что даст центру суммарный выигрыш K2 = 7, что
превышает и его выигрыш при отсутствии ЭОР, равный K1, и его
выигрыш в случае полной дальновидности1. Заметим, что и АЭ
выгодно отклонение от плана, так как выполняя планы, назначен-
ные недальновидным центром, он получает суммарный выигрыш,
равный 2, а отклоняясь в первом периоде и выполняя план во
втором периоде, он получает суммарный выигрыш, равный 4.
Другими словами, АЭ ценой потери в первом периоде трех еди-
ниц полезности, навязывает центру стратегию выгодную им
обоим, то есть компенсирующую потери АЭ от отклонения и
обеспечивающую центру полезность, большую, чем при полной
его дальновидности. •
Таким образом, ЭОР может возникать в случаях, когда гори-
зонт дальновидности АЭ больше горизонта дальновидности
центра2. Подробно исследовать теоретико-игровые модели управ-
ления организационными системами, в которых проявляется
ЭОР, мы не будем, так как в них управление осуществляет не
центр, на позиции которого стоит обычно исследователь опера-
ций, а АЭ.


1
Качественно данный эффект можно объяснить тем, что в первом
периоде центр получает доход от выбора АЭ некоторого действия не
неся при этом расходов на стимулирование.
2
Если в некоторой организационной систем имеет место ЭОР, то с
нормативной точки зрения исследователя операций необходимо изме-
нять состав системы (назначать более дальновидный центр), а с
точки зрения центра следует либо ограничить горизонты дальновидно-
сти управляемых субъектов (обсуждение соответствующих способов
выходит за рамки настоящего исследования), либо изменить состав
системы – заменив дальновидные АЭ на менее дальновидные (отметим,
что мы не рассматриваем ситуацию жестких штрафов за невыполне-
ние планов, что противоречило бы предположению о неотрицательно-
сти стимулирования), либо не обеспечивать резервной полезности,
гарантируя АЭ в случая выполнения плана лишь нулевой выигрыш.
44
Отказ от рассмотрения ЭОР позволяет исключить из даль-
нейшего анализа часть моделей (другую часть составляют систе-
мы, в которых АЭ использует скользящий режим ПР с обязатель-
ствами – см. ниже), для которых соответствующие ячейки в
таблице 1 затенены (если у некоторой ячейки затенена половина,
то это означает, что исключаются из рассмотрения те комбина-
ции, в которых дальновидность АЭ превышает дальновидность
центра).
Модель НТ-ДС. В данной модели у АЭ имеются две возмож-
ности: в период t выбрать действия, оптимальные с точки зрения
текущего горизонта его дальновидности, и затем, либо следовать
этим действиям в периодах (t+1, t + ?(t)) – соответствующий
режим принятия решений будем называть скользящим режимом с
обязательствами, либо рассматривать эти действия как свой
личный прогноз и оставлять за собой право при получении новой
информации, например, в периоде (t+1), выбирать другие дейст-
вия – соответствующий режим принятия решений будем называть
скользящим режимом без обязательств.
Скользящий режим без обязательств соответствует модели
НТ-ДТ, то есть текущему режиму принятия решений АЭ, а сколь-
зящий режим с обязательствами может оказаться невыгодным АЭ
по той причине, что, взяв обязательства, ставшие известными
центру, на периоды (t+1, t + ?(t)), он может оказаться в ситуации,
когда центр установит на эти периоды стимулирование тождест-
венно равное нулю (для центра это выгодно даже в текущем
режиме принятия своих решений). Если же центр обязан в каж-
дом периоде обеспечивать АЭ ненулевую полезность, то взятие
АЭ обязательств на периоды вне горизонта дальновидности
центра обязывает последнего оплачивать ему выбор соответст-
вующих действий, то есть в этом случае имеет место ЭОР (см.
также пример выше). Рассматривать подобные ситуации мы не
будем по причинам, оговоренным выше.
Модель ДТ-НТ (ДАС2). Центр в каждом периоде сообщает
АЭ систему стимулирования
?c t ( x1, t ), если y 1, t = x1, t
(4) ? K(y ) = ?
t 1,t
, t = 1,T ,
? 0, в оcтальных случаях

45
или систему стимулирования (1), и план xt, а АЭ выбором дейст-
вия yt стремится максимизировать свой выигрыш в текущем
периоде.
Очевидно, что выбор действия, совпадающего с планом, вы-
годен для АЭ, поэтому центру достаточно решить задачу выбора
плановой траектории исходя из условия, что план каждого перио-
да максимизирует суммарный выигрыш центра при текущем
горизонте дальновидности:
t +? 0 ( t )
? {H?(x1,t-1, yt,?) – ct(x1,t-1, yt,?)},
t t
(5) x =Proj arg max
t ,t +? 0 ( t )
y t ,t +? 0 ( t ) ? A0 ? =t

t = 1, T .
Обозначим K2 – эффективность стимулирования в модели
ДАС2: K2 = ?(?1,T, x1,T), где ?1,T удовлетворяет (4), а x1,T удовле-
творяет (5). Можно привести примеры, когда K2 оказывается как
больше, так и меньше K1 (см. пример 6). Исследование сравни-
тельной эффективности моделей проводится ниже.
Модели ДТ-ДТ, ДТ-ДС. Если горизонты дальновидности и
принятия решений у АЭ не превышают соответственно горизон-
тов дальновидности и принятия решений у центра, и АЭ не ис-
пользует скользящего режима с обязательствами (см. обсуждение
модели НТ-ДС выше), то получаем модель ДАС2. В остальных
случаях (затененные половинки ячеек в строке ДТ таблицы 1)
получаем «неуправляемую» систему с ЭОР, то есть ситуацию, не
рассматриваемую по причинам, оговоренным выше.
Модель ДС-НТ (ДАС3). Центр в каждом периоде сообщает
АЭ систему стимулирования (4) и план (5). Если центр использу-
ет скользящий режим без обязательств, то получаем модель ДТ-
НТ. Поэтому интерес представляет случай, когда центр использу-
ет скользящий режим с обязательствами.
Обозначим K3 – эффективность стимулирования в модели
ДАС3 с обязательствами. Можно привести примеры, когда K3
оказывается как больше, так и меньше K1 и/или K2 (см. пример 7).
Исследование сравнительной эффективности моделей проводится
ниже.
Модели ДC-ДТ, ДC-ДС. Если горизонты дальновидности и
принятия решений у АЭ не превышают соответственно горизон-
46
тов дальновидности и принятия решений у центра, и АЭ не ис-
пользует скользящего режима с обязательствами (см. обсуждение
модели НТ-ДС выше), то получаем модель ДАС3. В остальных
случаях (затененные половинки ячеек в строке ДC таблицы 1)
получаем «неуправляемую» систему, то есть ситуации, не рас-
сматриваемые по причинам, оговоренным выше.
Модель ДАС4. Предположим, что центр полностью дально-
виден. Тогда оптимальной в соответствии с теоремой 1 является
система стимулирования (4) со следующими планами:
T
?
1,T
{H t(y1,t) – ct(y1,t)}.
(6) x = arg max
y 1,T ? A0,T
1
t =1
Отметим, во-первых, что модель ДАС4 подробно исследова-
на выше (см. теоремы 1-3). Во-вторых, при полностью дально-
видном центре1 в рамках предположения А.0 не важна ни дально-
видность АЭ, ни то, какой режим управления центр использует
(текущий, скользящий, программный), ни наличие или отсутствие
у центра обязательств – во всех случаях эффективность управле-
ния одинакова и равна K4 = ?1,T(x1,T, ?1,T), где ?1,T удовлетворяет
(4), а x1,T определяется как решение задачи (6). В третьих, очевид-
но, что в отсутствии ЭОР эффективность управления в модели
ДАС4 максимальна, то есть выполнено:
(7) K4 ? K1, K4 ? K2, K4 ? K3.
Описав четыре базовые модели ДАС, различающихся рас-
пределениями дальновидности и горизонтами принятия решений,
перейдем к исследованию их сравнительной эффективности.
В качестве отступления отметим, что рассматриваемая в на-
стоящей работе постановка задачи управления ДАС не является
1
Случай полной дальновидности центра является «идеальным» с точки
зрения эффективности управления – при этом невозможен эффект
обмена ролями и т.д. Однако, с точки зрения практики полная дально-
видность является искусственным понятием – непонятно что считать
максимальным горизонтом дальновидности в реальных системах. По-
видимому, по мере удаления будущего от момента принятия решений
увеличивается неопределенность (неопределенность будущего), поэто-
му определение максимального горизонта дальновидности должно
зависеть от используемого способа устранения этой неопределенно-
сти.
47
исчерпывающей, так как в ней не учитывается то, что отношение
центра к выигрышу ? t(y1,t) может изменяться в зависимости от в
периода времени, когда он принимает решение. Формально мож-
но ввести, следуя работам [36, 37, 78-80], понятие распределения
дальновидности {? t (? )} , такое что в любой момент времени ?
M
? ? t (? )? t ( y1,t ) , где M выбирается в зави-
центр максимизирует
t =?
симости от дальновидности центра ( M = min{T ,? + k } для моде-
лей ДАС2 и ДАС3, M = T для ДАС4). Это означает, что при оцен-
ке сравнительной эффективности моделей ДАС1 – ДАС4
необходимо искать не только условия на функцию выигрыша
центра ? t(y1,t), но также и на распределение дальновидности, что,
очевидно, существенно усложнит задачу.
В предложенной выше классификации (см. таблицу 1) в одну
модель ДАС4 были, фактически, объединены случаи с полностью
дальновидным центром вне зависимости от того, какой режим
управления он использует: текущий, скользящий или программ-
ный. В общем случае такое объединение (без потери общности)
не имеет места. В работе [80] был подробно рассмотрен случай
влияния изменения распределения дальновидности на эффектив-
ность управления при полностью дальновидном центре, и выяв-
лены условия на распределение дальновидности, при которых
реализация и прогноз в каждом периоде совпадают, то есть когда
эту общую задачу можно свести к нашей классификации. Приве-
дем основные результаты:
1. Если для распределений дальновидностей {? t } и {? t?} за-
T T
?? t F ? ? t' F t ( y1,t ) > y max
( y ) > max
t 1, t
дачи и имеют
?Y ?Y
1,T 1,T 1,T 1,T
t =1 t =1
y
одинаковые решения, тогда для распределения дальновидности
T
?? t' ' F t ( y1, t ) > y max
? t?? = ?? t + ?? t? , t = 1, T , ? , ? ? 0 задача
?Y
1,T 1,T
t =1
имеет такое же решение. Таким образом, можно получить важ-
ный результат о том, что множество распределений дальновидно-


48
сти, которые дают одинаковое решение рассматриваемой задачи,
является выпуклым конусом.
2. Если в каждом периоде функционирования центр опреде-
ляет свою реализацию и прогноз из решения задачи
T
?? t (? ) F t ( y1,t ) > y , существуют {? t } и {? t?} , для
max ?1
? ,T ? ,T1,? 1,? ?1
?Y =x
,y
t =?
которых решения задачи в первом периоде совпадают и распре-
деление дальновидности центра в периоде ? может быть пред-
ставлено в виде ? t (? ) := ?? ? t + ?? ? t?, ? = 1, T , ?? , ?? ? 0 , то про-
гноз, сделанный центром в первом периоде, совпадает с
реализацией в каждом из последующих периодов, и, соответст-
венно, прогнозы, сделанные центром в последующих периодах
совпадают с прогнозом, сделанным в первом периоде. Это озна-
чает, что, если в каждом периоде выбирается вектор распределе-
ния дальновидностей из определенного в первом пункте конуса,
то реализация совпадает с планом, то есть вне зависимости от
режима управления: текущего, скользящего или программного,
центр получит одно и то же значение оптимальных планов.
T
V = {? | ?? t F t ( y 1,t ) > max при y 1,T = x1,T } ,
3. Пусть то
t =1
есть множество таких распределений дальновидности центра, что
наилучшим планом, определенным в первом периоде, является
x1,T ; ? (? ) := {? ? (? ), ? ? +1 (? ), K , ? T (? )} . Если в первом периоде
? (1) ?V , то для совпадения реализации и прогноза во всех пе-
риодах функционирования, начиная со второго, достаточно,
чтобы для каждого распределения дальновидности ? (? ) сущест-
˜ ˜ ˜
вовал бы вектор ? (? ) = {? 1 (? ),K , ?? ?1 (? )} , ? = 2, T , такой, что
˜
распределение дальновидности {? (? ), ? (? )} ?V .
4. В предыдущих пунктах описаны процедуры поиска наи-
лучшего плана для одного распределения дальновидности {? t } .
Ответ на вопрос о том, как найти все множество распределений
дальновидности (конус V), либо хотя бы часть его, для которого
наилучший план такой же, дает следующее утверждение. Пусть

49
T
?? t F t ( y1, t ) > y max
1,T
является решением задачи для
x
?Y
1,T 1,T
t =1
распределения дальновидности {? t } , тогда, если для распределе-
?? ?
ния дальновидности {? t?} выполняется соотношение: t +1 > t +1 ,
? t? ?t
y 1,T
и для любого выполняется условие
t = 1, T ,
Y t ( y1, t ?1 ) ? Y t ( x1, t ?1 ) , тогда x1,T является решением задачи с
распределением дальновидности {? t?} .
Завершив описание результатов, приведенных в [80], отме-
тим, что при решении многих экономических задач полагают, что
распределение дальновидности имеет специфический вид
? t (? ) = ? t ?? , где ? является некоторой константой (так называе-
мым коэффициентом дисконтирования – см. также выше). Оказы-
вается, что в этом случае задача сводится к исходной с помощью
˜
замены ? t ( y1, t ) = ? t ? t ( y1, t ) . Действительно, в каждый момент
принятия решения ? центр ищет максимум функции
M
? ? t ?? F t ( y1,t ) , что эквивалентно отысканию максимума функ-
t =?
M
˜
? F t ( y1, t ) .
ции Таким образом, ограничимся в дальнейшем
t =?
постановкой задачи без учета зависимости распределения даль-
новидности от момента принятия решений.
Вернемся к оценке эффективности различных режимов
управления и ГПР. Фиксируем некоторое распределение дально-
видностей центра ?0(t), t = 1,T , и будем исследовать эффектив-
ность режимов управления при этом распределении дальновидно-
стей. Обозначим L1,T = (L0(1), L0(2), ..., L0(T)) – ГПР центра (как
0
L0(t) ? ?0(t)); ?1 = 1, ?2 = ?1 + L0(?1),
отмечалось выше,
?3 = ?2 + L0(?2) и т.д. – моменты принятия решений центром в
модели ДАС3 с обязательствами (как отмечалось выше, ДАС3
отличается от ДАС2 наличием обязательств), следовательно

50
[?i; ?i+1] – интервалы времени, на которые центр фиксирует планы
в моменты времени ?i, i = 1, 2, ..., imax( L1,T ) – 1, где imax: ? i max = T.
0
Если, с учетом решения задачи согласованного стимулирова-
ния (см. теоремы 1-2), целевая функция центра имеет вид
? t(y1,t) = H t(y1,t) – ct(y1,t), t = 1, T , то оптимальные в моделях
ДАС1-ДАС4 плановые траектории x1,T , x1,T , x1,T и x1,T , соот-
1
2 3 4
ветственно, определяются следующим образом :
1


(8) x1 = ˜1t (x11,t-1)= arg ? t(x11,t-1, yt), t = 1,T ;
t
x max
( x11,t ?1 )
y ?A
t t


(9) x2 = ˜2 (x21,t-1) =
t
xt
t +? 0 ( t )
? ? t(x21,t-1, yt,?), t = 1,T ;
t
= Proj arg max
t ,t +? 0 ( t )
y t ,t +? 0 ( t ) ? A0 ? =t
? ,? i +1 1,? i ?1
, y ? i ,? ), i = 1, imax ? 1 ;
? t( x3
(10) x3i = arg max? i ,? i +1
y? i ,? i +1?A0
T
? ? t(y1,t), t = 1,T .
t t
x4
(11) = Proj arg max
? A0,T
1,T 1
t =1
y
Рисунки 2-5 иллюстрируют последовательность принятия
решений центром в моделях ДАС1-ДАС4 (черная точка обозна-
чает горизонт дальновидности, стрелка – горизонт принятия
решений с обязательствами).




1
В принципах планирования (2), (5) (6), (8)-(11) планы на текущий и
будущий периоды (в зависимости от распределения дальновидности и
горизонта принятия решений) определяются исходя из максимизации
целевой функции центра в предположении, что действия АЭ в преды-
дущих периодах совпадали с планами. Как отмечалось выше, отказ от
этого предположения, то есть зависимость будущих планов от наблю-
даемой траектории реализаций, является эффективным средством
борьбы с эффектом обмена ролями и т.д.
51
...

t
... T
1 2 3 5 T-2
4 T-1
Рис. 2. Последовательность принятия решений центром
в модели ДАС1




...


t
... T
1 2 3 5 T-2
4 T-1
Рис. 3. Последовательность принятия решений центром
в модели ДАС2




52
...



t
... T
1 2 3 5 T-2
4 T-1
Рис. 4. Последовательность принятия решений центром
в модели ДАС3




t
... T
1 2 3 5 T-2
4 T-1
Рис. 5. Последовательность принятия решений центром
в модели ДАС4
Обсудим специфику модели ДАС3. Пусть центр обладает
фиксированной дальновидностью ?0 (1 < ?0 < T), принимает ре-
шения через каждые m0 периодов, и фиксирует свои планы на L0
периодов вперед. Условием того, что центр распланирует каждый
период времени, является 1 ? m0 ? L0. Таким образом, предпола-
гая что центр в каждый момент времени может принимать реше-
ния только на те периоды, которые лежат в пределах его дально-
53
видности, получаем условие 1 ? m0 ? L0 ? ?0 < T (последнее нера-
венство отличает ДАС 3 от ДАС4).
Лемма 1. Пусть центр обладает фиксированной дальновидно-
стью ?0 (1 < ?0 < T), принимает решения через каждые m0 перио-
дов, и фиксирует свои планы на L0 периодов вперед (см. рисунки
6а) и 6б)). Такой способ принятия решения центром эквивалентен
тому, что в первый период времени центр принимает и фиксирует
план на L0 периодов вперед с дальновидностью ?0, далее центр
принимает и фиксирует решение на m0 периодов вперед в момен-
ты времени где
L0 + 1, L0 + m0, L0 + 2 m0, …, L0 + n m0,
? T ? L0 ?
n=? , с дальновидностью ?0 – L0 + m0 (см. рисунок 6б).
m0 ?
? ?
Доказательство. В первый момент принятия решений центр
находит планы по следующей формуле:

? [?? ( y1,? )]
?0
= Pr oj arg
1, L0
x max
1,? 0
y 1,? 0 ? A0 ? =1
y 1, L0
Опишем поведение центра в следующий момент m0 принятия
решения. Согласно описанной выше модели поведения ДАС3, в
этот момент центр должен принять и зафиксировать решения на
следующие L0 периодов. Но так как в прошлый раз (в первый
момент времени) он уже фиксировал план на L0 первых периодов,
а рассматривается момент принятия решения m0, и план на L0 – m0
периодов вперед уже существует, то центр не имеет права его
менять. Таким образом, в момент m0 центр принимает и фиксиру-
ет план на m0 периодов, начиная с L0 + 1. Оптимальные планы
находятся по следующей формуле (здесь и далее до окончания
настоящего раздела в целях упрощения обозначений зависимость
множеств допустимых действий от истории будет опускаться):
m0 +?0
? ?? ( x1,min(? ,L ) ,
L0 +1 L0 +m0
=
,K, x
x Pr oj arg max 0

y L0 +1,m0 +?0 ?A 0
L +1
?L?Am0 +?0
y L0 +1,L0 +m0 ? =m0
L0
? ?? ( x1,? ) +
L0 +?
)= Pr oj arg max {
y
y L0 +1,m0 +? 0 ?AL0 +1?L? Am0 +?0
y L0 +1, L0 + m0 ? = m0




54
m 0 +? 0
? ?? ( x1, L0 , y L0 +1,? ) } =
+
? = L0 + 1
= Pr oj arg max
y L0 +1,m0 +? 0 ?AL0 +1?L? Am0 +?0
y L0 +1, L0 + m0
L0 + (? 0 + m 0 ? L0 )
? ?? ( x1, L0 , y L0 +1,? ) .
? = L0 + 1
Последнее соотношение означает, что поведение центра в
момент времени m0 равносильно такому его поведению, при
котором он принимает решения в момент L0 + 1 на m0 периодов
вперед с дальновидностью ?0 + m0 – L0.
Аналогично можно показать, что задача оптимального выбо-
ра L0 (фактически – выбора m0) планов в периоде n m0 (где n-
T ? L0
) для центра с дальновидностью ?0, эквива-
целое и n ?
m0
лентна задаче оптимального выбора m0 планов в периоде L0 + (n –
1) m0 + 1 с дальновидностью ?0 + m0 – L0. Действительно:
x L0 + ( n ?1) m 0 +1 , K , x L0 + nm 0 =
Proj arg max
yL0+(n?1)m0+1,?0+nm0?AL0+(n?1)m0+1,?0+nm0
yL0+(n?1)m0+1,L0 +nm0
?0 + nm0
? ?? ( x1,min( L0 +( n ?1) m0 ,? ) , y L0 +( n ?1) m0 +1,? ) =
? = nm0

Proj arg max
yL0+(n?1)m0+1,?0+nm0?AL0+(n?1)m0+1,?0+nm0
L0+( n?1)m0+1,L0 +nm0
y + ?1)m
L (n
0 0
? 1 ,?
?nm ? +
(x )
? = 0


? 0 + nm 0

?? (x 1, L0 + ( n ?1) m 0
, y L0 + ( n ?1) m0 +1,? ) =
?

? = L0 + ( n ?1) m 0 +1

Proj arg max
yL0 +(n?1)m0+1,?0+nm0?AL0+(n?1)m0+1,?0+nm0
yL0+(n?1)m0+1,L0 +nm0
L0 + ( n ?1) m0 + (? 0 + m0 ? L0 )
? ? ? ( x 1, L0 +( n ?1) m0 , y L0 +( n ?1) m0 +1,? ) . •
? = L0 + ( n ?1) m0 +1
На рисунке 6, иллюстрирующем лемму 1, ромбиком обозна-
чен момент принятия решения, жирной стрелкой – горизонт
55
принятия решения (или на какие периоды принимаются решения
в данный момент времени), жирной точкой обозначен горизонт
дальновидности.
a)




...



t
2 3 T-2
...
1 4 T
T-1

б)




...


t
1 ...
3 4 T-2 T-1 T
2

Рис. 6а), 6б). Принятие решений в модели ДАС3
в соответствии с леммой 1
Завершив обсуждение специфики модели ДАС3, введем сле-
дующие функции1:

1
Отметим, что при переходе к целевым функциям вида (12) «автома-
тически» учитывается требование принадлежности плановой траек-
тории соответствующей допустимой области (см. описание метода
штрафов в [59]), что позволяет в (13)-(16), в отличие от (8)-(11),
искать в каждом периоде максимумы по независимым от предыстории
56
? t ? 1,?
? ? ? ( x ), x ? A0
1, t 1, t
t 1,t
(12) F (x ) = ?? =1 , t = 1,T ,
? ? ?, x1, t ? A0, t
1
?
тогда плановые траектории (8)-(11) можно определить следую-
щим образом (положим F0(?) = 0):
(13) x1 = ˜1t (x11,t-1) ? Arg max [F t(x11,t-1, yt) – F t-1(x11,t-1)], t = 1, T ;
t
x
y t ? At

(14) x2 = ˜2 (x21,t-1) ?
t
xt
[ F t +? 0 ( t ) (x21,t-1, y t , t +? 0 ( t ) ) –
? Projt Arg max
t ,t +? 0 ( t ) t +? 0 ( t )
? A t ? A t +1 ?...? A
y

F t(x21,t-1)], t = 1, T ;
? ,? i +1
[ F ? i +1 ( x1,? i ?1 , y? i ,? i +1 ) –
? Arg
(15) x3i max+1 3
y? i ,? i +1?A i ? A i ?...? A? i +1
? ?

?
- F i ( x1,? i ?1 )], i = 1, imax ? 1 ;
3

(16) x4 ? Projt Arg
t
F T(y1,T), t = 1,T .
max
?A
1,T 1,T
y

В соответствии с выражениями (13)-(16), эффективности
управления в моделях ДАС1-ДАС4 можно записать в виде:
(17) Ki = FT( xi1,T ), i = 1, 4 .
Вернемся к сравнению эффективностей различных режимов
управления в динамических АС.
Обозначим J(t) – множество периодов, от которых зависит
выигрыш в периоде t. В силу принципа причинности и введенных
выше предположений ? ? ? J(t) ? ? t, t = 1,T . Положим также,
что t ? J(t), t = 1,T .
Обозначим N(t) – множество периодов, выигрыши в которых
зависят от стратегий, выбираемых в периоде t. В силу принципа
причинности и введенных выше предположений ? ? ? N(t) ? ? t,
t ? N(t), t = 1,T .
Множества J(t) и N(t) взаимозависимы:


допустимым множествам.
57
(18) J(t) = {? ? t | t ? N(?)}, N(t) = {? ? t | t ? J(?)}, t = 1,T .
Предположим, что существуют целые числа J и N не мень-
шие единицы и не большие T, такие, что
(19) ? t = 1,T J(t) = {max (1, t – J); …; t},
(20) ? t = 1,T N(t) = {t; …; min (t + N, T)}.
Очевидно, что, если выполнено (18)-(20), то J = N.
Параметр J назовем памятью АС (точнее – памятью центра),
так как он отражает максимальное число предыдущих периодов
(исключая текущий), влияющих на выигрыш в текущем периоде.
Напомним, что выше были введены такие параметры центра
как: ?0(t) – его дальновидность, отражающая число будущих
периодов (исключая текущий период), которые он принимает во
внимание при выборе своей стратегии в текущем периоде (перио-
де t), и горизонт принятия решений L0(t), который в модели ДАС3
соответствует числу будущих периодов (включая текущий пери-
од), на которые центр берет обязательства в текущем периоде.
Обозначим
(21) ?0 = min ?0(t), L0 = max L0(t)
t =1, T t =1, T
и рассмотрим соотношение между памятью J, дальновидностью
?0 и обязательствами L0. Введем следующее условие:
(22) J + (L0 – 1) ? ?0.
Выполнение условия (22) можно назвать принципом адек-
ватности1 для ДАС (адекватности возможностей системы управ-
ления – центра – условиям функционирования и сложности
управляемой системы), так как оно требует, чтобы в любой мо-
мент времени дальновидность центра, то есть его возможности по
учету будущих последствий принимаемых решений, были не
ниже суммы сложности системы (отражаемой ее памятью) и
условий функционирования (отражаемых вынужденными обяза-
тельствами).
Принцип адекватности позволяет выявить условия, при кото-
рых взятие обязательств не изменяет эффективности управления
– ниже приводится ряд формальных результатов.

1
См. аналоги и ссылки в [51].
58
Теорема 5а. Если выполнены предположения А.0, А.1, А.2’’,
А.3, А.4 и условие (22), то в ДАС со связанным стимулированием
режимы управления ДАС2 и ДАС3 эквивалентны: K2 = K3.
Теорема 5а является частным случаем формулируемой и до-
казываемой ниже теоремы 5б.
Если условия типа (22) не выполняются,1 то существуют
ДАС, в которых реализуются любые соотношения между эффек-
тивностями K2 и K3 (обоснованием справедливости этого утвер-
ждения являются приводимые ниже примеры 6 и 7).
Интуитивно можно было бы предположить, что ДАС1 долж-
на обладать минимальной эффективностью, далее должна была
бы следовать ДАС3 (дальновидность увеличилась по сравнению с
ДАС1, но имеются обязательства), затем – ДАС2 (отказ от обяза-
тельств), и, наконец, ДАС4. То, что ДАС4 обладает максимальной
(среди базовых четырех ДАС) эффективностью очевидно. Одна-
ко, оказывается, что возможны любые соотношения между эф-
фективностями ДАС1 и ДАС2, а также ДАС2 и ДАС3. Ниже
приводятся примеры, иллюстрирующие противоречия "здравому
смыслу": в примере 6 рассматривается модель ДАС, в которой
эффективность ДАС1 выше, чем ДАС2 (то есть увеличение даль-
новидности не приводит к увеличению эффективности), а в при-
мере 7 – модель ДАС, в которой эффективность ДАС3 выше, чем
ДАС2 (наличие обязательств приводит к повышению эффектив-
ности).
Пример 6. (эффективность ДАС1 выше эффективности
ДАС2).
Рассмотрим трехпериодную модель, в которой человек (на-
пример, чиновник) выбирает свою судьбу – быть ли ему богатым,
но брать взятки, или не купаться в роскоши, но быть честным.
Чиновник имеет два возможных действия: "Воровать" или рабо-
тать честно ("Не воровать"). Во все три периода у него для выбо-
ра есть эти два действия.
В первом периоде, если он выбирает "Не воровать", то его
полезность ?1 ( y1 ) равна 3. Если он выбирает действие "Воро-

1
Для этого достаточно нарушения принципа адекватности в одном
периоде.
59
вать", то в этом периоде его полезность равна 1, то есть меньше,
чем если бы он не воровал из-за угрызений совести, которые он
испытывает:
? 1 (" Не воровать" ) = 3,
? 1 (" Воровать" ) = 1.
Во втором периоде полезность ? 2 ( y1 , y 2 ) зависит как от
действий, выбранных во втором периоде, так и от действий,
выбранных в первом периоде и равна:
? 2 (" Не воровать" , " Не воровать" ) = 3,
? 2 (" Воровать", " Не воровать" ) = 3,
? 2 (" Не воровать" , " Воровать" ) = 1,
? 2 (" Воровать", " Воровать" ) = 15.
Таким образом, если чиновник брал взятки и в первом, и во
втором периоде, то он получает очень большую полезность по
сравнению с тем, если бы он был честным оба периода.
В третьем периоде полезность, вне зависимости от выбранно-
го действия y3, зависит только от действия, которое чиновник
выбрал в первом периоде – ? 3 ( y1 ) :
? 3 (" Не воровать" ) = 3,
? 3 (" Воровать" ) = ?100.
Эта ситуация означает, что вора однозначно выявляют в
третьем периоде и, например, сажают в тюрьму. Таким образом,
если чиновник выбирает "Воровать" в первом периоде, это озна-
чает что в третьем периоде он сядет в тюрьму, то есть понесет
ущерб несравнимо больший, чем он бы заработал за первые два
периода.
Рассмотрим ДАС1 – случай недальновидного чиновника. В
первом периоде он выберет "Не воровать", во втором – "Не воро-
вать", а в третьем – все равно какую стратегию он выберет, всего
за три периода он получит полезность равную 3 + 3 + 3 = 9.
В модели ДАС2 – дальновидный чиновник с дальновидно-
стью 2 в первом периоде видит, что если он будет воровать в этом
периоде, то во втором он получит за это много большую полез-
60
ность, чем если бы он был честным. Таким образом, в первом
периоде он выбирает "Воровать", во втором периоде он уже
"видит" третий период и понимает, что сделал неверный шаг, но
уже поздно, и выбирает "Воровать". В третьем периоде все равно
что он выбирает, в любом случае он садится в тюрьму, и его
суммарная полезность за три периода равна 1 + 15 – 100 = – 84.
Итак в рассматриваемом примере ДАС1 обладает более вы-
сокой эффективностью, чем ДАС2. •
Пример 7. (эффективность ДАС3 выше эффективности
ДАС2). Рассмотрим ДАС, в которой T = 4, а множество допусти-
мых действий в каждом периоде содержит две альтернативы
At = {0; 1}, t = 1,4 . Следовательно, возможны шестнадцать траек-
торий – выигрыши центра в каждый момент времени приведены в
узлах дерева на рисунке 6в (в квадратных скобках жирным шриф-
том для каждой траектории приведены суммарные по всем четы-
рем периодам выигрыши).




61
[13]
6
5
5
[12]
1
8 [15]
5
7 [14]
1 5 [12]
4
2 3 [11]
5 2 [10]
1 [9]
1 3 1 [7]
0
[6]
2 3
2 [8]
3
0 [9]
2
[11]
7
4
[8]
5
1 [10]
[7]
2

t=1 t=3 t=4
t=0 t=2

Рис. 6в. Выигрыши центра в примере 7

Пусть центр обладает дальновидностью ?0 = 2 и может брать
обязательства на один будущий период. Тогда в модели ДАС4
(полная дальновидность – программное управление) оптимален
*
план x4 = (1; 1; 0; 1) (будем считать, что ноль соответствует
движению вниз, а единица – движению вверх), а эффективность
равна K4 = 15. В модели ДАС1 (недальновидность – текущее
*
управление) оптимален план x1 = (0; 0; 0; 1), а эффективность
равна K1 = 10.
Легко видеть, что наличие обязательств (в модели ДАС3 оп-
*
тимален план x3 = (0; 0; 1; 1), в модели ДАС2 оптимален план
*
x2 = (0; 1; 0; 0)) выгодно для центра, так как K3 = 11 > K2 = 9.

62
Таким образом, в данном примере имеет место следующее
соотношение между эффективностями различных режимов
управления:
K4 > K3 > K1 > K2. •
Примеры 6 и 7 свидетельствуют, что в общем случае воз-
можны любые соотношения между эффективностями ДАС1,
ДАС2 и ДАС3 – единственная априорная оценка:
K4 ? max {K2, K3} ? K1.
Для упорядочения режимов управления по эффективности
необходимо вводить определенные предположения, либо на
взаимосвязь между периодами – см. теоремы 5а-5в, либо на моно-
тонное увеличение информированности центра с ростом его
дальновидности – см. теорему 6.
Вернемся к обсуждению результата теоремы 5а, который
справедлив и для бесконечного T.
Следствие 2. Взятие центром обязательств на max {1, ?0 –
J + 1} периодов (включая текущий период) не снижает
эффективности управления.
Следствие 3. Принимать решения центру следует не реже,
чем каждые max {1, ?0 – J + 1} периодов1.
Выражения (19) и (20), во-первых, означают, что память по-
стоянна (не зависит от номера периода), а, во-вторых, что отсут-
ствуют «разрывы» в прошлом, то есть, если некоторый период
оказывает влияние на выигрыш в текущем периоде, то и все
последующие (лежащие между ним и текущим) периоды также
оказывают влияние на текущий период. Кроме того, в (22) фигу-
рируют гарантированные оценки дальновидности и обязательств
(см. условие (21)). Поэтому результат теоремы 5а может быть
обобщен (условия (19)-(21) ослаблены) на случай переменных
памяти, обязательств и дальновидности следующим образом.
Введем следующие величины:
(23) J -(t) = min {? ? J(t)}, t = 1,T ,

1
Результаты следствия 2 и леммы 1 позволяет для данной ДАС ввести
эквивалентную ДАС с меньшим числом периодов принятия решений, и
разрабатывать для последней аналоги метода динамического програм-
мирования.
63
(24) N+(t) = max {? ? N(t)}, t = 1,T .
Теорема 5б. Если выполнены предположения А.0, А.1, А.2’’,
А.3, А.4 и любое из следующих условий
J -(?) > t + L0(t) – 1, t = 1,T ,
(25) min
? > t +? 0 ( t )

N+(?) ? ?0(t), t = 1,T ,
(26) max
t ?? ?t + L0 ( t )?1
то в ДАС со связанным стимулированием режимы управления
ДАС2 и ДАС3 эквивалентны: K2 = K3.
Доказательство. Во-первых, заметим, что теорема 5а является
частным случаем настоящей теоремы, так как, если выполнено
(19)-(21), то из (25) с учетом (23) следует (22). Кроме того, из
(18), (23) и (24) следует, что условия (25) и (26) эквивалентны, то
есть доказательство можно проводить либо пользуясь одним из
них, либо обеими условиями независимо.
Запишем определение (14) планов, выбираемых в ДАС2, для
периодов от t до t + L0(t) – 1:
t +?0 ( t ) ?
? ?? ( y J (? ),?
? Proj Arg
t t
x2
(27) max )
t ,t +? 0 ( t ) t ,t +? 0 ( t )
?A ? =t
y

(28) x 2+ 0 ( )?1 ? Projt+L0(t)-1
tLt

Arg max
y t + L0 ( t ) ?1,t + L0 ( t ) ?1+? 0 ( t + L0 ( t ) ?1) ? A t + L0 ( t ) ?1,t + L0 ( t ) ?1+? 0 ( t + L0 ( t ) ?1)
t + L0 ( t )?1+?0 ( t + L0 ( t ) ?1) ?
? ?? ( y J (? ),?
).
? =t + L0 ( t ) ?1
Запишем определение (15) планов, выбираемых в ДАС3, для
периодов от t до t + L0(t) – 1:
t +?0 ( t ) ?
? ?? ( y J (? ),?
? Proj Arg
t t
(29) x3 max )
y t ,t +? 0 ( t ) ? At ,t +? 0 ( t ) ? =t

t +?0 ( t ) ?
?
t + L ( t ) ?1
?? ( y J (? ),?
? Proj t+L0(t)-1
x3 0
(30) Arg max ).
y t ,t +? 0 ( t ) ? At ,t +? 0 ( t ) ? =t

64
Докажем, что в рамках условий (25) или (26) планы (28) и
(30) совпадают (аналогично можно доказать и совпадение других
планов из рассматриваемого временного промежутка).
Идея доказательства заключается в следующем: разобьем
максимизацию в (28) на вычисление максимумов по множествам
от t + L0(t) – 1 до t + ?0(t) и от t + ?0(t) + 1 до t + L0(t) –
1 + ?0(t + L0(t) – 1), а в (30) – от t до t + L0(t) – 2 и от t + L0(t) – 1
до t + ?0(t), а затем воспользуемся (25)-(26).
Фиксируем произвольный момент времени t. Из (25) следует,
что всегда имеет место
t + L0(t) – 1 + ?0(t + L0(t) – 1) ? t + ?0(t) ? t + L0(t) – 1.
Запишем (28) в виде:
(31) x 2+ L0 ( t )?1 ? Projt+L0(t)-1 Arg
t
max
y t + L0 ( t ) ?1,t +? 0 ( t )?At + L0 ( t ) ?1,t +? 0 ( t )
max
y t +? 0 ( t ) +1,t + L0 ( t ) ?1+? 0 ( t + L0 ( t ) ?1)?At +? 0 ( t ) +1,t + L0 ( t ) ?1+? 0 ( t + L0 ( t ) ?1)
t +?0 ( t ) t + L0 ( t )?1+?0 ( t + L0 ( t ) ?1)
J ? (? ),? ?
? ?
?
?? ( y J (? ),?
? (y )+ )] =
[
? =t + L0 ( t )?1 ? =t +?0 ( t ) +1
t +?0 ( t ) ?
? ?? ( y J (? ),?
t+L0(t)-1
= Proj Arg maxt + L )+
[
t + L0 ( t ) ?1,t +? 0 0 ( t ) ?1, t +? 0 ( t )
?A
(t )
y ? =t + L0 ( t )?1
max
+
y t +? 0 ( t ) +1,t + L0 ( t ) ?1+? 0 ( t + L0 ( t ) ?1)?At +? 0 ( t ) +1,t + L0 ( t ) ?1+? 0 ( t + L0 ( t ) ?1)
t + L0 ( t )?1+?0 ( t + L0 ( t ) ?1) ?
? ?? ( y J (? ),?
) ].
? =t +?0 ( t ) +1
Запишем (30) в виде
(32) x3+ L0 ( t )?1 ? Projt+L0(t)-1 Arg
t
max
y t ,t + L0 ( t ) ? 2?At ,t + L0 ( t ) ? 2
t + L0 ( t )?2 ?
? ?? ( y J (? ),?
maxt + L [ )+
0 ( t ) ?1, t +?0 ( t )
t + L0 ( t ) ?1,t +? 0 ( t )
?A ? =t
y
t +?0 ( t ) ?
? ?? ( y J (? ),?
+ )] =
? =t + L0 ( t )?1


65
t + L0 ( t )?2 ?
? ?? ( y J (? ),?
t+L0(t)-1
Proj Arg maxt ,t + L [ )+
t ,t + L0 ( t ) ?2 0 ( t )?2
?A
y ? =t
t +?0 ( t ) ?
? ?? ( y J (? ),?
+ maxt + L ) ].
0 ( t ) ?1, t +?0 ( t )

<<

стр. 2
(всего 4)

СОДЕРЖАНИЕ

>>