<<

стр. 3
(всего 4)

СОДЕРЖАНИЕ

>>

t + L0 ( t ) ?1,t +? 0 ( t )
?A ? =t + L0 ( t )?1
y
Заметим, что в силу (25)-(26) второе слагаемое в (31) не зави-
сит явным образом от плана, выбираемого центром в периоде
t + L0(t) –1, а первое слагаемое в (31) совпадает со вторым сла-
гаемым в (32). Таким образом, планы (28) и (30) совпадают, сле-
довательно эффективности режимов ДАС2 и ДАС3 одинаковы. •
Рассмотрим случай, в котором множество периодов функ-
ционирования ДАС может быть разбито на набор непересекаю-
щихся и «невзаимодействующих» подмножеств. Для этого необ-
ходимо формализовать понятие «взаимодействия».
Предположим, что существует разбиение множества
{1, 2, …T} на подмножества [?i, ?i+1], где границы подмножеств
{?i}qi=1, такие, что 1 ? q ? T, ?i ? ?i-1, ?1 ? 1, ?q ? T и для этого раз-
биения выполняется
(33) ?0(?i) ? ?i+1 – ?i, i = 1, q ? 1 ,
(34) ? t ? [?i; ?i+1] N+(t) ? ?i+1.
Теорема 5в. Если выполнены предположения А.0, А.1, А.2’’,
А.3, А.4 и условия (33)-(34), то в ДАС со связанным стимулиро-
ванием все режимы управления1 эквивалентны: K2 = K3 = K4.
Доказательство. Справедливость утверждения теоремы сле-
дует из принципа оптимальности Беллмана и того, что в силу
(33)-(34) имеет место: ? t ? [?i; ?i+1] J(t) ? {1, …, ?i – 1} = ?. •
Содержательно, условия (33)-(34) означают, что в моменты
{?i} i=1 «рвется связь времен», то есть множество всех периодов
q

(от единицы до T) может быть разбито на q подмножеств, таких,
что внутри каждого из них центр полностью дальновиден – см.
условие (33), и решения, принимаемые внутри периодов, принад-
лежащих любому подмножеству, не влияют на выигрыши в пе-

1
За исключением, естественно, скользящего режима управления
(ДАС1), при котором дальновидность центра равна единице (в этом
случае ДАС2 и ДАС3 совпадают с ДАС1).
66
риодах, принадлежащих другим подмножествам – см. условие
(34).
Результат теоремы 5 позволяет сравнивать различные режи-
мы управлений по эффективности и, в частности, дает ответ на
вопрос о том – в каких случаях взятие обязательств не снижает
эффективности управления. Тем не менее, сам факт того, что
наличие обязательств может приводить не только к не снижению,
но и к повышению (см. пример 7) эффективности управления,
представляется несколько удивительным и противоречащим
здравому смыслу. Качественное объяснение этого факта таково –
так как в рассматриваемой модели ДАС неопределенность буду-
щего заключается в п о л н о м незнании функций выигрыша вне
горизонта дальновидности, то любое принятое решение может
оказаться как эффективным, так и неэффективным с точки зрения
значений функций выигрыша в некоторых будущих периодах.
Для того, чтобы исключить подобные явления необходимо ввести
предположения о "монотонности" функций выигрыша, которое
исключало бы возможность резких и непредвиденных ее измене-
ний. Приведем формальные определения.
Пусть функция выигрыша в периоде t зависит от истории y1,t-
, действия yt в этом периоде и неопределенного параметра
1

rt ? ? t, то есть ? t(y1,t, rt), t = 1, T . Информированность центра (ту
информацию, которой он обладает о неопределенном параметре)
будем описывать совокупностью множеств ?(t, ?) ? ??, ? ? t,
отражающих его знание в момент времени t о возможных значе-
ниях неопределенного параметра в настоящий (? = t) и будущие
(? = t + 1, T ) моменты времени.
Неопределенность будущего будем отражать следующим ус-
ловием:
(35) ? t = 1, T , ? ?1 ? ?2 ? t ?(?2, t) ? ?(?1, t) ? ? t.
Из (35) следует, что
(36) ? t = 1, T , ? t ? ?1 ? ?2 ?(t, ?1) ? ?(t, ?2) ? ?? 2 .
Содержательная интерпретация условий (35)-(36), которые
будем называть условиями монотонности, заключается в том, что
по мере удаления (приближения) рассматриваемого момента

67
времени от оцениваемого, и наоборот, неопределенность не
уменьшается (не увеличивается).
Введем критерий сравнения неопределенностей. Будем гово-
рить, что, в первой ситуации, которой соответствует информиро-
ванность ?1(?), центр более информирован (неопределенность
меньше), чем во второй ситуации, которой соответствует инфор-
мированность ?2(?), если выполнено
(37) ? t = 1, T , ? ? = t, T ?1(t, ?) ? ?2(t, ?).
Введем также предположение о том, что центр при принятии
решений устраняет неопределенность, ориентируясь на макси-
мальный гарантированный в рамках своей информированности
результат. В рассматриваемой модели дальновидность, как тако-
вая, отсутствует1, а текущий режим управления совпадает со
скользящим. В отсутствии обязательств в периоде t центр при
известной истории x1,t-1 решает задачу определения плана на
текущий период:
T
? ? ?(x1,?, r?), t = 1, T .
t t
(38) x = Proj Arg max min
?
r ?? ( t ,? )
? A0,T
1,T 1
? =t
y
В присутствии обязательств в периоде t центр при известной
истории x1,t-1 решает задачу определения планов на текущий
период и на горизонт принятия решений, состоящий из L0(t) – 1
будущих периодов:
T
? ? t(x1,?-1, r?),
t,t+L0(t)-1 t,t+L0(t)-1
(39) x = Proj Arg max min
r ? ?? ( t ,? )
y t ,T ? A0,T ? =t
t


где t = 1, 1 + L0(1), ... .
Эффективность управления определяется значением суммар-
ного по всем периодам гарантированного априори выигрыша от
траекторий (38) – в отсутствии обязательств, или (39) – в присут-
ствии обязательств, то есть



1
Следовательно, при фиксированной информированности бессмыслен-
но говорить о режиме ДАС4 (то есть о полной дальновидности), но
можно условно считать, что более информированный центр обладает
большей дальновидностью.
68
T
? rmin ? t ( y1, t , r t ) .
1,T
(40) K(y ) =
?? t t
t =1
Теорема 6. Если выполнены предположения А.0, А.1, А.2’’,
А.3, А.4 и условие монотонности, то в ДАС со связанным стиму-
лированием:
а) с ростом неопределенности (в смысле (37)) эффективность
управления не увеличивается;
б) взятие обязательств не увеличивает эффективности управ-
ления.
Справедливость утверждения теоремы 6 следует из (38)-(40)
с учетом (35)-(37).
Таким образом, результаты настоящего раздела дают воз-
можность сравнивать эффективности различных режимов управ-
ления ДАС, в том числе – выгодность взятия обязательств. В то
же время, во многих моделях реальных АС, например, условия
(25) или (26), или условия монотонности и т.д., не выполнены,
поэтому с тем, чтобы, учитывая результаты примеров 6-7 и др.,
разобраться в качественной специфике влияния дальновидности и
обязательств на эффективность управления ДАС, рассмотрим
частные модели, а именно ДАС, функционирующие в течение
двух и трех периодов (аналогом теоремы 5 для которых являются
соответственно теоремы 7 и 8), ДАС с накоплением и др.


4. ДВУХПЕРИОДНЫЕ И ТРЕХПЕРИОДНЫЕ
ДИНАМИЧЕСКИЕ АКТИВНЫЕ СИСТЕМЫ

В настоящем разделе рассматриваются частные случаи об-
щей модели ДАС, а именно – двухпериодная ДАС и трехпериод-
ная ДАС (см. обоснование необходимости их рассмотрения в
конце предыдущего раздела), на примере которых анализируется
сравнительная эффективность различных режимов управления.
Рассмотрим двухпериодную ДАС, то есть динамическую АС,
функционирующую в течение двух периодов (T = 2).



69
В модели ДАС 1 в первом периоде центр решает задачу пла-
нирования1:
1
(1) x1 = arg max {H1(y1) – c1(y1)},
y ?A
1 1

и назначает систему стимулирования
?c1 ( x1 ), y 1 = x1
1 1
(2) ? K ( x1 , y ) = ?
1 11
.
0, в остальных случаях
?
Во втором периоде в модели ДАС1 решается задача плани-
рования:
2 1 1
{H2( x1 , y2) – c2( x1 , y2)},
(3) x1 = arg max
y 2 ?A2 ( x1 )
1

и назначается система стимулирования
?c 2 ( y 1 , x1 ), y 2 = x1
2 2
(4) ? K ( x1 , y , y ) = ?
2 2 1 2
.
0, в остальных случаях
?
Как отмечалось выше, использование системы стимулирова-
ния (4) исключает ЭОР в моделях НТ-ДТ и др.
Так как рассматривается двухпериодная ДАС, то дальновид-
ность центра эквивалентна его полной дальновидности (то есть
модели ДАС 2, ДАС 3 и ДАС 4 в случае двух периодов эквива-
лентны) и независимо от режима управления (программного или
скользящего, с обязательствами или без них) оптимальны планы
1 2
(5) ( x4 , x4 ) = arg 1 1max 2 1 {H1(y1)+H2(y1, y2)-c1(y1)-c2(y1, y2)}
y ?A , y ?A (y )
2

и системы стимулирования вида (2), (4) с планами (5). Сравнивая
эффективности, получаем, что K1 = F2( x1 , x1 ) ? F2( x4 , x4 ) = K4.
1 2
2 2

Таким образом, мы обосновали следующий достаточно оче-
видный вывод:
Теорема 7. В двухпериодных ДАС имеет место
K1 ? K2 = K3 = K4, то есть увеличение дальновидности центра
и/или использование обязательств в скользящем режиме управле-
ния не снижает эффективности управления.


1
Напомним, что верхний индекс обозначает номер периода, а нижний –
номер модели.
70
Качественно, в двухпериодных системах еще не проявляются
все эффекты, характерные для ДАС (см. теоремы 5 и 7). Поэтому
перейдем к рассмотрению трехпериодной ДАС (T = 3).
В модели ДАС 1 в первом периоде центр решает задачу пла-
нирования (1) и назначает систему стимулирования (2). Во вто-
ром периоде решается задача планирования (3) и назначается
система стимулирования (4). В третьем периоде решается задача
планирования
3 1 2 1 2
{H3( x1 , x1 , y3) – c3( x1 , x1 , y3)},
(6) x1 = arg max
y 3?A (x1 , x1 )
31 2

и назначается система стимулирования1
?c 3 ( y 1 , y 2 , x1 ), y 3 = x1
3 3
(7) ? K ( x1 , y , y , y ) = ?
3 3 1 23
.
? 0, в остальных случаях
Как отмечалось выше, использование систем стимулирова-
ния (4), (7) исключает ЭОР в моделях НТ-ДТ и др.
Модели ДАС 2 и ДАС 3 в трехпериодной ДАС различаются
планами, назначаемыми центром во втором и третьем периодах.
Это объясняется тем, что дальновидность, но не полная дально-
видность, центра означает, что при принятии решений в первом
периоде он учитывает свои полезности за первый и второй пери-
од, а при принятии решений во втором периоде – за второй и
третий периоды. Следовательно, в ДАС 2 во втором и третьем
периодах центр назначает планы, которые оптимальны с точки
зрения суммы выигрышей по соответствующим двум периодам:
1
(8) x 2 = Proj1 arg {H1(y1) +H2(y1, y2) -
max
y 1?A , y ?A2 ( y1 )
1 2

-c1(y1) – c2(y1, y2)},
2 1 1
(9) x 2 = Proj2 arg {H2( x 2 , y2) +H3( x 2 , y2, y3) -
max 3
y 2?A1(x2 ), y ?A ( x1 , y 2 )
1 3 2

1 1
– c2( x 2 , y2) – c3( x 2 , y2, y3)},
3 1 2 1 2
{H3( x 2 , x 2 , y3) – c3( x 2 , x 2 , y3)}.
(10) x 2 = arg max
y 3 ? A3 ( x 1 , x 2 )
2 2




1
Повторяться и выписывать системы стимулирования, оптимальные
в трехпериодных ДАС 2, ДАС 3 и ДАС 4 мы не будем.
71
В ДАС 3 с обязательствами1 (ДАС 3 без обязательств совпа-
дает с ДАС 2) план в первом периоде определяется (8), план на
второй период фиксируется в первом периоде:
2
(11) x3 = Proj2 arg {H1(y1) +H2(y1, y2) -
max
y1 ?A1 , y 2 ? A 2 ( y 1 )
-c1(y1) – c2(y1, y2)},
а план на третий период фиксируется во втором периоде:
1 2 1 2
3
{H3( x3 , x3 , y3) – c3( x3 , x3 , y3)}.
(12) x 2 = arg max
y 3 ? A3 ( x 1 , x 3 )
2
3

В ДАС 4 оптимальны планы
1 2 3
{H1(y1) +
(13) ( x4 , x4 , x4 ) = arg max
y 1?A1, y 2?A (y ), y 3?A3(y1, y 2 )
21

+ H2(y1, y2) + H3(y1, y2, y3) – c1(y1) – c2(y1, y2) – c3(y1, y2, y3)}.
Объединяя (1), (3), (6), (8)-(13), получим:
1 2 3 1 2 3
(14) K1 = F3( x1 , x1 , x1 ), K2 = F3( x 2 , x 2 , x 2 ),
1 2 3 1 2 3
K3 = F3( x3 , x3 , x3 ), K4 = F3( x4 , x4 , x4 ).
Сравним эффективности управления ДАС2 и ДАС3 в трех-
периодной модели. Для этого введем следующую гипотезу о
консервативности центра: если при решении задачи оптималь-
ного планирования при различных режимах управления центр
получит в обоих случаях одинаковые множества оптимальных
планов, то из этих множеств он в обоих случаях выберет одина-
ковые планы.
Лемма 2. Если дальновидность центра ?0 = T – 1, и выполне-
на гипотеза о консервативности центра, то K2 ? K3.
Доказательство. Задачи максимизации, которые решает
центр, при выборе плана в первом периоде для моделей ДАС2 и
ДАС3 совпадают. Это значит что оптимальный план на первый
период для обоих этих моделей будет одним и тем же, при усло-
вии выполнения гипотезы о консервативности центра. Во втором
периоде в модели ДАС2 в силу ?0 = T – 1 центру известны функ-
ции полезности во всех будущих периодах, поэтому он может
выбрать планы которые максимизируют сумму его полезности за

1
В трехпериодной ДАС обязательства центра имеют место только
относительно второго периода.
72
последние T – 1 периодов в условиях «полной дальновидности».
В модели ДАС3 в силу ?0 = T – 1 центру также известны функции
полезности во всех будущих периодах, но так как он взял в пер-
вом периоде на себя обязательства относительно нескольких
следующих периодов, и обязан их выполнять, то за последние T –
1 периодов сумма его полезности будет меньше, чем если бы он
мог поменять свое решение, то есть действовал бы в рамках
модели ДАС2. Учитывая, что в первый момент времени центр в
обеих моделях получает одинаковую полезность, получаем, что
ДАС2 не менее эффективна, чем ДАС3. •
Теорема 8. В трехпериодной модели режим управления
ДАС2 всегда более эффективен, чем ДАС3.
Действительно, в трехпериодной модели (T = 3), условие, на-
кладываемое на дальновидность для моделей ДАС2 и ДАС3
(1 < ?0 < T), оставляет единственно возможное значение дально-
видности ?0 = 2. Следовательно, для трехпериодной модели
имеем ?0 = T – 1, что попадает под условия леммы 2.
Отметим, что результат теоремы 8 не противоречит примеру
7, иллюстрирующему возможность превосходства ДАС3 над
ДАС2, так как в этом примере T = 4.




73
5. ЭФФЕКТЫ НАКОПЛЕНИЯ В ДИНАМИЧЕСКИХ
АКТИВНЫХ СИСТЕМАХ

Важным случаем общей задачи управления ДАС является
модель, в которой текущий доход центра или затраты активного
элемента зависят не от каких-то конкретных действий в прошлом,
а от суммы всех действий за предыдущие периоды. При этом
можно говорить об эффекте накопления, который проявляется в
том, что на настоящее оказывает влияние сумма предыдущих
действий.
Итак, рассмотрим частный случай общей задачи управления
ДАС, когда функция дохода центра зависит от действия АЭ в
текущем периоде и суммы действий за предыдущие периоды:
t ?1
H ( y ) = y g ( ? y? ) , а функция затрат активного элемента
t 1, t t

? =1
зависит только от действия в текущем периоде: c t = c( y t ) . Пусть
центр обладает не зависящими от времени дальновидностью ?0 и
горизонтом обязательств L0. Предполагается также, что функции
g(?) и c(?) являются непрерывными и дифференцируемыми, мно-
жества допустимых действий активного элемента At ? ?1 явля- +
ются отрезками, содержащими ноль. Задача, как и в разделе 3.5,
заключается в сравнении эффективности различных режимов
управления и различной дальновидности.
В момент времени t центр находит оптимальный план xt (ес-
ли рассматривается ДАС3, то x t ,K, x t + L0 ) при уже известных для
него оптимальных планах на предыдущие периоды, решая задачу
максимизации:
t +?0 ?1
? ( y ? g ( x? + y t + L + y? ?1 ) ? c( y ? )) ,
t
(1) max 1
t +? ? t +?0 ?1
y ?A ,K, y ?A
t t 0
? =t
t ?1
= ? x?
t
где x?
? =1
Сначала найдем решение этой задачи во внутренней точке
области допустимости At ,t +?0 ?1 = At ? L ? At +?0 ?1 , а потом будем
исследовать когда решения лежат на границе, и что это за реше-
ния.
Для отыскания внутреннего решения продифференцируем
выражения, стоящие под знаком максимума в (1), по переменным
y t , K , y t +? 0 ?1 , и приравняем первые производные к нулю. В
итоге получим систему из ?0 уравнений с ?0 неизвестными:
? g ( x? ) ? c ?( y t ) + y t +1 g ?( x? + y t ) + L +
t t
? t + ? ?1
?+ y 0 g ?( x? + y t + L + y t +? 0 ? 2 ) = 0
t
? + + +
? g ( x? + y t ) ? c ?( y t 1 ) + y t 2 g ?( x? + y t + y t 1 ) +
t t
(2) ?
?+ L + y t +? 0 ?1 g ?( x? + y t + L + y t +? 0 ? 2 ) = 0
t
?
?M
? g ( x t + y t + L + y t +? 0 ? 2 ) ? c ?( y t +? 0 ?1 ) = 0
??
Вычитая попарно последующие уравнения из предыдущих,
можно упростить систему (2) к виду:
? g ( x? + L + y t +? ?1 ) ? c ?( y t +? ) + y t +? +1 g ?( x? + L + y t +? ) =
t t
?
?
(3) ?= g ( x? + L + y t +? ) ? c ?( y t +? +1 )
t

? t +? ? 2 t + ? ?1
? g ( x? + L + y 0 ) ? c ?( y 0 ) = 0
t
?
Рассмотрим случай с линейной функцией g ( x ) = ? + ?x , под-
ставляя которую в первое выражение из (3), получаем
?y t +? +1 + c ?( y t +? +1 ) = ?y t +? + c ?( y t +? ) . Таким образом, независи-
мо от вида функции затрат АЭ c(x), при линейной функции g(x)
оптимальной является точка, в которой y t = y t +1 = L = y t +? 0 ?1 .
Из второго выражения (3) находим что
(4) ? + ?x? + (? 0 ? 1) ?y t ? c ?( y t ) = 0 .
t

Зная функцию затрат АЭ и подставив ее в выражение (4),
можно найти y t = f ( x? , ? 0 ) .t

Чтобы получить аналитическое решение уравнения (4), огра-
ничимся рассмотрением конкретного вида функции затрат


75
x2
с( x ) = и случаем неотрицательных действий. Тогда решение
2
задачи (1) для периода t будет даваться выражением:
? + ?x? t
t + ? 0 ?1*
t + 1*
(5) y = y =L= y =
t*
.
1 ? (? 0 ? 1) ?
Эффективность управления K определяется следующим вы-
ражением:
t ?1
( x t )2
T T
K = ? ? ( x ) = ? ( x (? + ? ? x ) ? ?
)=
t 1, t t
2
t =1 t =1 ? =1
T T
=??x + ? ?x x ? ( x t )2 =
?
t i j 1
(6) 2
i , j =1KT , i ? j
1 1

?T t ( ? + 1) T t 2
T
= ? x (? + ? x ) ? ?( x )
t
21 2
1 1
Остается важный вопрос о том является ли найденная точка
экстремума искомой точкой максимума. В общем случае ответить
на этот вопрос непросто, но в нашем конкретном случае с линей-
ной функцией g(x) и квадратичными затратами c(x), матрица
вторых производных максимизируемой функции (1) имеет раз-
мерность ? 0 ? ? 0 , имеет на диагонали -1, а во всех остальных
1
клетках ?. При ? > 0, > ? > ?1 , матрица является отрица-
?0 ? 1
тельно определенной, а значит найденная точка экстремума явля-
ется точкой максимума.
Найдем оптимальные планы и вычислим эффективность для
моделей ДАС1 – ДАС4.
ДАС1. В модели ДАС1 ? 0 = L0 = 1 , план x t = y t * . Таким об-
разом, из (6) имеем, что оптимальные внутренние планы будут:
(7) x t = ? (1 + ? ) t ?1 , t = 1, T .
Для того чтобы найти эффективность K1 ДАС1, подставим
планы (7) в формулу (6):
? 2 (1 + ? ) 2T ? 1
(8) K1 =
2 ? ( ? + 2)
76
Рассмотрим вопрос от том, когда решение будет достигаться
внутри области A1 ?L ? AT = ?T , то есть при каких значениях
+
параметров ? и ? (7) будет действительно решением (1), а когда
решение будет достигаться на границе и каким будет решение в
этом случае.
При ? < 0 для любого ? решение достигается на границе и
равно xt = 0, t = 1, T , эффективность K1 в этом случае равна нулю.
При ? > 0, ? ? ?1 решение достигается на границе области
?T , и оптимальными планами будут
+
x i = ? , x1 ,K, x i ?1 , x i +1 ,K, x T = 0 . Подставляя эти планы в выра-
жение для эффективности (6), получаем, что эффективность в
?2
этом случае равна K 1 = .
2
При ? > 0, ? > ?1 решение достигается внутри области
?T + и, следовательно, оптимальные планы выражаются форму-
лой (7), а эффективность – формулой (8).
ДАС2. В модели ДАС2 1 < ? 0 < T , L0 = 1 , план x t = y t * . Та-
ким образом, учитывая, что как только центр в момент времени
t = T ? ? 0 + 1 начинает «видеть период T», для него согласно
принципу оптимальности Беллмана оптимальными планами в
последующие периоды будут являться решения задачи (1) для
периода t = T ? ? 0 + 1 , из (5) имеем, что оптимальные внутренние
планы определяться следующей формулой:
?1 ?
?x =
1 ? (? 0 ? 1) ?
?
? t ?1
? ?
? ?
?t
?1 + ? , где t = 2,K, T ? ? 0 .
(9) ? x =
1 ? (? 0 ? 1) ? ? 1 ? (? 0 ? 1) ? ?
? ?
?
? T ??
? ?0
? ?
? x T ??0 +1 = L = x T = ?1 + ?
1 ? (? 0 ? 1) ? ? 1 ? (? 0 ? 1) ? ?
?
? ?
?
Подставляя планы из (9) в выражение (6), находим эффек-
тивность:
77
2( T ?? 0 ) +1
? ?
? ?
?
?(1 + ? )?1 + + 2(? 0 ? 1) ? ? 1?
?
? 2
? 1 ? (? ? 1) ? ?
? ?
? ?
? ?.
0
(10) K 2 =
2 ? ( 2(1 ? (? 0 ? 1) ? ) + ? )
Также как и в случае с ДАС1, определим при каких значени-
ях параметров ? и ? "внутренние" планы (9) будут действительно
решениями поставленной задачи.
При ? < 0 для любого ? решение достигается на границе и
равно xt = 0, t = 1, T , а эффективность K2 в этом случае равна
нулю.
При ? > 0, ? ? ?1 решение достигается на границе области
?T и оптимальными планами будут
+
x i = ? , x1 ,K, x i ?1 , x i +1 ,K, x T = 0 . Подставляя эти оптимальные
планы в выражение для эффективности (6) получаем, что эффек-
?2
тивность в этом случае равна K 2 = .
2
При ? > 0, ? 1 < ? < 1 /(? 0 ? 1) решение достигается внутри
области ?T + , и, следовательно, оптимальные планы выражаются
формулой (9), а эффективность – формулой (10).
При ? > 0, ? ? 1 /(? 0 ? 1) оптимальными будут сколь угодно
большие планы (бесконечные) во всех периодах, так как, несмот-
ря на квадратичные затраты, при данных значениях параметров ?
и ? затраты окупаются уже во втором периоде. Эффективность в
этом случае бесконечно большая. Конечно, такой результат обу-
словлен отсутствием ограничений, которые обычно присутствуют
в реальной жизни. Например, обычно экономические агенты не
готовы терпеть в первый период огромные убытки, даже если
знают, что уже во втором периоде они будут компенсированы. Но
более серьезное ограничение состоит в том, что множество воз-
можных действий обычно ограничено сверху.
ДАС3. В модели ДАС3 1 < ? 0 < T , 1 ? m0 ? L0 ? ? 0 , план на
период обязательств определяется из (5)
x L0 + km 0 ?1 ,K, x L0 + ( k +1)m 0 = y L0 + km 0 ?1* . Учитывая, во-первых, то,

78
что решая задачу (1) для периода t , в котором принимается ре-
шение, мы находим план не только на этот период, но и на период
обязательств, и, во вторых, принимая во внимание лемму 1, полу-
чаем оптимальные (внутренние) планы для ДАС3:
? x1 = K = x L0 = x 0
?
? x L0 + 1 = L = x L0 + m 0 = x 0 b
(11) ? ,
?M
? L0 + ( n ?1)m0 +1
= L = x T = x 0bn
?x
где
? 1 ? ? (? 0 ? 1 ? L0 ) ?
?
, b=? ? 1 ? (? ? 1 ? L + m ) ? ?,
x0 = ?
1 ? (? 0 ? 1) ? ? ?
0 0 0

?T ? ?0 ?
n = целая часть ?
m0 ?
.
? ?
Подставляя планы из (11) в выражение (6), находим выраже-
ние для эффективности K3 ДАС3:
0 b ?1
n
K 3 = ? ( L0 x + m0bx + (T ? L0 ? m0 n ) x 0b n ) +
0
b ?1
? 0 b ?1
n
+ ( L0 x + m0 bx + (T ? L0 ? m0 n ) x 0b n ) 2 ?
0
b ?1
(12) 2
? +1 ?1
2n
2 0 2b
? ( L0 ( x ) + m0 b ( x ) 2
02
b ?1
2
+ (T ? L0 ? m0 n )( x 0 ) 2 b 2 n )
Анализ значений параметров ? и ?, при которых планы, вы-
ражаемые (11), будут действительно решениями нашей задачи,
аналогичен анализу, проведенному для ДАС2 и дает такой же
результат, поэтому не будем его повторять.
ДАС4. В модели ДАС4 ? 0 = T0 , планы определяются как
x t = y 1* , то есть они одинаковы для всех периодов, и выражаются
формулой:
?
(13) x t = , t = 1, T .
1 ? (T ? 1) ?
79
Соответственно, эффективность модели ДАС4 будет:
? 2T
(14) K 4 = .
2(1 ? (T ? 1) ? )
Мы не будем здесь приводить анализ допустимости решения
(13), так как он полностью аналогичен анализу для ДАС2, и
результаты получаются такими же, но с ? 0 = T .
Отметим, что модели ДАС1, ДАС2, ДАС4 являются частны-
ми случаями модели ДАС3. Действительно, при ? 0 = L0 = m0 = 1
ДАС3 переходит в ДАС1, при 1 < ? 0 < T , L0 = m0 = 1 ДАС3 пере-
ходит в ДАС2, при ? 0 = T ДАС3 переходит в ДАС4. Таким обра-
зом, подставляя в формулы (11) и (12) планов и эффективности
для ДАС3 соответствующие значения дальновидности, горизонта
обязательств и частоты принятия решения, получим формулы (7)
и (8) планов и эффективности для ДАС1, формулы (9) и (10)
планов и эффективности для ДАС2, формулы (13) и (14) планов и
эффективности для ДАС4.
Таким образом, для того, чтобы понять какая модель лучше в
смысле эффективности, достаточно исследовать поведение K3
будем пользоваться обозначением
(далее
K 3 = K (? , ? ,? 0 , L0 , m0 , T ) ) в зависимости от изменения парамет-
ров дальновидности ?0, горизонта обязательств L0, и частоты
принятия решения m0.
На рисунке 7 изображены графики зависимости эффективно-
стей от ? для всех четырех моделей при ? > 0. Видно, что есть
две особые точки на графике, где все четыре кривые пересекают-
ся – при ? = 0 и ? = 1. При этом в нуле для эффективностей
K1 , K 2 , K 3 происходит излом.




80
K




K1
K2
K3
K4

?2T/2




?2/2 ?
1 0 1/(T-1) 1/(?0-1)


Рис. 7. Сравнение эффективности моделей ДАС1, ДАС2, ДАС3, ДАС4.


Для рассматриваемой линейной модели выполняется соот-
ношение K1 ? K 3 ? K 2 ? K 4 , то есть самой эффективной является
модель ДАС4 (что и должно было получиться, как было показано
в Теореме 5), далее в порядке уменьшения эффективности идет
модель ДАС2, потом ДАС3, и наконец наименее эффективной
является модель ДАС1.
Также верно утверждение, что чем больше дальновидность,
тем выше эффективность. Это продемонстрировано на рисунке 8,
где для модели ДАС2 изображена зависимость эффективности K2
от величины дальновидности ?0.



81
9.5




9




8.5
K2




8




?0
7.5
0 1 2 3 4 5 6 7 8 9 10



Рис. 8. Зависимость эффективности модели ДАС2 от
дальновидности центра ?0 при ? = 0.05, T = 10



Таким образом, можно сделать вывод о том, что в рассматри-
ваемой модели чем больше центр информирован о будущем в
каждый момент времени (если рассматривать модель ДАС3 как
модель ДАС2 с переменной дальновидностью – см. лемму 1), тем
выше эффективность.
Как показано на рисунке 9, при ? < 0 оптимальные планы
убывают со временем. Содержательно это означает то, что, раз
сумма действий за предыдущие периоды негативно влияет на
доход в этом периоде, то со временем план следует понижать,
чтобы сдерживать негативное влияние на будущее. Такая ситуа-
ция может возникнуть, например, в модели загрязнения окру-
жающей среды.




82
x 1

0.9

0.8

0.7

x1 0.6

x2 0.5

x3 0.4

x4 0.3

0.2

0.1

t
0
0 1 2 3 4 5 6 7 8 9 10 11 12



Рис. 9. Оптимальные планы для моделей ДАС1 – x1, ДАС 2 – x2
(?0 = 5), ДАС3 – x3 (?0 = 5, L0 = 4, m0 = 2) и ДАС4 – x4
в случае ? < 0, T = 12

Рассмотрим несколько иллюстративных примеров.
Пример 8 (модель загрязнения окружающей среды). Рас-
смотрим город, построенный около крупного предприятия хими-
ческой промышленности. В процессе функционирования пред-
приятие выбрасывает вредные вещества в атмосферу, тем самым
загрязняя окружающую среду. Пусть количество загрязнений
линейно зависит от объема выпускаемой продукции, а степень
загрязнения зависит от суммы всех выбросов, начиная с момента
начала функционирования до текущего момента. Это неявно
предполагает, что со временем негативный эффект от выбросов
сохраняется довольно долго, не диссипируя во времени. Благопо-
лучие города зависит не только от объема выпускаемой предпри-
83
ятием продукции, но и от самочувствия людей, живущих в горо-
де, а значит – от состояния окружающей среды.
Рассмотрим, как эта ситуация может быть отражена в выше-
изложенной модели с накоплением. Центром является город,
агентом (активным элементом) является предприятие. Производя
действие – производство некоторого количества продукции в год,
предприятие этим самым оказывает определенное негативное
воздействие на окружающую среду, накопление которого скажет-
ся в том числе в будущих периодах. Этой модели соответствует
значение ? < 0. Если администрация города не знает к каким
последствиям в будущем могут привести действия в настоящем,
то есть, если центр недальновиден и соответственно действует в
рамках модели ДАС1, то в первый период администрация утвер-
ждает большой план для производства. Уже во втором периоде
последствия от этого действия начинают сказываться, что выра-
жается в достаточно сильном ухудшении состояния окружающей
среды. Это приводит к резкому уменьшению оптимального плана
на следующий период (см. рисунок 9).
Если администрация города более информирована о вредном
влиянии производства на окружающую среду, т.е. реализуется
модель ДАС2 или ДАС3, то уже в первый момент времени назна-
чается сравнительно небольшой план. Поэтому оптимальные
планы для этих моделей не так резко уменьшаются в начальных
периодах, как это происходит в случае недальновидного центра.
Можно сказать что к реальной ситуации наиболее приближены
модели ДАС2 и ДАС3, так как обычно о вредном воздействии на
атмосферу руководство города и завода знает и учитывает этот
фактор, вопрос в том насколько далеко вперед (в будущее) центр
«заглядывает» при принятии текущих решений.
В случае полностью дальновидного центра (реализуется мо-
дель ДАС4), оптимальными являются низкие, но одинаковые
планы на весь период функционирования предприятия (в качестве
которого может быть выбрано характерное время диссипации
загрязнений). В рассматриваемом примере такая ситуация может
возникнуть только в случае, если точно известен срок жизни
предприятия (или администрации) и, более того, центр обладает
полной информацией о функциях затрат и дохода на весь этот

84
период. Такие жесткие требования модели ДАС4 говорят о том,
что она будет вряд ли может быть реализована на практике.
Рассмотрим другой случай, когда ? > 0. При ? ? 1 / (?0 – 1)
оптимальными являются бесконечно большие планы, которые
дают бесконечно большую эффективность. Для случая
1
> ? > 0 оптимальные планы представлены на рисунке 10.
?0 ? 1

x
7.5

7
6.5
6
5.5

5
x1
4.5
x2
4
x3
3.5
x4
3
2.5

2
1.5
1
0.5
t
00 1 2 3 4 5 6 7 8 9 10 11 12

Рис. 10. Оптимальные планы для моделей ДАС1 – x1,
ДАС 2 – x2 (?0 = 5), ДАС3 – x3 (?0 = 5, L0 = 4, m0 = 2) и ДАС4 – x4
в случае 1/(?0 – 1) > ? > 0, T = 12




85
В этом случае оптимальные планы возрастают во времени.
При этом план для модели с полной дальновидностью (то есть
для ДАС4) изначально самый большой. •
Случай ? > 0 может хорошо подходить для описания модели
фирмы, выходящей на новый неосвоенный еще ни кем рынок
сбыта.
Пример 9 (модель выхода фирмы на новый рынок). Пусть
некоторая компания продвигает новый продукт на рынок, и этот
продукт является уникальным, то есть у компании нет конкурен-
тов. Проблема заключается в неосведомленности потенциальных
покупателей о данном продукте.
Предположим, что спрос определяется осведомленностью
покупателей о продвигаемом продукте. Чем больше продано
продукта за предыдущие периоды, тем больше о нем осведомлен-
ность потребителя, и значит тем больше будет спрос на него в
текущем периоде. Такое поведение укладывается в рассматри-
ваемую модель ДАС с ? > 0, где центром является руководство
предприятия, которое назначает план, ориентируясь на потенци-
альный спрос.
Если руководство недальновидно, то есть не знает, что коли-
чество продукта, которое предприятие произведет сегодня и
которое будет продано, положительно скажется на спросе в сле-
дующем периоде, то оно назначает небольшой план относительно
плана, который был бы назначен, если руководство было бы
дальновидно (см. рисунок 10). Со временем оптимальный план не
уменьшается для всех четырех моделей (в случае ДАС4 он оста-
ется постоянным) так как спрос на продукцию растет и, чтобы
удовлетворить этот спрос, и, соответственно, получить больший
доход, надо увеличивать план.
Основной полученный выше результат о соотношении эф-
фективностей различных моделей ДАС: K1 ? K 3 ? K 2 ? K 4 , мож-
но проинтерпретировать следующим образом. Чем больше ком-
пания знает о поведении потребителей в будущем (то есть
обладает большей дальновидностью), тем она ведет себя более
эффективным образом.
Обсудим границы применимости рассматриваемой модели в
данном примере. Основное ограничение состоит в том, что функ-
86
t ?1
цию g ( ? y? ) , отражающую эффект накопления, на практике
? =1
можно полагать линейной только при небольших значениях
аргумента, потому что рынок сбыта не является бесконечным и
как только продукт заполнит в этом рынке свою нишу, описывае-
мый эффект перестанет действовать. Таким образом, можно
говорить что предложенная модель хорошо описывает процесс
выхода нового продукта на рынок в начальной стадии освоения
этого рынка при условии уникальности и востребованности про-
дукта. •
В заключение настоящего раздела отметим, что в рассматри-
ваемой задаче считалось, что коэффициент дисконтирования
равен единице, то есть будущий доход для центра для него также
важен как и доход в настоящем. На практике коэффициент дис-
контирования обычно меньше единицы. В этом случае граница
для ? (см. рисунок 7), начиная с которой оптимальными стано-
вятся бесконечно большие действия, сместится вправо.




87
ЗАКЛЮЧЕНИЕ

Таким образом, в настоящей работе:
- проведен обзор основных результатов теории активных сис-
тем, теории иерархических игр и теории контрактов по управлению
динамическими активными системами (см. Приложение);
- дана общая постановка и введена система классификаций за-
дач управления ДАС (раздел 1), выделены четыре базовых модели
ДАС (раздел 2);
- решена задача стимулирования в многоэлементной детерми-
нированной ДАС (теоремы 1 и 3), охарактеризовано множество
планов, согласованных в ДАС (теорема 2);
- классифицированы распределения дальновидностей и гори-
зонты принятия решений участниками ДАС, выявлен и исследован
эффект обмена ролями, заключающийся в опережающем принятии
решений управляемым субъектом (теорема 4);
- исследовано влияние режимов управления на эффективность
управления базовыми ДАС (теоремы 5-6);
- решены задачи управления и получены оценки сравнитель-
ной эффективности различных режимов управления двух и трехпе-
риодными ДАС (теоремы 7-8);
- изучены «эффекты накопления» в ДАС (раздел 5), что позво-
лило описать и исследовать ряд прикладных моделей.
Приложение
ОБЗОР ОСНОВНЫХ РЕЗУЛЬТАТОВ
ТЕОРИИ АКТИВНЫХ СИСТЕМ, ТЕОРИИ
ИЕРАРХИЧЕСКИХ ИГР И ТЕОРИИ КОНТРАКТОВ
ПО УПРАВЛЕНИЮ ДИНАМИЧЕСКИМИ
АКТИВНЫМИ СИСТЕМАМИ


Повторяющиеся игры
Рассмотрим игру n лиц1, стратегией каждого из которых явля-
ется выбор yi ? Ai, i ? I. Если обозначить функцию выигрыша i-го
игрока fi(y), y = (y1, y2, ..., yn) ? A’ = ? Ai , то однопериодной игрой
i?I
G называется кортеж G = (A1, A2, ..., An, f1, f2, ..., fn). Динамической
игрой G(T) (повторяющейся игрой, суперигрой и т.д.) называется
игра G, повторенная T раз. Выигрыш ?i i-го игрока в суперигре есть
среднее значение его выигрышей по всем периодам, то есть2


1
Так как ниже приводится обзор основных результатов различных науч-
ных школ и направлений по исследованию теоретико-игровых моделей
управления динамическими активными системами (теория активных
систем, теория игр, теория контрактов и т.д.), а в различных классах
моделей для обозначения одних и тех же субъектов используются различ-
ные термины, то при описании результатов мы будем использовать
терминологию, принятую в соответствующей научной школе. Во избе-
жании путаницы следует отметить, что «равноправные» субъекты в
теории игр обозначаются терминами «игрок» («второй игрок» или «про-
изводитель» в теории иерархических игр), в теории активных систем –
«активный элемент» или просто «элемент», а в теории контрактов –
«агент» (agent). Если рассматривается иерархическая система, то
игроки, обладающие правом первого хода в рамках каждого периода
функционирования, обозначаются: «центр» – в теории активных систем,
«центр» или «первый игрок» – в теории иерархических игр, «начальник»
(principal) – в теории контрактов. В ходе дальнейшего изложения в целях
общности термины, обозначающие одно и то же понятие, будут исполь-
зоваться как синонимы.
2
В выражении (1) предполагается, что игроки одинаково учитывают
полезности, получаемые в различных периодах. Учет будущего произво-
дится введением дисконтирующих множителей (см. ниже).
89
T
1
? fi ( y t ) ,
(1) ?i(y ) =
1,T
T t =1

где yt = ( y1 , y 2 , ..., y n ) ? A’ – вектор стратегий игроков в момент
t
t t

времени t, y1,T = (y1, y2, ..., yT) – вектор стратегий игроков за перио-
ды с первого по период T. «Стратегией»1 i-го игрока в игре G(T) в
момент времени t является отображение ? it : (A’)t-1 > Ai истории
игры y1,t-1, сложившейся к моменту (t – 1), во множество его допус-
тимых стратегий. Следовательно, «стратегия» i-го игрока – вектор
?i = (? i1 ,? i2 , ..., ? iT ). Набор ? = (?1, ?2, ..., ?n) индуктивно опре-
деляет в суперигре путь (y1(?), y2(?), ..., yT(?)), где y1(?) = ?1,
yt(?) = ? t(y1,t-1(?)), t > 1.
Равновесие Нэша ?* определяется следующим образом:
1T 1T
? f i ( y (? )) ? T ? fi ( y t (? ? i , ? i )) ? ?i, i ? I.
t * *
(2)
T t =1 t =1
Обозначим: N(T) – множество равновесных по Нэшу путей в
суперигре (предположим, что N(1) не пусто); ? imin – гарантирован-
ный (максиминный) выигрыш i-го игрока (стратегия, обеспечи-
вающая ?i ? ? imin , называется индивидуально рациональной (IR)), ?
– выпуклую оболочку множества возможных значений целевых
функций игроков; ?* – подмножество множества ?, состоящее из
выигрышей игроков, доминирующих максиминные; G(T-t) – по-
дыгру игры G(T), соответствующую последним T – t периодам, где
t < T; ?i(y1,?) – стратегию i-го игрока в игре G(T – ?) такую, что
? i1 (y1,?) = ? i? +1 (y1,?) ? t < T – ?, ? a1,t = (a1, a2, ..., at)
и
? i? +1 (a1,t) = ? it +? +1 (y1,?, a1,t); ?(y1,?) = (?1(y1,?), ?2(y1,?), ..., ?n(y1,?)).



1
Употребление кавычек обусловлено тем, что термин «стратегия» в
теории игр используется в двух смыслах – как результат выбора игрока
(в рассматриваемой модели – элемент множества Ai) и как используемое
им правило принятия решений (в рассматриваемой модели – отображе-
ние имеющейся информации во множество Ai).
90
Стратегия ? называется согласованным с подыграми равнове-
сием (Subgame Perfect Equilibrium – SPE1) суперигры G(T), если ? –
равновесие Нэша в суперигре и ? ? < T, ? y1,? ?(y1,?) – равновесие
Нэша в подыгре G(T-?). Содержательно SPE является усилением
концепции равновесия Нэша для случая повторяющихся игр –
требуется, чтобы для всех подыгр, заканчивающихся в момент
времени T, стратегия была равновесной по Нэшу для любой исто-
рии игры, предшествующей рассматриваемой подыгре (идеология
близка к принципу оптимальности Беллмана в динамическом про-
граммировании [9, 10]). SPE, в частности, обладает следующим
свойством: путь, образованный последовательностью равновесных
путей, является равновесным в игре, образованной последователь-
ностью соответствующих игр.
Основная идея повторяющихся игр заключается в том, что при
многократном повторении однопериодной игры удается добиться
того, что выбор игроками индивидуально рациональных стратегий
приводит к реализации рационального для всего коллектива исхо-
да. В однопериодной игре это не всегда так: в общем случае, если
используется некооперативная концепция равновесия (равновесие
Нэша), то в однопериодной игре точка Нэша может оказаться не-
эффективной (по Парето) с точки зрения всех игроков. В то же
время, может существовать оптимальный по Парето набор страте-
гий, который не является равновесным по Нэшу. Классическим
примером является игра двух лиц "дилемма заключенного" (см.,
например, [66, 82, 107, 128]).
Многократное повторение рассматриваемой игры в некоторых
случаях позволяет "оставить" игроков в Парето-оптимальной точке.
Интуитивно понятно, что для этого нужно придумать механизм,
который предотвращал бы отклонения, то есть наказывал бы от-
клонившегося игрока, причем наказывал настолько сильно, чтобы
отклонение становилось невыгодным. Этой цели служит вводимая
ниже стратегия наказания2.

1
Иногда SPE переводится как «абсолютное равновесие Нэша» [66], или
«совершенное равновесие Нэша».
2
В иерархических системах «наказание» может осуществляться цен-
тром, что иногда позволяет добиться эффективного равновесия в ста-
тике [53].
91
Обозначим через P(T) множество всех SPE в игре G(T), обла-
дающее следующими свойствами [87, 88, 101, 115]: это множество
компактно; если некоторый путь принадлежит P(T), то любой
подпуть, получаемый из исходного отбрасыванием, начиная с
первого момента времени, любого (меньшего T) числа стратегий,
также принадлежит P(T). Определим оптимальную k-периодную
стратегию наказания i-го игрока:
k
= min { ? f i ( y t ) | y1,k ? P(k)}.
Wi1, k
(3)
t =1
Для того чтобы y1,T ? P(T) необходимо и достаточно, чтобы
? i ? I, ? t < T
T
? fi ( y j ) ,
Wi1,T ? t ?
(4)
j = t +1
то есть наказание должно быть достаточно сильным – полезность
при наказании в течение всех оставшихся периодов не должна
превышать то, что игрок мог бы получить не будучи наказанным
[91, 92, 103, 105].
Содержательно, качественное отличие повторяющихся (мно-
гопериодных) игр от "обычных" (статических, однопериодных)
заключается в том, что наличие нескольких периодов повышает
ответственность игроков за свои действия – если кто-то повел себя
не так как следовало, то в следующих периодах он может быть
наказан остальными игроками за это отклонение. Для того, чтобы
предотвращать отклонения, наказание должно быть достаточно
сильным (см. (4)) и компенсировать возможный выигрыш игрока,
который тот получает отклоняясь. Переключение с "нормального"
режима на наказание (и быть может возвращение к исходному
режиму через несколько периодов) получило название триггерной
стратегии. Некоторые примеры того, как строить триггерные
стратегии и того, как определить наилучший момент переключения
(ведь не всегда можно достоверно установить факт отклонения,
особенно в условиях неполной информированности), приведены в
[108, 122, 131, 134, 145].
Существенной в повторяющихся играх оказывается информи-
рованность игроков. Если все игроки наблюдают все стратегии,
выбранные партнерами в прошлом, то будем говорить, что имеет
место полная информированность (perfect monitoring [133]). Если
92
же стратегии, выбираемые в прошлом, ненаблюдаемы, а есть дру-
гая информация, например, если наблюдаемы полезности игроков1,
то имеет место неполная информированность (imperfect
monitoring).
Основным результатом (группой результатов), полученным
при исследовании повторяющихся игр является так называемая
"народная теорема" (Folk Theorem (FTh)) [83, 110, 114, 139, 147 и
др.]. Приведем серию теорем типа FTh [104]:
FTh1: Если игроки слабо дисконтируют будущее (коэффици-
енты дисконтирования близки к единице), то для любого вектора
выигрышей ?* ? ?* существует равновесие Нэша в бесконечной
суперигре, в котором игроки получают выигрыши, в точности
равные ?*.
Интуитивное обоснование этого результата таково. Пусть в
многопериодной игре игроки выбирают стратегии y* ? Ai, i ? I,
i
обеспечивающую выигрыши ?*, до тех пор пока игрок с некоторым
номером i не отклонится от соответствующей своей стратегии. В
случае его отклонения в периоде k все игроки переключаются на
Wi k ,? . Понятно, что в бесконечной игре при достаточно слабом
дисконтировании моментальный выигрыш от отклонения компен-
сируется "вечным" наказанием.
FTh2: ? ?* ? ?* в бесконечно повторяющейся игре без дис-
контирования существует SPE, в котором ожидаемый выигрыш i-го
игрока равен ? i* , i ? I.
FTh3: Если некоторый вектор выплат ?* ? ?* Парето-
доминирует равновесные по Нэшу выплаты в однопериодной игре,
то при слабом дисконтировании в бесконечной суперигре сущест-
вует SPE, в котором средний выигрыш равен ?*.
Для простоты далее будем считать, что все игроки одинаково
учитывают будущее (имеют одинаковый дисконтирующий множи-
тель) ?.

1
До сих пор мы считали, что при принятии решений о выборе стратегии
в каждом периоде каждый игрок одинаково учитывает будущие периоды
(см. (1)). Однако, зачастую, будущие периоды учитываются с разными
весами – дисконтирующими множителями.
93
FTh4: Пусть ?(?) ? ?* множество средних выигрышей игроков
в SPE бесконечно повторяемой игры, в которой игроки имеют
дисконтирующий множитель ?. Тогда ? ? < 1 соответствие ?(?)
полунепрерывно сверху (требование полунепрерывности наруша-
ется при ? = 1 (см. [104])).
В случае дисконтирования будущего справедлива
FTh5: Если n = 2, то ? (?1, ?2) ? ?* ? ?0 ? (0; 1): ? ? ? (?0; 1)
cуществует SPE суперигры, в котором игроки получают средние
выигрыши ?1 и ?2, если их дисконтирующие множители равны ?.
Теорема FTh5 может быть обобщена на случай произвольного
конечного числа игроков (достаточно потребовать непустоты внут-
ренности множества ?*) [104].
На силу наказания (в сравнении выигрыша от одномоментного
отклонения и дисконтированного проигрыша от наказания) суще-
ственно влияет величина дисконтирующего множителя, конечность
[91] (а иногда и величина) или бесконечность T [34], а также ин-
формированность игроков. При полной информированности в
суперигре может существовать равновесие Нэша, доминирующее
по Парето равновесие Нэша однопериодной игры. Если игроки не
дисконтируют будущие полезности, то множества равновесных
векторов выплат в однопериодной и многопериодной игре совпа-
дают. Если игроки дисконтируют будущие полезности, то все
равновесия суперигры, в принципе, могут быть неэффективны (по
Парето), хотя, обычно, при условии, что дисконтирующие множи-
тели не очень малы, существуют равновесия суперигры, домини-
рующие по Парето однопериодные.
В случае двух игроков и полной информированности равнове-
сие в суперигре обладает следующим свойством непрерывности:
любой эффективный индивидуально рациональный вектор выплат
однопериодной игры может быть сколь угодно точно аппроксими-
рован равновесным вектором выплат суперигры. В [133] приведен
пример неэффективного равновесия при наличии дисконтирования
будущего, в [126], напротив, показывается, что при неполной ин-
формированности в некоторых случаях FTh оказывается верна. В
условиях полной информированности при условии, что игроки не
дисконтируют свои полезности (берется средняя полезность), в
суперигре существует эффективное равновесие. Если же игроки
дисконтируют свои полезности, то равновесие в многопериодной
94
игре будет превосходить (по Парето) равновесие однопериодной
игры [132]. В случае полной информированности факт отклонения
каким-либо игроком от эффективной стратегии устанавливается
тривиально, так как выбор стратегий наблюдаем. В случае непол-
ной информированности все оказывается несколько сложнее –
после каждого периода каждый игрок проверяет статистическую
гипотезу, что все остальные игроки выбрали эффективные страте-
гии. Если один из игроков отвергает эту гипотезу, то все игроки
переключаются на равновесные в однопериодной игре равновесия
Нэша (эта стратегия, в общем случае, неэффективна). После задан-
ного числа шагов (фаза наказания) все игроки возвращаются к
эффективным стратегиям и опять проверяют свои гипотезы. Неко-
торые модели учитывают репутацию игроков если в течение дли-
тельного времени они вели себя "хорошо", то для переключения на
стратегию наказания при проверке статистических гипотез требует-
ся выполнения более жестких условий [102].
Условия и стратегии суперигры, приводящие к векторам по-
лезностей, доминирующим однопериодное равновесие Нэша и
даже более того, эффективным в однопериодной игре, для случая
полной информированности приводятся в [132]. Этот же результат
имеет место и для неполной информированности при некоторых
дополнительных условиях (теорема 7.1 в [132]). К "недостаткам"
FTh следует отнести: отсутствие предсказуемости (любой индиви-
дуально рациональный результат может быть равновесием супер-
игры; FTh утверждает, что в суперигре возможно кооперативное
равновесие (Парето), но непонятно каковы механизмы его дости-
жения; наличие угрозы для того игрока, который отклоняется (или
собирается отклониться), может привести к тому, что он захочет
пересмотреть правила игры и т.д. [85, 92, 99, 120, 129].

Повторяющиеся иерархические игры
Особо следует отметить результаты исследования повторяю-
щихся игр в теории иерархических игр1. Наибольший интерес с

1
Исторически сложилось так, что исследования по многим близким
направлениям теории игр (в том числе и повторяющимся играм) в СССР
и за рубежом велись параллельно, но независимо. Справедливости ради,
надо отметить, что относительно многих результатов типа FTh – ср.,
например, [30, 32, 41] и [115] (не говоря уже о иерархических многошаго-
95
точки зрения настоящей работы представляют приведенные в [41]
общие результаты (см. там же соответствующий обзор), характери-
зующие оптимальные стратегии и выигрыш центра при повторени-
ях игр типа Г1 и Г2 [30]. В том числе рассматривались две модели.
В первой модели1 центр (игрок, делающий ход первым) сооб-
щает агенту (второму игроку) свои стратегии – функции ui(y1,i),
i = 1, T (при использовании таких стратегий могут быть учтены
случаи произвольного запаздывания информации, получаемой
первым игроком о стратегии, выбранной вторым игроком), после
чего выбор второго игрока становится “одношаговым” и заключа-
ется в определении оптимального для него при заданном управле-
нии вектора y1,T. Как и в статическом случае [30, 32], выделяются
два режима – за выбор определенных стратегий (действий) агент
поощряется, за выбор остальных действий наказывается. Таким
образом, оптимальной является следующая стратегия центра –
использовать «поощрения» до тех пор, пока агент в первый раз не
выберет несогласованное с центром действие, после чего центр до
конца игры переключается на использование стратегии наказания.
Этот результат охватывает результаты, полученные для статиче-
ских игр, как частные случаи, и, кроме того, позволяет получить
решение задачи синтеза оптимальных управлений со стороны
центра в повторяющихся иерархических играх, в которых целевой
функцией агента является суммарная по периодам дисконтирован-
ная полезность (при условии, что полезность в каждом периоде
зависит только от стратегий, выбранных в этом периоде) [41].
Во второй модели центр сообщает агенту свои стратегии –
функции ui(y1,i), i = 1, T – последовательно, то есть только на оче-
редной ход, когда будет выбираться yi. При этом решение может
получено применением принципа оптимальности Беллмана – счи-
тая известными u1,T-1(?) и y1,T-1, центр решает статическую задачу –
определения оптимального управления uT(?, u1,T-1, y1,T-1) и т.д.,
вплоть до первого периода.

вых играх [33, 34, 40]) приоритет принадлежит советским или россий-
ским ученым.
1
Предпочтения игроков в данной модели отражены произвольными
непрерывными функциями от векторов всех стратегий за все предыду-
щие периоды игры.
96
Многошаговые иерархические игры, описывающие управление
динамической системой, состояние которой в момент времени t+1
зависит от ее состояния в момент времени t и управлений, выбран-
ных центром (стратегия центра – функция от состояния системы) и
агентом (агент в каждый момент времени выбирает свою стратегию
при известной стратегии центра), рассматривались в [41, 66]. Дан-
ная игра сводится к антагонистической игре (определение страте-
гий наказания) и задаче оптимального управления.

Динамические задачи теории контрактов
В настоящем разделе рассматриваются динамические задачи
теории контрактов, которые, с одной стороны, используют общие
результаты анализа повторяющихся игр, а с другой – достаточно
близки к динамическим моделям, исследуемым в теории активных
систем (ТАС) – см. ниже.
Если предположить, что результаты деятельности АЭ в раз-
личных периодах не связаны, элементы недальновидны и отсутст-
вуют общие ограничения на целевые функции и допустимые мно-
жества различных периодов, то получится последовательность
базовых моделей теории контрактов [15, 57, 58, 125, 131], каждая из
которых может исследоваться независимо.
В случае наличия общих ограничений на целевые функции,
допустимые множества, параметры механизма стимулирования и
т.д., при несвязанных периодах функционирования, задача стиму-
лирования в динамической системе, по аналогии с задачей стиму-
лирования в системе со слабо связанными элементами, может быть
сведена к стандартной задаче условной оптимизации [52, 56-58].
Оба описанных выше случая представляются довольно триви-
альными и редко встречаются на практике. Поэтому рассмотрим
двухпериодную одноэлементную динамическую задачу теории
контрактов и методы ее решения, следуя введенной в [15] термино-
логии.
Модель теории контрактов относится к моделям систем с
внешней вероятностной неопределенностью [15, 58] и качественно
заключается в следующем. Агент предпринимает некоторые дейст-
вия, которые совместно с реализацией внешнего неопределенного
(случайного) параметра приводят к определенным результатам
деятельности. Принципиальное отличие данной модели от детер-
97
минированной заключается в том, что на момент принятия решений
о выбираемых стратегиях участники системы (центр и агент) не
имеют информации о будущем значении состояния природы, обла-
дая лишь информацией о параметрическом распределении вероят-
ностей результатов деятельности при тех или иных действиях.
Кроме того, считается, что действие агента ненаблюдаемо для
центра, поэтому управление может основываться лишь на наблю-
даемой реализации случайной величины – результата деятельности,
а участники системы предполагаются рациональными в смысле
стремления максимизации своих ожидаемых полезностей.
Введем некоторые обозначения: A = {y1, y2, ..., yn},
A = {z1, z2, ..., zn} (множества возможных действий и результатов
деятельности конечны); y1 ? A – действие АЭ в первом периоде;
y2 ? A – действие АЭ во втором периоде; zj ? A0 – результат дея-
тельности АЭ в первом периоде; ?j ? M – стимулирование АЭ в
первом периоде за результат zj, ?jl ? M – стимулирование АЭ во
втором периоде за результаты: zj и zl в первом и втором периодах,
соответственно; ? = (?j, ?jl); ?(y1 – ?j, y2 – ?jl) – возрастающая и
вогнутая по обеим переменным целевая функция центра;
f(?j, ?jl, y1, y2) – возрастающая и вогнутая по ? и убывающая по y
целевая функция АЭ; pj(yk) – вероятность результата zj при дейст-
вии yk, k = 1, 2, j, l = 1, n . Итак, ожидаемые полезности центра и
агента имеют, соответственно, вид:
n
? p j ( y1 ) pl ( y 2 ) ?( y1 ? ? j , y 2 ? ? jl ) ,
(1) E?(?, y) =
j , l =1
n
? p j ( y1 ) pl ( y 2 ) f (? j , ? jl , y1 , y 2 )
(2) Ef(?, y) =
j , l =1
где y = (y1, y2), E – оператор математического ожидания. По анало-
гии с базовой однопериодной моделью [15], задача поиска двухпе-
риодного оптимального контракта (напомним, что контрактом
называется совокупность {?*; y*} оптимальной системы стимули-
рования и реализуемого ей действия АЭ [15, 42, 56]):
(3) E?(?, y*) > max
? ?M
(4) y ? Arg max Ef(?, y)
*

y? A 2

98
может быть решена двушаговым методом1 [15, 56, 125]. Отметим,
что рассматриваемая постановка непосредственно обобщается на
случай любого конечного числа периодов.
Понятно, что вычислительная сложность даже двухпериодной
задачи намного выше, чем статической. Редуцировать динамиче-
скую задачу к статической удается лишь в крайне ограниченном
числе случаев (см. [140] – использование условий Куна-Таккера и
сведение к вариационной задаче, [119] – использование подхода
первого порядка [15, 125, 132, 134]).
Так как в рассмотренной выше модели стимулирование во вто-
ром периоде зависит и от результатов первого периода, то кон-
тракт, являющийся решением задачи (3)-(4) и обладающий этим
свойством, называется контрактом с памятью (условия независи-
мости вознаграждений в различных периодах обычно формулиру-
ются в терминах свойств функций распределения). Если в каждом
периоде АЭ стимулируется только по результатам текущего перио-
да, то контракт называется контрактом без памяти [100]. Основ-
ной вопрос, возникающий при изучении динамических контрактов,
заключается в выяснении преимуществ, которыми обладает дина-
мический контракт со связанными периодами и памятью, по срав-
нению с последовательностью обычных однопериодных контрак-
тов2.
Решение однопериодной вероятностной задачи – равновесные
по Нэшу платежи (значения целевых функции центра и АЭ, соот-
ветственно) – ?’ и f’, как правило, неэффективны и доминируются
по Парето другими платежами ?* и f* [95, 132, 138] (см. описание
различий FB (first-best) и SB решений (second-best) и роли неопре-

1
В двушаговом методе на первом шаге ищутся минимальные системы
стимулирования, реализующие заданную пару действий (по одному для
каждого периода функционирования). На втором шаге перебором по всем
допустимым парам находятся оптимальная с точки зрения центра пара
реализуемых действий.
2
Обычно в моделях рыночной экономики предполагается, что если число
АЭ "велико", то игра некооперативная, а если "мало", то – кооператив-
ная. В динамических моделях возможность кооперации появляется имен-
но из-за динамики – элементы имеют время "договориться" и наказать
тех, кто отклоняется от соглашений (см. описание стратегий наказания
выше).
99
деленности в [15, 57, 118]). То есть в последовательности одноэле-
ментных контрактов средние платежи равны ?’ и f’, а в динамиче-
ском контракте, в соответствии с FTh, они могут достигать или
приближаться1 к ?* и f* [140].
В то же время, если в однопериодном контракте центр может
достаточно сильно наказывать АЭ (соответствующие условия на
ограничения механизма стимулирования приведены в [122]), то
последовательное заключение краткосрочных контрактов оказыва-
ется не менее эффективно, чем заключение долгосрочного контрак-
та. Иными словами, если долгосрочный контракт реализует некото-
рую последовательность действий [15], то при "достаточно
сильных" штрафах, существует оптимальная последовательность
краткосрочных контрактов, реализующая ту же последовательность
и дающая всем участникам те же значения ожидаемой полезности.
Содержательно, возможная сила штрафов должна быть такова,
чтобы за их счет достаточно сильно наказать АЭ за отклонение
именно в однопериодном контракте (в динамике эту роль играют
стратегии наказания, используемые в следующих периодах), то есть
триггерная стратегия каждого из игроков – выбор равновесной по
Парето стратегии до тех пор, пока партнер выбирает равновесную
по Парето стратегию, если же партнер «переключается» на равно-
весие Нэша, то следует тоже переключиться на соответствующую
равновесную по Нэшу стратегию. В условиях вероятностной неоп-
ределенности возникает задача идентификации – построения опти-
мальных для центра триггерных стратегий, то есть определения
оптимальных моментов переключения на стратегию наказания по
наблюдениям результатов деятельности2 в прошлых периодах
(истории игры). В [131] доказано, что при достаточно общих пред-
положениях у центра в конечной игре существует стратегия, обес-

1
Обычно результаты об оптимальности (достижимости FB решения)
требуют бесконечного повторения подыгр, а для конечного числа перио-
дов доказывается ?-оптимальность [131]. При отсутствии дисконтиро-
вания любое IR Парето-оптимальное распределение выигрышей в однопе-
риодной игре (в частности – FB решение) является достижимым
Парето-оптимальным распределением выигрышей в суперигре [123, 138].

<<

стр. 3
(всего 4)

СОДЕРЖАНИЕ

>>