стр. 1
(всего 4)

СОДЕРЖАНИЕ

>>

РОССИЙСКАЯ АКАДЕМИЯ НАУК
Институт проблем управления
им. В.А. Трапезникова




Д.А. Новиков, И.М. Смирнов,
Т.Е. Шохина



МЕХАНИЗМЫ УПРАВЛЕНИЯ
ДИНАМИЧЕСКИМИ
АКТИВНЫМИ СИСТЕМАМИ




Москва – 2002
УДК 007
ББК 32.81
Н 73

Новиков Д.А., Смирнов И.М., Шохина Т.Е. Ме-
ханизмы управления динамическими активными
системами. М.: ИПУ РАН, 2002. – 124 с.


Настоящая работа содержит результаты исследова-
ний теоретико-игровых моделей динамических активных
систем (ДАС). Приводится обзор известных результатов,
вводится система классификаций моделей ДАС, фор-
мулируются и решаются задачи управления ДАС. Зна-
чительное внимание уделяется анализу сравнительной
эффективности различных режимов управления, а так-
же – влиянию дальновидности и обязательств на эф-
фективность управления.
Работа рассчитана на специалистов (теоретиков и
практиков) по управлению организационными система-
ми.

Рецензент: д.т.н., проф. А.В. Щепкин


Утверждено к печати Редакционным советом Института

Текст воспроизводится в виде, утвержденном Редакционным сове-
том Института

© Институт проблем управления РАН, 2002

2
СОДЕРЖАНИЕ

Введение..................................................................................................4

1. Классификация задач управления
динамическими активными системами .........................................10

2. Распределение дальновидностей
и режимы принятия решений..........................................................14

3. Задачи стимулирования в динамических активных системах.....20
3.1. Задача стимулирования в статической активной системе.....20
3.2. Динамические активные системы
с несвязанными периодами функционирования.....................23
3.3. Динамические активные системы
со связанными периодами функционирования.......................26
3.4. Многоэлементные динамические активные системы............38
3.5. Влияние распределений дальновидности
и горизонтов принятия решений
на эффективность управления..................................................40

4. Двухпериодные и трехпериодные
динамические активные системы...............………………………69

5. Эффекты накопления в динамических активных системах........74

Заключение...........................................................................................88

Приложение: Обзор основных результатов теории активных
систем, теории иерархических игр и теории
контрактов по управлению динамическими
активными системами...................………...............…89

Литература...........................................................................................116




3
ВВЕДЕНИЕ

Формальные (теоретико-игровые) модели организационных
систем (активных систем – АС) исследуются в таких разделах
теории управления социально-экономическими системами как:
теория активных систем (ТАС) [4, 12-23, 50-60], теория иерархиче-
ских игр (ТИИ) [30, 32, 41], теория контрактов (ТК) [15, 58, 125] и
др. Модель АС определяется заданием следующих параметров [23]:
состав системы (совокупность участников системы – управляю-
щих органов (центров) и управляемых субъектов (активных эле-
ментов (АЭ)), различающихся правами принятия решений; струк-
тура системы – совокупность связей между участниками;
множества допустимых стратегий участников (выбираемых ими в
соответствии с собственными интересами1 состояний, управлений и
т.д.); целевые функции, зависящие в общем случае от стратегий всех
участников и моделирующие их взаимодействие; информирован-
ность – та информация, которой обладают участники на момент
принятия решений; порядок функционирования – последователь-
ность получения участниками АС информации и выбора ими стра-
тегий.
Задача управления формулируется следующим образом. Центр,
обладающий правом первого хода, сообщает выбранное им управ-
ление активным элементам, которые при известном управлении
центра выбирают собственные стратегии с целью максимизации
своих целевых функций. Цель центра заключается в том, чтобы,
зная реакцию управляемых субъектов на те или иные управления,
выбрать такое управление, которое привело бы систему в наиболее
предпочтительное с его точки зрения состояние.
Частным случаем задачи управления является задача стимули-
рования [35, 42, 58, 81, 86, 130], в которой центр осуществляет



1
Характерной особенностью теоретико-игровых моделей является учет
активности участников АС – способности к целенаправленному поведе-
нию (моделируемому возможностью самостоятельного выбора ими
стратегий) в соответствии с собственными предпочтениями и интере-
сами (отражаемыми функциями выигрыша участников, которые они
стремятся максимизировать).
4
побочные платежи1 управляемым субъектам, зависящие от выборов
(действий) последних.
Простейшей (базовой) моделью АС является двухуровневая
система [18, 59], состоящая из одного центра (АС с унитарным
контролем [60]) и одного АЭ (одноэлементная АС), принимающих
решения однократно (статическая АС [52]) и в условиях полной
информированности (детерминированная АС [58]). Расширениями
базовой модели являются многоуровневые АС [53], АС с распреде-
ленным контролем [60], многоэлементные АС [59], динамические
АС [52], АС с неопределенностью [58].
Предметом исследования в настоящей работе являются меха-
низмы управления динамическими активными системами (ДАС),
то есть АС, в которых последовательность выбора стратегий, ха-
рактерная для статических АС, повторяется как минимум несколь-
ко раз2.
Интуитивно понятно, что при таком естественном обобщении
простейшей базовой (статической) модели, как рассмотрение не-
скольких несвязанных периодов функционирования, задачу управ-
ления удается декомпозировать на набор базовых задач. Трудности
появляются при исследовании систем со связанными периодами
функционирования. Методы и алгоритмы решения задачи синтеза
оптимального механизма управления в этом случае характеризуют-
ся высокой структурной и вычислительной сложностью. Как пра-
вило, универсального подхода к аналитическому решению этого
класса задач найти не удается. Однако, преодоление трудностей
анализа оправданно, так как в динамических АС присутствуют
новые качественные свойства, отсутствующие в базовой модели (не
говоря уже о том, что большинство реальных организационных

1
В терминах теории иерархических игр задаче стимулирования соответ-
ствует игра Г2 с побочными платежами, в которой целевые функции
обоих игроков зависят только от стратегии второго игрока [30, 60].
2
Отметим, что в настоящей работе не рассматриваются пассивные
динамические системы [28, 48, 54] и дифференциальные игры [1, 27, 38,
39, 63, 66]. Но, в том числе, упомянутым образом может описываться
процесс «схождения» АЭ к равновесию в процессе их игры при фиксиро-
ванном управлении [8, 24, 50, 51, 61, 74] – см. [5, 25, 29, 45, 51]. Кроме
этого, следует упомянуть широкую распространенность динамических
моделей в математической экономике [7, 44, 47, 49, 69, 71, 116, 117, 125].
5
систем функционируют в течении продолжительного времени и
характеризуются относительной повторяемостью условий и самих
фактов принятия решений). ДАС, функционирующие в течение
длительного времени, существенно отличаются от статических:
возможность долговременного сотрудничества, адаптации, пере-
смотра стратегий – все эти эффекты проявляются при переходе от
статических моделей к динамическим.
Изучению задач управления динамическими АС посвящено
значительное число исследований (в Приложении к настоящей
работе приведен обзор основных результатов исследования задач
управления ДАС).
В настоящей работе акцент сделан на задачи стимулирования,
являющиеся, как отмечалось выше, частным случаем задачи управ-
ления. В качестве обоснования выбора предмета исследования
следует подчеркнуть, что задачи стимулирования представляют
собой самостоятельный, достаточно обширный и разнообразный
класс задач управления, имеющих как хорошие содержательные
интерпретации, так и отражающих потребность в практическом
использовании теоретических результатов. Кроме того, многие
расширения базовой задачи стимулирования исследованы относи-
тельно подробно, что позволяет адаптированно переносить ряд
известных результатов на относительно малоизученные ДАС.
В частности, в настоящей работе широко используются сле-
дующие подходы и результаты. Известный из анализа базовой
задачи стимулирования [42, 56, 57] метод анализа множеств реали-
зуемых действий и минимальных затрат на стимулирование оказы-
вается эффективным и в динамических моделях, так как формули-
руемый на его основе принцип компенсации затрат является
эффективным инструментом решения задач стимулирования, в
частности, позволяющим не акцентировать внимание на исследова-
нии согласованности стимулирования. В многоэлементных АС (в
том числе – динамических) применения одного принципа компен-
сации затрат оказывается недостаточно, так как имеет место игра
управляемых активных элементов. В этом случае целесообразно
использование принципа декомпозиции игры АЭ, в соответствии с
которым может быть построено управление со стороны центра,
декомпозирующее взаимодействие управляемых субъектов и по-
зволяющее рассматривать задачи согласованного управления каж-
6
дым АЭ независимо, перенося учет их взаимодействия на этап
согласованного планирования [18].
Применение принципа компенсации затрат и принципа деком-
позиции игры АЭ [59] позволяет получать аналитические решения
задач определения согласованного (побуждающего АЭ выбирать
действия, совпадающие с назначаемыми центром планами) управ-
ления. Это управление параметрически зависит от планов (пред-
почтительных с точки зрения центра состояний АЭ), следователь-
но, необходимо формулировать и решать задачу согласованного
планирования – определения оптимальных значений планов. На
этом этапе эффективным оказывается применение методов дина-
мического программирования, оптимального управления и др. [9-
11, 26, 68]. Кроме того, в зависимости от специфики рассматривае-
мой задачи, ниже широко используются известные результаты
исследования многоуровневых АС [53], АС с распределенным
контролем [60 ] и АС с неопределенностью [58].
Как отмечалось выше, характерной чертой ДАС является адап-
тивность, проявляющаяся, в первую очередь, в возможности участ-
ников системы накапливать информацию и корректировать свое
поведение с учетом повышения информированности за счет на-
блюдаемой истории их взаимодействия между собой и с окружаю-
щей средой. Роль неопределенности в ДАС заслуживает отдельного
обсуждения.
В [23, 58] предложена система классификаций, в соответствии
с которой выделялась внешняя (относительно параметров окру-
жающей среды) и внутренняя (относительно параметров, характе-
ризующих участников рассматриваемой АС) неопределенность,
понимаемая как неполная информированность участников АС о
существенных (для процессов принятия ими решений) параметрах.
В зависимости от той информации, которой обладает субъект,
можно выделять интервальную, вероятностную и нечеткую неоп-
ределенность. В соответствии с принципом детерминизма
[23, 56, 58], принятие решения [65, 70] осуществляется в условиях
полной информированности, поэтому окончательный критерий,
которым руководствуется субъект, не должен содержать неопреде-
ленных параметров, причем устранение неопределенности должно
производиться с учетом всей имеющейся на рассматриваемый
момент информации.
7
Опыт исследования теоретико-игровых моделей механизмов
управления АС с неопределенностью [57, 58] свидетельствует, что
эффективность управления не возрастает с ростом неопределенно-
сти и, соответственно, не убывает с ее уменьшением (точнее – с
ростом информированности управляющего органа).
При рассмотрении математических моделей динамических ак-
тивных систем необходимо различать неопределенности следую-
щих типов1 (основание классификации – моменты времени, относи-
тельно которых у лица, принимающего решение (ЛПР), имеется
недостаточная информация):
- текущая неопределенность;
- неопределенность будущего,
каждая из которых может подразделяться (основание классифика-
ции – объекты, относительно которых имеется недостаточная ин-
формация) на объективную неопределенность (неполная информи-
рованность относительно внешних и/или внутренних параметров
ЛПР или других субъектов) и субъективную неопределенность
(неполную информированность ЛПР о поведении других субъек-
тов, входящих в рассматриваемую систему). Последний тип неоп-
ределенности иногда называют игровой неопределенностью2.
Традиционно под «неопределенностью» понимают текущую
объективную неопределенность и большинство исследований АС с
1
В литературе описаны несколько классификаций неопределенностей
[58, 62]. Например, в [58] предлагалось выделять «неопределенности
природы» (факторы, которые неизвестны лицу, принимающему решение,
и/или исследователю операций), «неопределенности противника» (отра-
жающие невозможность полного учета и предсказания действий других
активных участников системы) и «неопределенности целей» (отражаю-
щие многокритериальность задач принятия решений).
2
Субъективная (игровая) неопределенность, как правило, устраняется
введением тех или иных предположений о принципах поведения участни-
ков системы, позволяющих однозначно доопределить выбираемые ими из
множества решений игры стратегии (то есть устранение субъективной
неопределенности производится в два этапа – на первом этапе определя-
ется концепция равновесия (максиминное равновесие, равновесие Нэша,
Байеса и т.д. [107, 128]), на втором этапе определяется принцип выбора
игроками конкретных равновесных стратегий в случае, если последних
несколько (гипотеза благожелательности, принцип гарантированного
результата и т.д. [56, 58]).
8
неопределенностью учитывает именно ее [58]. В то же время, для
ДАС характерна не только текущая объективная неопределенность,
но и неопределенность будущего, которая заключается в том, что,
принимая решение, ЛПР, с одной стороны, «влияет» на будущее
(это влияние может проявляться в изменении множеств его буду-
щих допустимых действий, выигрышей и т.д. – см. модели ниже), а,
с другой стороны, возможности его анализа этого влияния ограни-
чены незнанием будущих значений1 существенных параметров.
Многочисленные примеры проявлений неопределенности будуще-
го приведены ниже в настоящей работе.
Большинство рассматриваемых ниже моделей является «де-
терминированными» в оговоренном выше традиционном понима-
нии – в них в основном отсутствует неполная информированность
участников ДАС друг о друге, об окружающей среде и т.д. В то же
время, неопределенность будущего присутствует, естественно, в
полной мере.
Изложение материала настоящей работы имеет следующую
структуру. В первом разделе вводится система классификаций
задач управления динамическими активными системами. Во вто-
ром разделе обсуждаются и классифицируются возможности уча-
стников АС по учету будущего и взаимосвязь этих возможностей с
режимами управления. В третьей части исследуются задачи стиму-
лирования в ДАС. Их описание ведется индуктивно – от простей-
шей одноэлементной ДАС с несвязанными периодами функциони-
рования к многоэлементной ДАС со связанными периодами
функционирования. Далее рассматриваются двух и трехпериодные
ДАС (раздел 4), а также эффекты накопления в ДАС (раздел 5).
Заключение содержит краткое перечисление основных результатов.
В Приложение помещен обзор основных результатов теории актив-
ных систем, теории иерархических игр и теории контрактов по
управлению ДАС.

1
Интересно отметить, что обычно (при описании текущей неопреде-
ленности) предполагается, что субъект всегда информирован о собст-
венных параметрах (множествах допустимых действий, предпочтениях
и т.д.) лучше, чем другие субъекты (будь то другие участники рассмат-
риваемой системы или исследователь операций). В случае неопределенно-
сти будущего субъект может иметь неполную информацию о своих
собственных параметрах.
9
1. КЛАССИФИКАЦИЯ ЗАДАЧ УПРАВЛЕНИЯ
ДИНАМИЧЕСКИМИ АКТИВНЫМИ СИСТЕМАМИ

Перечисленные во введении параметры АС являются основой
для системы классификаций ДАС1. Предлагаются следующие
основания системы классификаций ДАС.
1. Наличие или отсутствие неопределенности относительно
существенных параметров функционирования АС. Если участники
АС принимают решения в условиях полной информированности, то
такая АС называется детерминированной. Если хотя бы один из
участников2 не обладает всей значимой в рамках модели информа-
цией, то соответствующая АС называется АС с неопределенностью.
АС с неопределенностью в свою очередь подразделяются на
классы в зависимости от типа (1.1 – внутренняя неопределенность –
относительно параметров самой АС, 1.2 – внешняя неопределен-
ность – относительно параметров окружающей среды) и вида (1.1.1
(1.2.1) – интервальная неопределенность – известно только множе-
ство возможных значений неопределенного параметра; 1.1.2 (1.2.2)
вероятностная – дополнительно (помимо допустимого множества)
известно вероятностное распределение; 1.1.3 (1.2.3) – нечеткая –
когда дополнительно известна функция принадлежности) неопре-
деленности. Может иметь место также смешанная неопределен-
ность – одновременно нескольких типов или видов.


1
В [23, 59, 60] вводились соответственно системы классификаций общих
задач управления АС, задач управления многоэлементными АС, АС с
распределенным контролем и т.д. Предлагаемая в настоящем разделе
система классификаций пересекается с ними по ряду общих для всех АС
оснований, но в основном отражает специфику именно динамических АС.
2
Если информированность всех участников одинаковая, то говорят, что
имеет место симметричная информированность. Если участники АС
обладают разной информацией, то считается, что имеет место асим-
метричная информированность [58]. Понятно, что, если информирован-
ность асимметричная, то АС является АС с неопределенностью (но не
наоборот, так как все участники могут обладать одинаковой неполной
информацией).
10
2. Параметры модели активной системы, зависящие в каждом
периоде от параметров предыдущих периодов1. Так как задача
стимулирования в статической АС задается перечислением мно-
жеств допустимых стратегий центра (множество допустимых
функций стимулирования) и АЭ (множество допустимых дейст-
вий), а также их целевых функций (функция дохода центра и функ-
ция затрат АЭ, зависящие от действий последнего), то возможны
следующие значения признаков классификации по данному осно-
ванию: 2.1 – связанное стимулирование, 2.2 – связанные затраты,
2.3 – связанный доход, 2.4 – связанные допустимые множества, а
также все их возможные комбинации.
3. Распределение дальновидностей. Специфической характери-
стикой ДАС является возможность учета ее участниками будущих
последствий принимаемых сегодня решений (свойство дальновид-
ности)2. В первом приближении можно выделить ДАС с: 3.1 –
дальновидными участниками, 3.2 – недальновидными участниками.
Естественно, дальновидные участники могут по-разному учитывать
будущие периоды (характеристика, отражающая способ учета
будущего называется распределением дальновидностей [78-80]). В
теории игр (в основном при рассмотрении повторяющихся игр –
см. Приложение) и в экономике распределение дальновидностей
описывается, как правило, дисконтирующими множителями. Оста-
новимся на обсуждении их роли более подробно.
Пусть3 wt – выигрыш игрока в момент времени t,
t ? {1, 2, ..., T}. В качестве целевой функции, определяемой для
текущего момента времени ? ? T, зависящей от выигрышей в теку-
щем и во всех будущих периодах, принимается либо взвешенная
T
? ? t (? ) wt , либо средний
сумма выигрышей по периодам : W(?) =
4

t =?

1
Ниже для обозначения такой зависимости употребляется термин
«связанные параметры».
2
Участники АС, ориентирующиеся при принятии решений только на
текущее значение своего выигрыша (полезности, целевой функции и т.д.),
называются недальновидными.
3
Условимся, что верхние индексы обозначают временные характеристи-
ки (моменты времени, их диапазон и т.д.).
4
Для простоты ограничимся моделями с дискретным временем: t = 1, T .
11
(T – ? + 1) периодам взвешенный выигрыш:
по всем
T
1
?? t (? ) wt .
WT(?) =
T ? ? + 1 t =?
Под распределением дальновидностей игрока будем понимать
набор векторов ? ?,T(?) = (? ?(?), ? ?+1(?), ..., ? T(?)), ? = 1,T .
В качестве отступления приведем содержательные интерпре-
тации распределения дальновидностей.
Пусть в первый момент времени имеется актив, обладающий
стоимостью W0. Тогда, если присутствует инфляция, например, ?
процентов в единицу времени, то стоимость актива в момент вре-
мени t ? 1 составит1 W(t) = W0 (?) t-1, где ? = 1-?. Если инфляция
отсутствует и имеется возможность, например, приобрести ценные
бумаги, приносящие доход ? процентов в месяц2, то W(t) = W0 (?) t-1,
где ? = 1+?. Если рассмотреть «обратную» задачу – определить
текущий эквивалент W0 актива W(t), полученного в периоде t, то
получим, что W0 = ? W(t) (?) -t. Содержательно, в экономике распре-
деление дальновидностей, отражаемое дисконтирующим множи-
телем (коэффициентом дисконтирования) ? ? (0; 1], характеризует
изменение предпочтений (в большинстве случаев – стоимости
активов) во времени3 – чем больше отсрочка в получении некото-
рого блага, тем меньше его полезность.
В повторяющихся играх существует другая содержательная
интерпретация дисконтирующих множителей. Предположим, что
игрокам предлагается повторяющаяся игра, в которой перед каж-
дым периодом (то есть перед каждым повторением) определяется –
продолжать игру дальше или нет. Пусть W t – выигрыш некоторого


Для того, чтобы различать значение ? t распределения дальновидностей
1

? 1,T от степени коэффициента дисконтирования (?)t, в последнем случае
будем использовать скобки.
2
Имеются в виду сложные проценты. Если начисляются простые про-
центы, то W(t) = W0 (1 + ? (t – 1)).
3
Очевидно, что чем выше значение коэффициента дисконтирования (чем
ближе он к единице), тем с большим весом учитываются будущие перио-
ды – в пределе (при ? = 1) все периоды учитываются одинаково, и наобо-
рот – при стремлении ? к нулю степень учета будущего уменьшается (у
недальновидного игрока коэффициент дисконтирования равен нулю).
12
игрока в периоде t, если игра в этом периоде состоится, а pt – веро-
ятность того, что состоится розыгрыш в периоде t (если розыгрыш
в периоде t не состоялся, то игра заканчивается и последующие
t
? p j , t ? 1. Тогда
периоды не рассматриваются). Определим ? = t

j =1
ожидаемый выигрыш EW(T) рассматриваемого игрока за T перио-
T
? ? tW t . Если вероятности розыгрыша не зави-
дов равен EW(T) =
t =1
сят от номера периода (то есть одинаковы и равны p), то получаем
дисконтированную полезность
«классическую»
T
? ( p )t W t . Содержательная вероятностная интерпретация
EW(T) =
t =1
распределения дальновидности такова: чем менее вероятно буду-
щее, тем меньше оцениваемая «сегодня» полезность полученных в
этом будущем благ.
4. Режим принятия решений (управления и выбора действий).
Тесно связанным с распределением дальновидностей основанием
классификации является основание, отражающее последователь-
ность выработки и сообщения управляющих воздействий. Если
центр недальновиден и/или в каждом периоде вырабатывает и
сообщает АЭ управление, касающееся только данного периода, то
такой режим управления называется текущим (4.1). Если центр до
начала первого периода вырабатывает и сообщает АЭ управления
на все будущие периоды, то такой режим управления называется
программным (4.2). Более гибкой конструкцией является скользя-
щий режим управления (4.3), при котором центр в каждом периоде
вырабатывает (с учетом вновь поступившей информации) и сооб-
щает АЭ управления на некоторое число будущих периодов.
Перечисленные основания системы классификаций задач сти-
мулирования в ДАС и значения признаков позволяют представить
место настоящего исследования (приводимых ниже результатов
исследования задач управления ДАС) – см. рисунок 11.

1
Детализация возможных комбинаций режимов управления и дальновид-
ностей производится в следующем разделе (см. таблицу 1). Кроме того,
следует отметить, что допустимы не все комбинации значений призна-
13
ДАС


ДАС с неопределенностью Детерминированные ДАС



1.1. Внутренняя
неопределенность
Вероятностная




3.2. Недальновидные участники
Интервальная




2.1. Связанное стимулирование




3.1. Дальновидные участники
2.4. Связанные множества




4.2. Программный режим

4.3. Скользящий режим
2.2. Связанные затраты

2.3. Связанные доходы
Нечеткая




4.1. Текущий режим
1.1.1.


1.1.2.


1.1.3.




1.2. Внешняя
неопределенность
Вероятностная
Интервальная




Нечеткая
1.2.1.


1.2.2.


1.2.3.




Рис. 1. Система классификаций задач управления в ДАС



2. РАСПРЕДЕЛЕНИЕ ДАЛЬНОВИДНОСТЕЙ
И РЕЖИМЫ ПРИНЯТИЯ РЕШЕНИЙ

Пусть ? t(?), t = ? ,T , ? = 1,T – распределение дальновидно-
стей (РД) некоторого игрока.
В общем случае, который обозначим РД0, для РД ? t(?) не на-
кладывается никаких ограничений на возможные значения в раз-
личные моменты времени, то есть при оценке периода t в момент
времени ? «привязка» оценки может осуществляться как к оцени-


ков – например, содержательно возможные сочетания распределений
дальновидности и режимов управления обсуждаются ниже.
14
ваемому периоду, так и к тому моменту времени, в котором эта
оценка делается. Рассмотрим три частных случая.
1. Оценка периода t не зависит от периода, в котором он оце-
нивается, то есть1
(1) ? t(?) = ?t, t = 1,T .
Содержательно этот случай, который обозначим РД1, соответ-
ствует, например, тому, что внешние условия деятельности в каж-
дом периоде оказывают гораздо большее влияние на значимость
благ, получаемых в этом периоде, чем удаленность рассматривае-
мого периода от момента времени, в котором производится оценка.
2. Оценка периода t зависит от момента времени ?, в котором
делается оценка, и «удаленности» оцениваемого периода, то есть от
разности (t – ?) («условия деятельности» в этом периоде не столь
важны):
(2) ? t(?) = ?(t – ?, ?), t = ? ,T , ? = 1,T ,
где ?(?) – некоторая функция.
Примером может служить набор дисконтирующих множителей
(каждый для «своего» момента ?): ?(t – ?, ?) = (??) t-?, где {??} –
некоторые числа. Этот случай обозначим РД2.
3. Наиболее распространенным в прикладных моделях являет-
ся случай (обозначим его РД3), в котором оценка периода t зависит
только от “удаленности” этого периода от момента времени ?, в
котором делается оценка (периоды функционирования считаются
«однородными»), то есть
(3) ? t(?) = ?(t – ?), t = ? ,T , ? = 1,T ,
где ?(?) – некоторая (как правило, убывающая) функция.
Примером являются «обычные» дисконтирующие множители: ?(t –
?) = (?) t-?, где ? – константа.
Очевидно, для введенных классов распределений дальновид-
РД1 ? РД0,
ности выполнено следующее вложение:
РД3 ? РД2 ? РД0.
Пример 1. Пусть T = 3 и игрок имеет РД, описываемое сле-
дующей матрицей (строки соответствуют моментам времени, в
которых делаются оценки будущих периодов, столбцы – оценивае-
1
В настоящей работе принята независимая внутри подразделов нумера-
ция формул.
15
? 1 (1) ? 2 (1) ? 3 (1)
? 2 ( 2 ) ? 3 ( 2 ) . Тогда в случае РД1 должно
?
мым периодам):
? 3 ( 3)
? ?
быть выполнено: ? 2(1) = ?2(2), ? 3(1) = ? 3(2) = ? 3(3), в случае РД3:
? 2(1) = ? 3(2), ? 1(1) = ? 2(2) = ? 3(3). •1
Введем такую (производную по отношению к РД) характери-
стику игрока как степень дальновидности (СД), отражающую
число будущих периодов, учитываемых им в текущем периоде:
(4) ?(?) = max {t ? ? | ? t(?) > 0} – ?, ? = 1,T .
Если ? ? = 1,T ?(?) = 0, то игрок недальновиден. Если
? ? = 1,T ?(?) = T – ?, то игрок полностью дальновиден. Если
? ? = Const: ?(?) = min {?; T – ?}, то будем говорить, что такой
игрок обладает постоянной СД, равной ?.
Обсудим соотношение между РД и режимами принятия реше-
ний (ПР) об управлении (со стороны центра) и о действиях (со
стороны АЭ). Обозначим2 L0(t) – число будущих периодов (включая
текущий период t), относительно которых центр сообщает свои
управления, t = 1,T . Очевидно, L0(t) ? T – t +1. Если L0(t) = 1,
t = 1,T , то имеет место текущий режим управления, если L0(1) = T,
L0(t) = 0, t ? 2 (или L0(t) = T – t + 1), то реализуется программное
управление, если 0 ? L0(t) < T – t +1, то реализуется скользящий
режим3. Величину L(?) назовем горизонтом принятия решений (для
центра горизонт принятия решений (ГПР) иногда называется гори-
зонтом планирования).

1
Символ «•» здесь и далее обозначает окончание примера, доказательст-
ва и т.д.
2
Относительно характеристик дальновидности, горизонтов принятия
решений и др. будем придерживаться следующих обозначений: нижний
индекс «0» обозначает характеристику центра; отсутствие нижнего
индекса в одноэлементной АС обозначает характеристику АЭ; нижний
индекс обозначает в многоэлементной АС номер АЭ.
3
Понятно, что, если рассматриваются T периодов, то центр должен
сообщать некоторые управления для каждого из них («неуправляемые»
периоды могут быть исключены из рассмотрения).
16
Условие отсутствия «неуправляемых» периодов имеет вид:
(5) max {L0(t – ?) – ?} ? 1, t = 1,T .
? =0,t ?1
Обозначим L(t) – число периодов, на которые принимает ре-
шения АЭ в периоде t. Помимо условия
(6) max {L(t – ?) – ?} ? 1, t = 1,T ,
? =0,t ?1
отражающего тот факт, что на каждый из периодов АЭ должен
выбрать стратегию в данном периоде или раньше (ср. с (5)), будем
считать, что АЭ может выбирать свои стратегии только на те пе-
риоды (текущие и будущие), на которые уже выбрал (и сообщил
элементу) свои стратегии центр1. Последнее условие запишем в
виде
(7) L(t) ? max {L0(t – ?) – ?}, t = 1,T .
? =0 ,t ?1
Кроме того, участники АС “не могут” выбирать стратегии на
периоды, превышающие их степень дальновидности, то есть
(8) L0(t) ? 1 + ?0(t), t = 1,T ,
(9) L(t) ? 1 + ?(t), t = 1,T .
Условия (5)-(9) накладывают ограничения на допустимые ком-
бинации распределений дальновидности и управлений. Рассмотрим
их более подробно.
Введем следующее предположение, которого будем придержи-
ваться в ходе всего последующего изложения (подробное обсужде-
ние роли этого предположения проводится в разделе 3.5).
А.0. Дальновидность и горизонт принятия решений АЭ не пре-
вышают соответственно дальновидности и горизонта принятия
решений центра.
Предположение А.0 означает, что выполнено следующее усло-
вие:
(10) ?(?) ? ?0(?), L(?) ? L0(?), ? = 1,T .
Содержательно предположение А.0 (ГПР АЭ не может превы-
шать ГПР центра – см. условия (5)-(9)) исключает необходимость
прогнозирования АЭ будущих управлений со стороны центра.

1
Отказ от этого предположения, приводящий к эффекту обмена ролями,
обсуждается в разделе 3.5.
17
В таблице 1 перечислены возможные комбинации РД и ГПР
центра и АЭ. Режимы принятия решений обозначены: «Т» – теку-
щий, «С» – скользящий, «П» – программный.
Случаи, исключаемые условиями (8)-(9), заштрихованы.
Случаи, нарушающие предположение А.0, затенены.
На пересечении соответствующих строк и столбцов1 указаны
условные обозначения моделей (ДАС1 – ДАС4), исследуемых ниже
(см., в частности, раздел 3.5).
Таким образом, в качестве базовых моделей ДАС выделены:
- ДАС1, характеризуемая текущим режимом управления;
- ДАС2, характеризуемая скользящим режимом управления без
обязательств;
- ДАС3, характеризуемая скользящим режимом управления с
обязательствами;
- ДАС4, характеризуемая программным режимом управления.
В рамках введенной системы классификаций любая модель де-
терминированной ДАС описывается указанием РД и ГПР центра и
АЭ. Например, обозначение ДС-ПТ означает, что рассматривается
ДАС с дальновидным центром, использующим скользящий режим
ПР, и полностью дальновидным АЭ, использующим текущий ре-
жим ПР, и т.д.




1
Затененная половина ячейки соответствует случаям, в которых даль-
новидность АЭ превышает дальновидность центра (см. теорему 4).
18
Табл. 1. РД и ГПР центра и АЭ
АЭ Полностью
Недальновиден Дальновиден
дальновиден
Т С П Т С П Т С П
Центр
Т ДАС1
Недально-
виден




С
П
ДАС2 ДАС2
Т
Дальновиден




ДАС2

ДАС3 ДАС3
С ДАС3


П
ДАС4 ДАС4 ДАС4 ДАС4 ДАС4
Т ДАС4
дальновиден
Полностью




ДАС4 ДАС4 ДАС4 ДАС4 ДАС4
С ДАС4


П ДАС4 ДАС4 ДАС4 ДАС4 ДАС4 ДАС4



Введя систему классификаций и рассмотрев возможные взаи-
моотношения между распределениями дальновидности и горизон-
тами принятия решений, отражающими степень учета игроками
будущего, перейдем к решению задач синтеза оптимальных управ-
лений в динамических активных системах.




19
3. ЗАДАЧИ СТИМУЛИРОВАНИЯ В ДИНАМИЧЕСКИХ
АКТИВНЫХ СИСТЕМАХ

3.1. Задача стимулирования в статической активной системе

Рассмотрим многоэлементную детерминированную статиче-
скую двухуровневую активную систему (АС), состоящую из цен-
тра и n активных элементов (АЭ). Стратегией АЭ является выбор
действий, стратегией центра – выбор функции стимулирования, то
есть зависимости вознаграждения каждого АЭ от его действий и,
быть может, действий других АЭ или других показателей их дея-
тельности.
Обозначим: yi ? Ai – действие i-го АЭ, i ? I = {1, 2, …, n} –
n
? Ai
множество АЭ, y = (y1, y2, ..., yn) ? A' = – вектор действий
i =1
? Aj
АЭ, y-i = (y1, y2, …, yi-1, yi+1, …, yn) ? A-i = – обстановку игры
j ?i
для i-го АЭ.
Интересы и предпочтения участников АС – центра и АЭ – вы-
ражены их целевыми функциями. Целевая функция центра является
функционалом ?(?, y) и представляет собой разность между его
доходом H(y) и суммарным вознаграждением ?(y), выплачиваемым
n
?? i ( y) ,
АЭ: ?(y) = где ?i(y) – стимулирование i-го АЭ,
i =1
?(y) = (?1(y), ?2(y), …, ?n(y)), то есть
n
?? i ( y) .
(1) ?(?(?), y) = H(y) –
i =1
Целевая функция i-го АЭ является функционалом fi(?i, y) и
представляет собой разность между стимулированием, получаемым
им от центра, и затратами ci(y), то есть:
(2) fi(?i(?), y) = ?i(y) – ci(y), i ? I.
Отметим, что индивидуальное вознаграждение и индивидуаль-
ные затраты i-го АЭ по выбору действия yi в общем случае явным
или неявным образом зависят от действий всех АЭ (случай сильно
связанных АЭ с несепарабельными затратами [59]).
20
Примем следующий порядок функционирования АС. Центру и
АЭ на момент принятия решения о выбираемых стратегиях (соот-
ветственно – функциях стимулирования и действиях) известны
целевые функции и допустимые множества всех участников АС.
Центр, обладая правом первого хода, выбирает функции стимули-
рования и сообщает их АЭ, после чего АЭ при известных функциях
стимулирования выбирают действия, максимизирующие их целе-
вые функции.
Относительно параметров АС введем следующие предположе-
ния, которые, если не оговорено особо, будем считать выполнен-
ными в ходе всего последующего изложения:
А.1. ? i ? I Ai – отрезок ?1 с левым концом в нуле.
+
А.2. ? i ? I 1) функция ci(?) непрерывна по всем переменным;
2) ? yi?Ai ci(y) не убывает по yi, i?I; 3) ? y?A’, ci(y)?0; 4) ? y-i?A-i,
ci(0, y-i) = 0.
А.3. Функции стимулирования кусочно-непрерывны и прини-
мают неотрицательные значения.
А.4. Функция дохода центра непрерывна и достигает максиму-
ма при ненулевом векторе действий АЭ.
Обозначим P(?) – множество равновесных по Нэшу при сис-
теме стимулирования ? действий АЭ – множество реализуемых
действий (то есть будем считать, что АЭ выбирают свои стратегии
одновременно и независимо друг от друга, не имея возможности
обмениваться дополнительной информацией и полезностью). Ми-
нимальными затратами центра на стимулирование по реализации
вектора действий АЭ y’ ? A’ будем называть минимальное значе-
ние суммарных выплат элементам, при которых данный вектор
действий является равновесием Нэша в игре АЭ, то есть решение
следующей задачи: ?? i ( y ' ) > min , где ?(y’) = {?(?) |
? (?)?? ( y ')
i?I
y’ ? P(?)}. Как и в одноэлементной АС [56, 58], гарантированной
эффективностью (далее просто "эффективностью") стимулирования
является минимальное значение целевой функции центра на соот-
ветствующем множестве решений игры (всюду, где встречаются
минимумы и максимумы, будем предполагать, что они достигают-
ся):


21
?(?(?), y).
min
(3) K(?(?)) =
y?P (? (?))
Задача синтеза оптимальной функции стимулирования заклю-
чается в поиске допустимой системы стимулирования ?*, имеющей
максимальную эффективность:
(4) ?* = arg max K(?(?)).
? ( ?)
В [59] доказано, что оптимальной (точнее – ?-оптимальной, где
n
? ? i ) является квазикомпенсаторная система стимулирования
?=
i =1
?K:
?c i ( y i* , y ?i ) + ? i , y i = y i*
(5) ?iK = ? , i ? I,
yi ? yi*
? 0,
где ?i – сколь угодно малые строго положительные константы, а
оптимальное действие y*, реализуемое системой стимулирования
(5) как единственное равновесие в доминантных стратегиях [56],
является решением следующей задачи оптимального согласованно-
го планирования [18, 58]:
n
? ci ( y i ) }.
*
(6) y = arg max {H(y) –
y?A? i =1
Приведенный результат об оптимальности1 компенсаторных
систем стимулирования (5)-(6) получил название принципа компен-
сации затрат. Значение этого результата трудно переоценить, так
как он позволяет сразу определить минимальные затраты центра на
стимулирование по реализации вектора действий y ? A’:


1
В ходе дальнейшего изложения будем считать, что выполнена гипотеза
благожелательности (ГБ), в рамках которой АЭ выбирают из множест-
ва P(?) действие, наиболее благоприятное для центра, что позволяет
положить ? = 0. Кроме того, известно, что принцип компенсации за-
трат (с соответствующими незначительными модификациями) имеет
место и в случае, когда необходимо гарантировать АЭ некоторый поло-
жительный уровень полезности [30, 59], и в задаче стимулирования
первого рода [58], и в АС, в которых целевая функция АЭ представлена в
виде «доход минус штрафы» [58].
22
n
? ci ( y i ) ,
(7) ?(y) =
i =1
и сконцентрировать все внимание на решении задач выбора опти-
мальных для центра реализуемых действий (в простейшем случае
эта задача имеет вид (6)); в качестве примеров можно привести АС
с неопределенностью [58], многоуровневые АС [53], АС с распре-
деленным контролем [60] и др. Как будет видно из последующего
изложения, использование принципа компенсации затрат эффек-
тивно и при исследовании динамических активных систем.
Кроме того, результаты анализа статической модели позволя-
ют сделать еще один вывод. Система стимулирования (5) побужда-
ет АЭ выбирать соответствующие действия как доминантные стра-
тегии, то есть осуществляет декомпозицию игры АЭ. Возможность
добиться подобной декомпозиции в [59] получила название прин-
ципа декомпозиции игры АЭ. Значимость этого принципа заключа-
ется в том, что он позволяет не рассматривать взаимодействие
агентов, а решать задачи их стимулирования «независимо». Прин-
цип декомпозиции игры АЭ будет, также как и принцип компенса-
ции затрат, широко использоваться в настоящей работе при иссле-
довании динамических АС, поэтому можно ограничиться
рассмотрением задач управления одним АЭ, так как переход к
аналогичным АС с несколькими взаимодействующими АЭ приво-
дит лишь к количественному росту сложности оптимизационных
задач, не привнося при этом никаких качественных эффектов (мно-
гоэлементные ДАС рассмотрены в разделе 3.4).
Перейдем к описанию задач стимулирования в динамических
АС.


3.2. Динамические активные системы
с несвязанными периодами функционирования

Рассмотрим простейшую модель одноэлементной ДАС с не-
связанными периодами функционирования. Взаимодействие участ-
ников в данной модели является совокупностью T повторений их
взаимодействия в одноэлементной статической модели, то есть
центр в каждом периоде t = 1,T сообщает АЭ управление ? t(?) на
23
этот период, после чего АЭ выбирает действие yt, причем ни один
из параметров модели АС текущего периода не зависит ни от одно-
го из параметров прошлых периодов.
+
Пусть yt ? At – стратегия АЭ в периоде t, ?t(?): At > ?1 – ис-
пользуемая центром в этом периоде система стимулирования,
t = 1, T . Относительно параметров ДАС будем предполагать, что
они удовлетворяют предположениям А.1-А.4.
Выигрыш АЭ в периоде t равен
(1) f t(?t, yt) = ?t(yt) – ct(yt), t = 1, T ,
где ct(?) – функция затрат АЭ в этом периоде.
Выигрыш центра в периоде t равен
(2) ? t(?t, yt) = Ht(yt) – ?t(yt),
где H t(?) – функция дохода центра в этом периоде, t = 1,T .
Если не оговорено особо, будем считать, что центр должен вы-
бирать такие управления, чтобы в каждом периоде значение целе-
вой функции АЭ было неотрицательно, то есть f t(?t, yt) ? 0, t = 1,T
(условие участия или условие индивидуальной рациональности –
Individual Rationality).
Если в каждом периоде целевые функции и допустимые мно-
жества удовлетворяют предположениям А.1-А.4, то в соответствии
с принципом компенсации затрат1 задача центра заключается в
последовательном определении и реализации плановой траектории
x1,T = (x1, x2, ..., xT) как результата решения следующей совокупно-
сти независимых задач оптимального согласованного планирова-
ния:
(3) xt = arg max {H t(yt) – ct(yt)}, t = 1,T .
y ?A
t t




1
При ссылке на принцип компенсации затрат здесь и ниже, если не
оговорено особо, по умолчанию предполагается, что при использовании
центром компенсаторной системы стимулирования или ее модификаций
АЭ выбирают действия, равные планам (все рассуждения по обоснованию
этого факта повторяют приведенные в [59, 60] и опускаются – см.
также доказательство теоремы 1 ниже), что требует от центра
затрат на стимулирование равных затратам АЭ.
24
Если целевая функция центра определяется суммой (по всем
периодам) значений его выигрышей (2), то задача оптимального
согласованного планирования имеет вид:
T
?
1,T
{Ht(yt) – ct(yt)},
max1,T
(4) x = arg
?A
1 ,T
t =1
y
?
? At , ? = 1,T .
1,?
| y ? A , t = 1,? } =
где A 1,? t t
= {y
t =1
Очевидно, что при несвязанных периодах функционирования
решение задачи (3) разбивается на решение T несвязанных однопе-
риодных задач оптимального согласованного планирования, а
решения задач (4) и (3) совпадают, что объясняется независимо-
стью периодов.
Если периоды слабо связаны (то есть существует единственное
ограничение, связывающее действия, или множества допустимых
действий, или затраты, или доходы, или вознаграждения и т.д. – см.
аналогии в задачах стимулирования в многоэлементных АС со
слабо связанными АЭ [59]), то задача (4) превращается в задачу
условной оптимизации (изменяется множество действий, по кото-
рому ищется максимум).
Основная идея решения задачи стимулирования в этом классе
моделей заключается в том, чтобы «перенести» все ограничения на
множество допустимых траекторий, а затем решать задачу выбора
оптимальной (по критерию суммарного выигрыша центра) допус-
тимой (с учетом всех ограничений) траектории в расширенном
пространстве состояний1 (см. также [78-80]). Например, если
наложено ограничение R на суммарные выплаты АЭ, то, вводя
множество P(R) реализуемых при данном ограничении действий
T
? c t ( y t ) ? R}, получаем, что оптимальной
?A 1,T
АЭ: P(R) = {y 1,T
|
t =1




1
Под «расширенным пространством состояний» понимают множество
A1,T всех допустимых траекторий. При определенных условиях [78-80]
последовательность задач выбора стратегий участниками ДАС можно
рассматривать как задачу однократного выбора стратегии в статиче-
ской модели с расширенным пространством состояний.
25
будет плановая траектория, являющаяся решение следующей зада-
чи:
T
?
1,T
{H t(yt) – ct(yt)}.
(5) x = arg max
y 1,T ?P ( R ) t =1
При этом, очевидно, решение задачи (5) в общем случае не бу-
дет являться совокупностью T решений задач (3).
Пример 2. Пусть T = 2, H t(yt) = yt, ct(yt) = (yt)2/2rt, At = ?1 ,
+
t = 1, 2. Решение задачи (3) имеет вид: x = r , t = 1, 2.
t t

T
? r t . Тогда решение задачи (5) имеет вид:
Обозначим R = T

t =1

? rt , R ? RT / 2
?
xt = ? t 2 R , t = 1,T .
T, R?R /2
T
r
?
? R
Выигрыш центра при этом равен min {RT/2; 2 RR T - R}. Если
предположить, что затраты АЭ одинаковы во всех периодах, то есть
ct(yt) = (yt)2/2r, то выигрыш центра монотонен по T. Отсюда следует
качественный вывод: если суммарный ресурс ограничен и игроки
не учитывают будущее, то центру выгодно «растягивать» процесс
взаимодействия с АЭ до бесконечности, побуждая его выбирать в
каждом периоде как можно меньшее действие. Отметим, что анало-
гичный результат имел место при решении задачи определения
оптимального числа однородных АЭ, включаемых в состав АС (см.
примеры в [53, 59]). •


3.3. Динамические активные системы
со связанными периодами функционирования

Рассмотрев ДАС с несвязанными периодами, перейдем к по-
следовательному анализу систем, отличающихся наличием одного
и только одного из присущих именно динамическим АС парамет-
ров. В соответствии с введенной выше системой классификаций
такими параметрами являются: стимулирование, затраты АЭ, доход
центра и множества допустимых действий АЭ.

26
Относительно распределения дальновидностей и режимов
управления, если не оговорено особо, будем в настоящем разделе
предполагать, что центр полностью дальновиден и использует
программный режим управления, а АЭ либо недальновиден, либо
полностью дальновиден и выбирает свои действия в каждом перио-
де.


ДАС с зависимым стимулированием

Если стимулирование АЭ в каждом периоде зависит как от его
действия в этом периоде, так и от его действий во всех предыдущих
периодах, то есть ?t = ?t(y1,t), то в соответствии с принципом ком-
пенсации затрат оптимальной будет система стимулирования
? c t ( x t ), если y i = x i , i = 1, t
(1) ? K(x , y ) = ?
t 1,T 1,t
, t = 1,T ,
?0, в оcтальных случаях
где оптимальная плановая траектория определяется как и в ДАС с
несвязанными периодами (см. выше):
T
?
1,T
{H t(yt) – ct(yt)}.
(2) x = arg max
y 1,T ? A1,T t =1



ДАС с зависимыми затратами

Как отмечалось выше, под связанными (зависимыми) затрата-
ми в ДАС будем понимать такие функции затрат АЭ, которые в
каждом периоде зависят не только от действия АЭ в этом периоде,
но и от его действий во всех предыдущих периодах, то есть
ct = ct(y1,t).
Введем следующее предположение относительно свойств
функции затрат АЭ.
А.2’. ? t = 1,T 1) функция ct(?) непрерывна по всем перемен-
ным; 2) ? y1,t ? A1,t ct(y1,t) не убывает по yt, t = 1,T ; 3) ? y1,t ? A1,t
ct(y1,t) ? 0, t = 1,T ; 4) ? y1,t-1?A1,t-1 ct(y1,t-1, 0) = 0, t = 2 ,T .


27
Если центр сообщает недальновидному АЭ управление в каж-
дом периоде (текущий режим управления – см. выше), то в соот-
ветствии с принципом компенсации затрат оптимальной будет
система стимулирования
?c t ( x1, t ), если y t = x t
(3) ? K(x , y ) = ?
t 1,T t
, t = 1,T ,
0, в оcтальных случаях
?
где оптимальная плановая траектория определяется как решение
следующей задачи:
T
?
1,T
{Ht(yt) – ct(y1,t)}.
(4) x = arg max
?A
1,T 1,T
t =1
y
Если АЭ полностью дальновиден, а центр использует про-
граммный режим управления, то есть сообщает АЭ до начала пер-
вого периода управление сразу на все T периодов, то оптимальной
будет система стимулирования
?c t ( x t , y1, t ?1 ), если y t = x t
? K(x , y ) = ?
t 1,T t
, t = 1,T .
? 0, в оcтальных случаях
Пример 3. Пусть T = 2, H t(yt) = yt, ct(yt) = (yt – ? yt-1)2/2rt,
At = ?1 , t = 1, 2. Решение задачи (4) имеет вид: x1 = (1 + ?) r1,
+
x = r + ? (1 + ?) r1 и при ? = 0 переходит в решение, оптимальное в
2 2

соответствующей ДАС с несвязанными периодами (см. пример 2). •


ДАС со связанным доходом

Если доход центра в каждом периоде зависит от действий АЭ,
выбранных в данном и всех предыдущих периодах, то оптимальной
будет следующая плановая траектория:
T
?
1,T
{Ht(y1,t) – ct(yt)}
(5) x = arg max
?A
1,T 1,T
t =1
y
при компенсаторной функции стимулирования
? c t ( x t ), если y t = x t
(6) ? K(x , y ) = ?
t tt
, t = 1,T .
если y t ? x t
?0,


28
ДАС со связанными ограничениями

Пусть множество допустимых действий АЭ в периоде t зависит
от его действий в предыдущих периодах, то есть At = At(y1,t-1),
t = 2 ,T , множество A1 считается фиксированным. Тогда, используя
систему стимулирования (6), центр определяет оптимальную пла-
новую траекторию как решение следующей задачи оптимального
согласованного планирования
T
?
1,T
{H t(yt) – ct(yt)},
(7) x = arg max
y 1,T ? A0,T
1
t =1
где
(8) A0,? = {y1,? ? A1,? | yt ? At(y1,t-1), t = 1,? }, ? = 1,T .
1

Пример 4. Пусть T = 2, H t(yt) = yt, ct(yt) = (yt)2/2rt, t = 1, 2,
A1 = ?1 , A2(y1) = [y1; +?]. Фиксируем y1 ? 0, тогда оптимальный
+
?r 2 , y1 ? r 2
план x (y ) на второй период равен: x (y ) = ? 1 1 . Следова-
2 1 2 1

y , y ? r2
?
тельно, решение задачи (7) имеет вид:
? ( r1 , r 2 ), r1 ? r 2
.•
1,2
x =? 12 1 2
?( 2r r /( r + r ), 2 r r /( r + r )), r ? r
12 12 1 2




Общая модель детерминированной ДАС

Итак, из рассмотрения четырех описанных выше частных мо-
делей детерминированных ДАС со связанными периодами можно
сделать качественный вывод, что для решения соответствующих
задач стимулирования, наряду с принципом компенсации затрат,
приходится использовать обобщения1 принципа оптимальности
1
В случае полностью зависимых периодов непосредственное использова-
ние принципа Беллмана неэффективно, так как условно оптимальные
управления на последнем шаге (в последнем периоде) в общем случае
должно параметрически зависеть от управлений во всех предыдущих
периодах (так как присутствует «последействие»), начиная с первого.
29
Беллмана (см. примеры 3 и 4), что качественно отличает их от
модели ДАС с несвязанными или со слабо связанными периодами,
в которых применение принципа компенсации затрат сводило
задачу управления к стандартной задаче условной оптимизации.
Выше мы рассмотрели четыре модели ДАС, отличающиеся от
ДАС с несвязанными периодами «связанностью» периодов по
одной из компонент (стимулирование, затраты, доход, допустимые
множества). Можно было бы последовательно продолжать услож-
нение моделей, рассматривая попарные комбинации «связанных»
компонент (таких моделей было бы 6), затем комбинации из трех
«связанных» компонент (таких моделей было бы 4) – по аналогии с
тем как это делалось для АС с распределенным контролем в [60].
Но анализ первых четырех моделей свидетельствует, что решение
задачи стимулирования в них имеет простой вид, поэтому сформу-
лируем сразу задачу стимулирования в детерминированной ДАС со
связанными стимулированием, затратами, доходом и допустимыми
множествами.
Пусть ?t = ?t(y1,t), ct = ct(y1,t), Ht = Ht(y1,t), At = At(y1,t), t = 1,T , а
центр и АЭ полностью дальновидны и центр использует программ-
ный режим управления.


Принцип Беллмана в явном виде эффективен, если параметры каждого
периода зависят только от параметров предыдущего периода, то есть,
например, At = At(yt-1), ct = ct(yt, yt-1), H t = H t(yt, yt-1) и т.д. Такая «непол-
ная» зависимость параметров во многих случаях достаточно хорошо
отражает специфику ДАС. Однако, в настоящей работе мы не будем
обращать внимания на «вычислительные» трудности, считая задачу
управления решенной если она сведена к известной оптимизационной
(пусть даже достаточно сложной и требующей дополнительного иссле-
дования методов ее решения) задаче. Принцип компенсации затрат
разделяет исходную задачу на две составляющих – задачу согласованного
стимулирования, решением которой является (9), и задачу согласованного
планирования (10). Если методы решения первого класса задач (задач
согласованного планирования) для детерминированных АС хорошо из-
вестны [6, 18, 19], то в ДАС основную сложность представляет решение
именно задач согласованного планирования. При этом желательно не
только свести ту или иную задачу планирования к известной оптимиза-
ционной задаче, но и проанализировать зависимость свойств ее решения
от параметров модели ДАС (см. теоремы 5, 6, 7).
30
Теорема 1. Если выполнены предположения А.0, А.1, А.2’, А.3
и А.4, то при использовании центром системы стимулирования1
?c t ( x1, t ), если y i = x i , i = 1, t
(9) ? K(x , y ) = ?
t 1,T 1,t
, t = 1,T ,
? 0, в оcтальных случаях
где оптимальная плановая траектория определяется:
T
?
1,T
{Ht(y1,t) – ct(y1,t)},
(10) x = arg max
y 1,T ? A0,T
1
t =1

а A0,? – выражением (8). Действия АЭ при этом совпадут с плана-
1

ми и эффективность стимулирования K0 будет максимально воз-
можной, где
T
? {Ht(y1,t) – ct(y1,t)}.
K0 = max
y 1,T ?A 1,T t =1
0

Доказательство2. Задача стимулирования заключается в выборе
центром системы стимулирования ?1,T(?), которая максимизировала
бы его целевую функцию, учитывающую в силу полной дально-
видности центра все T периодов.
T
?
(11) ?(? (?), {H t( y* ,t ) – ? t( y* ,t )}
y* ,T
1 1 1
1,T
)=
t =1




1
Если вознаграждение АЭ в любом периоде может зависеть от его
действий, выбранных только в этом периоде, то есть (9) заменяется на
(3), то результат теоремы 1 уже не имеет места – см. теорему 2.
2
Доказательство теоремы 1 следует общей схеме доказательства всех
результатов об оптимальности тех или иных систем стимулирования:
сначала показывается, что достаточно поощрять агента за выбор
только одного действия (вектора действий, траектории и т.д.), далее
доказывается, что для этого необходимо как минимум компенсировать
его затраты, после чего доказательство состоит из двух шагов – на
первом шаге проверяется, что при некотором (произвольном) плане и
использовании соответствующей компенсаторной системы стимулиро-
вания АЭ будет выбирать действия, совпадающие с планами (этап
проверки согласованности системы стимулирования), затем на втором
шаге (этап согласованного планирования) ищутся оптимальные реали-
зуемые планы (см. также [15, 58]).
31
при условии, что действия АЭ y* ,T , выбираемые им при известной
1

системе стимулирования, максимизируют его целевую функцию
f(?1,T(?), y1,T), , учитывающую в силу полной дальновидности АЭ все
T периодов, то есть
T
?
? Arg
y* ,T
1
{? t( y* ,t ) – c t( y* ,t )}.
1 1
(12) max
y 1,T ? A1,T t =1
Фиксируем произвольную плановую траекторию z1,T ? A1,T.
Пусть некоторая система стимулирования s1,T(?) реализует эту
плановую траекторию, то есть
T T
? ?
{s (z ) – c (z )} ? {s t(y1,t) – c t(y1,t)}, ? y1,T ? A1,T.
t 1,t t 1,t
(13)
t =1 t =1
Перейдем от системы стимулирования s1,T(?) к соответствую-
щей квази-системе стимулирования [42] qs1,T(?) следующим обра-
зом:
? s t ( z1, t ), y1, t = z1, t
t 1,t
(14) qs (y ) = ? , t = 1,T .
?0, y ? z
1, t 1, t

Если заменить в выражении (13) s1,T(?) на qs1,T(?), то система не-
равенств останется в силе, то есть плановая траектория z1,T будет
реализовываться и системой стимулирования qs1,T(?), а фактические
выплаты активному элементу не изменятся.
Таким образом, мы доказали, что без потери эффективности
можно ограничиться классом систем стимулирования типа (14),
которому в том числе принадлежит система стимулирования (9).
Фиксируем произвольную плановую траекторию z1,T ? A1,T. Из
(11) и (13) следует, что при фиксированной плановой траектории
центр стремится найти реализующую ее систему стимулирования,
которая обладала бы минимальными затратами на стимулирование,
то есть центр решает следующую задачу:
T
? st(z1,t) > min
(15)
t =1
T T
? ?
{s (z ) – c (z )} ? – c t(y1,t), ? y1,T ? A1,T.
t 1,t t 1,t
(16)
t =1 t =1



32
Из предположения А.2’ следует, что максимум правой части
выражения (16) достигается в том числе при нулевых действиях АЭ
и равен нулю. Кроме того, выше предполагалось, что центр должен
в каждом периоде обеспечить АЭ неотрицательную полезность, то
есть каждое из слагаемых в левой части выражения (16) неотрица-
тельно. Следовательно, одно из решений задачи (15)-(16) имеет вид
(17) st(z1,t) = ct(z1,t), t = 1,T .
Значит минимальная система стимулирования, реализующая
плановую траекторию z1,T, удовлетворяет одновременно (14) и (17),
что дает выражение (9). При этом значение целевой функции АЭ в
каждом периоде неположительно, а при выборе действий, совпа-
дающих с планами, равно нулю.
То, что агент при использовании центром управления (9)-(10)
выберет действия, совпадающие с планами, следует из подстановки
(9) в (12) – если в любом из периодов АЭ выбирает действия, отли-
чающиеся от планов, то значение его целевой функций не увеличи-
вается (для того, чтобы планы были единственными точками мак-
симума достаточно доплачивать АЭ за их выбор, помимо
компенсации затрат, сколь угодно малую, но строго положитель-
ную величину – см. выше и [30, 59, 60]).
Суммируя (17) по всем периодам, получим следующую оценку
минимальных затрат ?(?) на реализацию плановой траектории z1,T:
T
?
(18) ?(z ) =
1,T
ct(z1,t).
t =1
Таким образом, мы показали, что системы стимулирования ви-
да (14), (17) реализуют плановую траекторию1 z1,t с минимальными
затратами центра на стимулирование, определяемыми (18). Вспо-
миная, что плановая траектория выбиралась произвольной, получа-
ем, что необходимо найти плановую траекторию, которая максими-

1
Еще раз подчеркнем, что на значения целевой функции АЭ в каждом
периоде могут быть наложены дополнительные ограничения (гаранти-
рованное обеспечение ненулевой резервной полезности, или некоторого
значения полезности, зависящего от действий АЭ, и т.д.). Однако, как
доказано в [42, 58, 59], введение подобных ограничений не меняет вида и

стр. 1
(всего 4)

СОДЕРЖАНИЕ

>>