<<

стр. 3
(всего 5)

СОДЕРЖАНИЕ

>>

Очевидно, что, если затраты АЭ непрерывны, и центр использует
компенсаторную систему стимулирования, то целевая функция АЭ
полунепрерывна сверху.
68
В третьих, представляет интерес рассмотрение механизмов с пла-
той за информацию в многоэлементных АС с неопределенностью и
асимметричной информированностью.
В целом, из проведенного в настоящем разделе анализа много-
элементных АС с неопределенностью можно сделать вывод, что в
тех случаях, когда соответствующие одноэлементные модели ис-
следованы достаточно полно, и для них получены аналитические
решения, то идея декомпозиции игры АЭ в многоэлементной АС
позволяет достаточно просто получить оптимальное решение зада-
чи стимулирования. В случае, когда соответствующие одноэле-
ментные модели исследованы недостаточно подробно (когда, на-
пример, для них не получены даже достаточные условия
оптимальности простых систем стимулирования), существенно
продвинуться в изучении их многоэлементных расширений на
сегодняшний день не удается.


2.5. Согласованное планирование

Одна из основных задач, решаемых в управлении проектами –
планирование, понимаемое как процесс определения желаемых с
точки зрения управляющего органа состояний управляемых субъ-
ектов и результатов их деятельности. Специфика планирования в
сложных социально-экономических системах (и, в том числе, в
проектно-ориентированной деятельности) заключается в том, что,
помимо согласования требований к результатам деятельности
отдельных агентов, необходимо обеспечить согласование интере-
сов управляющих органов, отражающих в моделях исследования
операций интересы системы в целом, с целями и интересами управ-
ляемых субъектов.
Одним из методов такого согласования является стимулирова-
ние. Взаимосвязь планирования и стимулирования подробно обсу-
ждалась в [27, 13, 32]. Обширный и достаточно глубоко и подробно
исследованный подкласс задач стимулирования составляют задачи
синтеза согласованных механизмов стимулирования (см. обзор
[32]).
Пусть система стимулирования зависит от параметра - плана
x ? X и действия АЭ y ? A, где X - множество допустимых планов
69
(для простоты положим X = A): ? = ?(x, y). Тогда целевая функция
АЭ зависит от стимулирования, плана и действия АЭ: f = f(?, x, y).
Множество реализуемых действий также параметрически зависит
от плана: P(?, x) = Arg max f(?, x, y). Изменяя планы, центр может
y? A
системой стимулирования ?(., y) реализовать следующее множество
действий: P(?) = U P(?, x).
x ?X
Обозначим B(?) = {x ? X | ? y ? A ?(x, x) - c(x) ? ?(x, y) - c(y)}
множество согласованных планов, то есть таких планов, выполнять
которые при заданной системе стимулирования для АЭ выгодно.
Задавая систему стимулирования ?(x, y), центр имеет возмож-
ность оперативно изменять значения планов, не меняя функцию
стимулирования, что достаточно привлекательно, так как особенно
в динамике частые изменения механизма управления целиком не
всегда возможны с точки зрения адаптивных свойств АЭ.
Согласованной называется система стимулирования ? ? M, для
которой выполнено B(?) = P(?). Поиску необходимых и достаточ-
ных условий согласованности систем стимулирования, а также
изучению соотношения таких свойств как согласованность и эф-
фективность систем стимулирования уделялось значительное вни-
мание исследователей. Проведем краткое обсуждение результатов,
полученных для согласованных механизмов управления АС (доста-
точно полное и систематическое их изложение приведено в моно-
графиях [13, 27, 29, 139] и статьях [24-26, 140-146]).
В литературе рассматривался целый ряд требований согласо-
вания интересов центра и АЭ, формулируемых как необходимость
обеспечения требуемых соотношений между планами активных
элементов и их реализациями (выбором - действиями АЭ). Среди
них: механизмы, согласованные по выполнению плана (см. опреде-
ление выше) в системах с полным, частичным и агрегированным
планированием, x-согласованные механизмы, ?(x)-согласованные
механизмы, L-согласованные механизмы и др. [13, 32] В упомяну-
тых работах развиваются как методы решения задачи синтеза оп-
тимальных механизмов функционирования, так и задачи синтеза
оптимальных механизмов функционирования, согласованных по
выполнению плана.

70
Наиболее известным и изящным достаточным условием согла-
сованности системы штрафов ?(x, y) (для задачи стимулирования,
в которой целевая функция АЭ представляет собой разность между
доходом и штрафами - эта постановка является "двойственной" к
описанной выше модели, в которой целевая функция АЭ определя-
ется разностью между стимулированием и затратами) является так
называемое "неравенство треугольника":
? x, y, z ?(x,y) ? ?(x,z) + ?(z,y).
Подробное описание достаточных условий согласованности
можно найти в [13, 27].
Важным шагом в развитии методологии и понимании проблем
оптимальности в АС явилось построение основ теории необходи-
мых и достаточных условий оптимальности механизмов, согласо-
ванных по выполнению планов, разработка техники получения
конструктивно проверяемых условий их выполнения.
Понятие степени централизации, отражающее "жесткость"
штрафов, позволило получить ряд результатов по сохранению
свойства выполнения плана при увеличении степени централиза-
ции. Дальнейшее развитие этого направления (для согласованных
механизмов, оптимальных по критерию гарантированного относи-
тельно неизвестных параметров результата) было произведено в
[13].
В первой главе настоящей работы отмечалась в частности та-
кая специфическая черта проектно-ориентированной деятельности
как нестационарность условий реализации проекта, то есть неопре-
деленность, понимаемая как недостаточная информированность
лица, принимающего решения. Например, осуществляя планирова-
ние, руководитель проекта может в силу объективных и/или субъ-
ективных причин не иметь достоверной и точной информации о
будущих внешних условиях его реализации. Поэтому при планиро-
вании необходимо синтезировать механизмы управления, которые
обеспечат выполнение требуемых свойств, среди которых, в пер-
вую очередь, следует назвать согласование (понимаемое широко -
во всех отмеченных выше аспектах) во всем диапазоне возможных
значений неопределенных параметров1.


См. также условия гарантированной ?-оптимальности и свойства
1

обобщенных решений задач управления в работах [48, 91, 98].
71
Обсудим постановку задачи согласованного планирования в ус-
ловиях неопределенности.
Пусть целевая функция АЭ f(?) и множество его допустимых
действий A зависят от неопределенного параметра ? – состояния
природы, принимающего значения из множества ?, которое из-
вестно всем участникам системы на момент принятия ими реше-
ний, то есть f = f(?, x, y, ?), A = A(?). В частности, от состояния
природы могут зависеть затраты агента, то есть c = c(y, ?).
Множество реализуемых действий P, помимо плана, также па-
раметрически зависит от состояния природы:
P(?, x, ?) = Arg max f(?, x, y, ?). Изменяя планы, центр может
y ? A( ? )
системой стимулирования ?(., y) реализовать следующее множество
действий: P(?, ?) = U P(?, x, ?).
x ?X
I P( ? , ? )
Обозначим P(?) = и определим множество со-
? ??
гласованных планов
B(?) = {x?X | ? ??? ? y?A ?(x, x) - c(x, ?) ? ?(x, y) - c(y, ?)},
то есть таких планов, выполнять которые при заданной системе
стимулирования для АЭ выгодно при любом состоянии природы.
Согласованной, как и в детерминированном случае, называется
система стимулирования ? ? M, для которой выполнено
B(?) = P(?).
Задачи согласованной оптимизации в условиях неопределен-
ности исследовались в [9, 139-146]. В частности, в упомянутых
работах получены следующие результаты:
- предложен подход к решению задачи согласованной опти-
мизации, в соответствии с которым ее решение сводится к
последовательному решению трех более простых задач –
задачи согласования, задачи оптимизации и задачи сущест-
вования.
- в рамках решения задачи согласования разработаны: спо-
соб настройки согласованных систем стимулирования,
обеспечивающих заинтересованность АЭ в реализации ря-
да типовых целей согласования; способ построения множе-
ства согласованных управлений с помощью оценочных
множеств.
72
сформулированы необходимые и достаточные условия оп-
-
тимальности согласованных по выполнению плана меха-
низмов функционирования для АС с неопределенностью.
Подробное описание результатов исследования задач согласо-
ванной оптимизации в условиях неопределенности выходит за
рамки настоящей работы. Поэтому, отослав заинтересованного
читателя к перечисленным выше работам, перейдем к описанию
моделей стимулирования в УП, учитывающих ограничения совме-
стной деятельности.


2.6. Ограничения совместной деятельности

В процессе реализации проекта неизбежно приходится учиты-
вать технологические и другие (в том числе, вызванные использо-
ванием ограниченных ресурсов, наличием фиксированной цели
проекта и т.д.) ограничения на совместную деятельность исполни-
телей. В рамках теоретико-игровых моделей эти ограничения могут
описываться либо явным сужением множеств допустимых совме-
стных действий, выбираемых одновременно, либо (в рамках моде-
лей сетевого планирования и управления и других «технологиче-
ских цепочек», называемых ниже одним термином –
«производственные цепочки») введением ограничений на последо-
вательность выбора стратегий. Оба эти случая рассматриваются
соответственно в настоящем и следующем разделах.
Рассмотрим АС, состоящую из n АЭ с целевыми функциями
fi(y), i ? I, y = (y1, y2, …, yn). Предположим, что, помимо индивиду-
альных ограничений на множества допустимых стратегий: yi ? Ai,
i ? I, существуют глобальные ограничения Aгл на выбор состояний
n
? Ai .
АЭ, то есть y ? A’ ? Aгл, где A’ =
i =1
Описание известных методов учета глобальных ограничений (в
том числе, метода штрафов, метода расширения стратегий, метода
согласований, метода изменения порядка функционирования и др.)
приведено в [103].
В работе [103] активными системами с зависимыми АЭ были
названы системы, в которых либо существуют глобальные ограни-

73
чения на множество возможных действий, либо/и целевая функция
каждого АЭ зависит от, помимо его собственных действий, дейст-
вий других АЭ. Для того чтобы различать эти два случая, мы будем
придерживаться следующей терминологии: если АЭ производят
свой выбор независимо (отсутствуют глобальные ограничения на
вектор действий АЭ), и целевая функция каждого АЭ зависит
только от его собственной стратегии, и отсутствуют общие ограни-
чения на управляющие переменные (допустимые функции стиму-
лирования и т.д.), то такую АС будем называть АС с независимыми
и несвязанными АЭ1. Если добавляются общие ограничения на
управления, то такие АС будем называть АС со слабо связанными
АЭ (АЭ оказываются связаны косвенно – через ограничения на
стратегии центра) [27, 100]. Если добавляется зависимость целевой
функции АЭ от обстановки игры, то такую АС будем называть АС с
сильно связанными (но независимыми!) АЭ. Если добавляются
только общие ограничения на множество стратегий АЭ системы, то
такую АС будем называть АС с зависимыми АЭ.
Выше в настоящей работе исследовались задачи стимулирова-
ния в АС с сильно связанными и независимыми АЭ. Опишем мето-
ды решения задачи стимулировании в АС с зависимыми АЭ (несвя-
занными, сильно и слабо связанными). Так как АС с сильно
связанными АЭ включают в себя АС с несвязанными и слабо свя-
занными АЭ как частный случай, перейдем к рассмотрению задач
стимулирования в АС с сильно связанными и зависимыми АЭ.
Классификация возможных комбинаций и их исследование
приведены в [103], где показано, что при решении задач стимули-
рования в многоэлементных АС с зависимыми АЭ учет глобальных
ограничений на множества допустимых действий АЭ возможно
осуществлять, применяя как метод штрафов, так и метод согласо-
вания, причем их использование качественно не изменяет приве-
денных выше результатов исследования механизмов стимулирова-
ния в многоэлементных АС.
Рассмотрим задачу управления АС, в которой центр, помимо
выбора системы стимулирования, имеет возможность влиять и на
1
Таким образом, «независимость» АЭ отражает свойства множеств их
допустимых стратегий, а «связанность» – зависимость целевой функции
АЭ от действий других игроков или наличие общих ограничений на управ-
ление.
74
множества допустимых действий АЭ1, то есть пусть центр имеет
возможность выбирать, помимо функций стимулирования, управ-
ляющие параметры ui ? Ui, i ? I, определяющие множества допус-
тимых действий АЭ, то есть Ai = Ai(ui). Тогда вектор действий
активных элементов y принадлежит допустимому множеству
n n
? Ai (ui ) , u = (u1, u2, …, un) ? U’ = ? U i .
A(u) =
i =1 i =1
Предположим, что ? y ? A’ ? u ? U’: y ? A(u). Содержательно
данное предположение означает, что множество допустимых
управлений центра достаточно «велико» для того, чтобы сделать
допустимым любой вектор действий АЭ.
Назначая определенные значения управляющих параметров
u ? U’, центр несет издержки ?(u), ?: U’ > ?1, измеряемые в де-
нежном выражении. Тогда целевая функция центра имеет вид (в
общем случае будем считать, что затраты АЭ несепарабельны, а
индивидуальное стимулирование каждого АЭ зависит от действий
всех АЭ):
n
?? i ( y)
(1) ?(y, ?, u) = H(y) - - ?(u).
i =1
Действия y , выбираемые АЭ, являются равновесием Нэша при
*

данных управлениях, то есть y* ? EN(?, u). Задача управления в
рамках гипотезы благожелательности заключается выборе управ-
ляющих параметров, максимизирующих целевую функцию центра
на множестве решений игры:
(2) max ?(y, ?, u) > max .
? ? M , u?U ?
y?E N (? , u )
Фиксируем произвольный вектор действий АЭ x ? A’. Для того
чтобы этот вектор действий был реализуем, необходимо и доста-
точно, чтобы он был равновесием Нэша (для этого достаточно
использовать соответствующую компенсаторную систему стиму-
лирования – см. раздел 2.1), и был допустимым действием (с точки
зрения ограничений на множества действий АЭ). Для удовлетворе-

1
Задачи управления АС с переменными множествами допустимых дей-
ствий рассматривались как в теории активных систем
[12, 13, 27, 139, 147], так и в теории иерархических игр [48, 51, 74],
причем, в основном, для динамических моделей.
75
ния последнему условию центр должен выбрать такие значения
управляющего параметра u ? U’, чтобы ? i? I xi ? Ai(ui).
Обозначим Ui(xi) = {ui ? Ui | xi ? Ai(ui)}, i ? I – множество та-
ких управлений, при которых действие xi является допустимым для
n
? U i ( xi ) . Минимальные затраты центра на обес-
i-го АЭ; U(x) =
i =1
печение допустимости вектора действий x ? A’ равны:
˜
(3) ? (x) = min ?(u).
u?U ( x )
Из результатов раздела 2.1 следует, что в рассматриваемой мо-
дели суммарные затраты центра по реализации действия x ? A’
n
? ci ( x ) ˜
+ ? (x). Оптимальным для центра действием
равны ?(x) =
i =1
АЭ является действие y*, максимизирующее разность между дохо-
дом центра и его затратами на стимулирование:
n
? ci ( x ) ˜
- ? (x)}.
(4) y = arg max {H(x) - ?(x)} = arg max {H(x) -
*
x? A? x? A? i =1
Итак, выражение (4) дает оптимальное решение задачи управ-
ления в многоэлементной АС в условиях, когда центр имеет воз-
можность управлять множествами допустимых действий АЭ.
Исследуем теперь задачу синтеза унифицированных управлений, то
есть предположим, что центр имеет возможность назначать персонифици-
рованное стимулирование каждому из АЭ, но должен выбрать одно значе-
ние управляющего параметра, единое для всех АЭ, то есть ui = u, Ui = UU,
i ? I.
Обозначим UU(x) = {u ? UU | ? i ? I xi ? A(u)} – множество таких управ-
лений, при которых действие xi является допустимым для i-го АЭ, i ? I.
Минимальные затраты центра на обеспечение допустимости вектора
˜
? U (x) ?U(u), где ?U: UU > ? – функция
1
min
действий x?A’ равны: =
u?UU ( x )
затрат центра.
Оптимальным для центра действием АЭ является следующее дейст-
вие:
n
? ci ( x ) ˜
? U (x)}.
*
(5) yU = arg max {H(x) - -
x? A? i =1


76
Выражение (5) дает оптимальное решение задачи синтеза унифици-
рованного управления в многоэлементной АС в условиях, когда центр
имеет возможность управлять множествами допустимых действий АЭ.
Обозначим эффективности оптимальных управлений (соответственно,
«обычного» и унифицированного):
n
? ci ( y * ) - ˜
? (y*),
* *
(6) K = H(y ) -
i =1
n
? ci ( yU ) ˜
? U ( yU ),
* * *
*
(7) KU = H( yU ) - -
i =1
*
*
KU ,
и сравним величины K и то есть оценим качественно потери в эф-
фективности управления, вызванные необходимостью использовать еди-
ные для всех АЭ значения управляющего параметра, определяющего
множества допустимых действий.
Введем следующее предположение о монотонности множеств допус-
тимых действий АЭ по управляющему параметру:
ui1 , ui2 ui1 ui2 1 2
А.1. ? i ? I, ? ? Ui = ? : ? > Ai( ui ) ? Ai( ui );
1


? u , u ? UU = ? : u ? u > ? i ? I Ai(u ) ? Ai(u ).
1 2 1 1 2 1 2

Введем также предположение об аддитивности и монотонности функ-
ций затрат центра:
n n
? ? i (ui ) , ? (u) = ? ? i (u ) .
А.2. ?(u) = U
i =1 i =1
Теорема 2.6.1. [103]. Если выполнены предположения А.1 и А.2, то
*
K? KU . Если при этом ?i(?) – монотонно возрастающие функции, i ? I, то
*


*
? y.
*
yU
Качественно, снижение эффективности при использовании
унифицированного управления обусловлено тем, что центр уста-
навливает единые для всех исполнителей (независимо от их инди-
видуальных различий) условия деятельности.
Важным частным случаем ограничений совместной деятельно-
сти являются производственные цепочки, к описанию которых мы
переходим.




77
2.7. Производственные цепочки

Производственной цепочкой называется АС, в которой АЭ
упорядочены таким образом, что ограничения деятельности (огра-
ничения на выбор стратегией) каждого АЭ определяются действи-
ем, выбранным АЭ с меньшим номером, а действие, выбранное
данным АЭ, определяет ограничения деятельности АЭ с большим
номером, причем АЭ выбирают действия последовательно в поряд-
ке, соответствующем их упорядочению. Производственные цепоч-
ки адекватно отражают широко распространенные на практике
условия взаимодействия экономических объектов, например, ис-
полнителей работ некоторого проекта, для которых результат
деятельности одного объекта (продукция) является сырьем, ис-
пользуемым другим объектом и т.д. В рассматриваемой ниже мо-
дели считается, что действие, выбранное определенным АЭ, задает
множество возможных действий следующего АЭ и т.д. Содержа-
тельные интерпретации такой зависимости очевидны.
Пусть в многоэлементной АС активные элементы упорядочены
так, что множество возможных действий i-го АЭ определяется
действием i-1-го АЭ: Ai = Ai(yi-1), i = 2, n . Примем, что множество
допустимых действий первого АЭ зависит от выбранного центром
значения управляющего параметра u ? U, то есть A1 = A1(u).
Порядок функционирования следующий: центр выбирает сис-
тему стимулирования {?i(?)} ? M и управление u ? U. Затем АЭ
последовательно выбирают свои действия, причем на момент вы-
бора действия каждый АЭ знает: целевые функции и допустимые
множества (с точностью до конкретного значения параметра) всех
участников АС, выбор центра и действия, выбранные АЭ с мень-
шими номерами.
Целевая функция АЭ имеет вид:
(1) fi(yi, ?i) = ?i(yi) – ci(yi),
то есть будем считать, что затраты АЭ сепарабельны (обоснован-
ность этого допущения подробно обсуждается в [103]).
Введем следующее предположение:
Ai+ (yi-1)] ? ?1 , где Ai+ : ?1
+ + +
?1
>
А.1. Ai(yi-1) = [0; - непрерывная

Ai+ (0) = 0, i ? I,
строго монотонно возрастающая функция, такая, что
y0 = u ? U = [0; umax].
78
Если выполнено предположение А.1, то существуют n непрерывных
Ai+ ,
строго монотонно возрастающих функций ?i(yi), обратных к функциям
которые позволяют «перевернуть» производственную цепочку, то есть по
заданному значению действия n-го АЭ восстановить минимальные дейст-
вия всех предшествующих АЭ и управление центра, делающих это дейст-
вие допустимым.
Пусть xn ? 0 – фиксированное действие n-го АЭ. Допустимые планы
(действия АЭ) определяются следующим образом:
1, n ? 1 .
(2) xi(xn) = ?i+1(?i+2(…?n-1(?n(xn)))), i =
Управление со стороны центра должно удовлетворять:
(3) u(xn) = ?1(?2(…?n(xn))).
Ai+ (?), i ? I, и значе-
С другой стороны, по известным зависимостям

Aimax (u)
нию u ? umax можно восстановить ограничения на максимальные
допустимые действия каждого АЭ:
Aimax (u) = Ai+ ( Ai+ (… A1+ (u))), i ? I.
(4) ?1
Обозначим ?(u) – затраты центра на управление. В [103] доказано, что
в рамках предположения А.1 в производственной цепочке реализуемы
такие и только такие действия y?A’, которые удовлетворяют:
1, n ? 1 , umax ? ?1(y1)},
y ? A = {y ? A’ | yi ? ?i+1(yi+1), i =
*


или, что то же самое:
A1+ (umax), yi ? Ai+ (yi-1), i = 2, n }.
y ? A = {y ? A’ | y1 ?
*


Минимальные затраты центра на реализацию вектора действий y?A’,
удовлетворяющего приведенной системе неравенств, равны
n
? ci ( y i ) .
(5) ?(y) = ?(?1(y1)) +
i =1
Если H(y) – функция дохода центра, то оптимальным реализуемым
вектором действий будет вектор
n
? ci ( yi ) }.
{H(y) - ?(?1(y1)) -
*
max
(6) y = arg
y? A* i =1
Теорема 2.7.1 [103]. Если выполнено предположение А.1, то опти-
мальное решение задачи стимулирования первого рода, в которой целевая
функция центра не убывает по действиям всех АЭ, для рассматриваемой
производственной цепочки имеет вид:


79
? ci ( yi ), yi = yi* (u * )
(7) u = u , ?i(yi) = ?
*
,
yi ? y i (u )
**
?0,
A1+ (u ) ,
*
* * *
*
y n (u ) ),
где y (u) = ( y1 (u ) , y 2 (u ) , …, y1 (u ) =

Ai+ ( yi? (u ) ), i = 2, n , u* = arg max
yi* (u ) *
{H(y (u)) - ?(u)}.
*
=
u?U
Результат теоремы 2.7.1 может быть интерпретирован сле-
дующим образом: каждому из участников производственной це-
почки центр компенсирует затраты при условии, что последова-
тельность действий реализуется с минимальными затратами на
управление, то есть решение задачи управления разбивается на две
подзадачи – реализации заданной последовательности действий и
выбора такой последовательности, которая оптимальна с точки
зрения центра.
Результат теоремы 2.7.1 в [103] применяются для частного, но
чрезвычайно часто встречающегося на практике, случая, когда
доход центра H = H(xn) зависит только от действия последнего АЭ
в производственной цепочке. Содержательно, при этом последний
АЭ производит конечную продукцию, а центр поставляет на вход
производственной цепочки исходное сырье в объеме u ? [0; umax].
Ограничение на максимальный объем исходного сырья порождает
ограничение на множество X возможных действий последнего АЭ,
и т.д. В упомянутой же работе рассматриваются задачи оптимиза-
ции продолжительности проекта (деятельности производственной
цепочки) применением различных систем стимулирования. Там же
приводятся условия выгодности взаимодействия исполнителей друг
с другом (системообразующая роль стимулирования) по сравнению
с их независимым взаимодействием с внешней средой (например,
рынком).
В заключение настоящего раздела установим более тесную
взаимосвязь рассматриваемых моделей взаимодействия исполните-
лей в рамках задач стимулирования с моделями сетевого планиро-
вания и управления, то есть обобщим полученные результаты на
случай произвольной технологической сети – «обобщенной» про-
изводственной цепочки.



80
Пусть множество I активных элементов разбито на T непересекаю-
I
1, T , Ii ? Ij = ?, i ? j, i, j = 1, T ,
щихся подмножеств {It}, t = It = I, кроме
t =1,T

1,? ? 1 . Предположим,
того, пусть выполнено: ? k ? It, ? l ? It+1 k < l, t =
что АЭ из множества It выбирают свои стратегии одновременно и незави-
симо в момент времени t, а множество допустимых действий любого АЭ из
множества It зависит от действий, выбранных АЭ из множества It-1 (в пре-
Ai+ (Yt-1)], i ? It, где Yt – вектор действий АЭ
дыдущем периоде): Ai(Yt-1) = [0;

1, T , Ai = [0; ui], i ? I1. Управление u = (u1, u2, …, u|I1| ) ?
из множества It, t =

?Ui выбирается центром.
U’ =
i?I1
Содержательно, технологический цикл в рассматриваемой мо-
дели состоит из T этапов, в течение каждого из которых выполня-
ются независимые операции, причем для начала работ по каждому
из этапов требуется завершение работ предыдущего этапа, и ре-
зультаты предыдущего этапа определяют множество результатов,
которые могут быть достигнуты на данном этапе. Множество ре-
зультатов, которые могут быть достигнуты на первом этапе, зави-
сят от управлений со стороны центра.
Относительно функций затрат АЭ сделаем следующее предположе-
ние: функции затрат несепарабельны, но затраты каждого АЭ зависят
только от действий АЭ, выбирающих свои действия в том же периоде, то
есть ci = ci(Yt), i ? It, t = 1, T .
Итак, центр имеет возможность выбирать управляющие пара-
метры u ? U’, неся при этом затраты ?(u), и назначать систему
стимулирования {?i(?)}. Будем считать, что в общем случае стиму-
лирование АЭ зависит только от действий АЭ, выбирающих свои
действия в том же периоде, то есть ?i = ?i(Yt), i ? It, t = 1, T .
Относительно функции дохода центра предположим, что она
зависит от действий всех АЭ.
В силу причинно-следственных связей (технологических зави-
симостей) игра АЭ распадается на T последовательно разыгрывае-
мых игр, множество допустимых стратегий АЭ в каждой из кото-
рых (за исключением первой) определяется решением предыдущей
игры, а множество допустимых стратегий АЭ в первой игре опре-
81
деляется управлением со стороны центра. Для каждой из этих игр
могут быть независимо использованы результаты синтеза опти-
мальных функций стимулирования в многоэлементных АС с несе-
парабельными затратами1 (см. раздел 2.1). Значит, остается «свя-
зать» эти игры между собой.
Одним из возможных способов учета последовательной взаи-
мозависимости результатов различных периодов является исполь-
зованный выше при рассмотрении «обычных» производственных
цепочек метод, заключающийся в последовательном установлении
зависимости максимальных допустимых действий АЭ и управле-
ний центра (аналог принципа Беллмана).
Введем следующее предположение
Ai+ (?) и ci(?), i ? I – непрерывные, строго монотонные функции
А.2. ?(?),
своих переменных.

? Ai . Вычислим такое
Фиксируем вектор YT = ( y n ?|I | , …, yn) ? AT =
T
i?IT

˜
? Ai
? AT-1 =
A T-1(YT)
множество векторов действий АЭ, принадлежа-
i?IT ?1
щих множеству IT-1, выбор которых обеспечивает допустимость вектора YT,
˜
то есть A (YT) = {YT-1?AT-1 | YT?AT(YT-1)}. Продолжая аналогичным образом,
получим совокупность множеств:
˜
A j(Yj+1) = {Yj ? Aj | Yj+1 ? Aj+1(Yj) }, j = 1,T ? 1 .
Вычислим множество векторов управлений, обеспечивающих допус-
˜
U (Y1) = {u ? U | Y1 ? A1(u)}.
тимость вектора Y1:
Таким образом, реализуемыми оказываются такие и только та-
кие вектора действий АЭ, которые удовлетворяют одному из сле-
дующих условий:
(8) u ? U, Y1 ? A1(u), Yj ? Aj(Yj-1), j = 2,T ;



Yt* был равновесием в
1
В частности, для того, чтобы в t-ой игре вектор
доминантных стратегиях требуются (минимальные!) затраты на сти-
? c j (Yt* ) .
мулирование, равные:
j?I t
82
˜ ˜
(9) YT ? AT, Yj ? A j(Yj+1), j = 1,T ? 1 , u ? U (Y1).
Условия (8) и (9) отражают технологические ограничения, на-
ложенные на «одновременный» выбор действий АЭ - участниками
производственной цепочки.
Обозначим A* - множество всех векторов действий АЭ и
управлений центра, которые удовлетворяют условиям (8) или (9).
Тогда задача синтеза оптимального управления заключается в
выборе реализуемого (из множества A*) вектора действий АЭ и
вектора управлений, максимизирующих целевую функцию центра:
T
? ? ci (Yt ) }.
(10) (u , y ) = arg max {H(y) - ?(u) -
* *

( u , y )?A* t =1 i?I t
Задача (10) чрезвычайно трудоемка с вычислительной точки
зрения. Кроме того, без детального анализа трудно предложить
какое-либо ее простое (оптимальное или «почти»-оптимальное)
решение.
Допущение о том, что функция дохода центра зависит только
от действий АЭ, выбираемых в последнем периоде, в обобщенных
производственных цепочках, в отличие от «простых» производст-
венных цепочек (см. выше), в общем случае не упрощает задачи
(10). Качественно это объясняется тем, что для действия некоторо-
го АЭ в общем случае существует несколько действий АЭ с мень-
шими номерами, делающих это действие допустимым с минималь-
ными затратами.
Если предположить, что Ai+ (?) , i ? I - взаимно однозначные
отображения, то по аналогии с «обычной» производственной це-
почкой для заданного вектора действий АЭ из множества IT одно-
значно вычисляются соответствующие вектора действий АЭ из
множества IT-1 и т.д. При H = H(YT) для задачи (10) может быть
использован следующий алгоритм последовательной минимизации
затрат, достаточно часто применяемый на практике. Для АЭ из
множества IT решается задача синтеза оптимальной системы стиму-
лирования – ищется действие xT = arg max {H(yT) - ? ci (YT ) }.
y T ? AT i?IT
Далее для АЭ из множества IT-1 решается задача стимулирования:
? ci (YT ?1 ) и т.д., то есть на каждом шаге от
min
xT-1 = arg ˜
yT ?AT ?1 ( xT ) i?I
T ?1

83
T-1-го до первого минимизируются затраты по реализации дейст-
вий, обеспечивающих допустимость действий, вычисленных на
предыдущем шаге. Если включить в рассматриваемую модель
фактор времени, то такой эвристический подход вполне согласован
с используемыми в сетевом планировании и управлении методами
оптимизации сетей по времени и стоимости (см., например,
[14, 18, 23, 30, 68]).


2.8. Распределенный контроль

Как отмечалось в первой главе, для управления проектами ти-
пична ситуация, в которой деятельность одного исполнителя коор-
динируется, обеспечивается и контролируется одновременно не-
сколькими управляющими органами. Задача анализа при этом
заключается в том, чтобы описать взаимодействие управляющих
органов, «замкнутых» на одни и те же субъекты управления; а
задача синтеза – в том, чтобы предложить механизмы (правила)
взаимодействия управляющих органов между собой и с управляе-
мыми субъектами, обеспечивающие достижение целей проекта, то
есть побуждающих исполнителей выбрать соответствующие дейст-
вия в заданных временных промежутках и рамках запланированных
(или максимально к ним близких) ресурсов.
Поэтому в настоящем разделе рассматриваются теоретико-
игровые модели стимулирования агентов, характеризуемых век-
торными предпочтениями на многомерных множествах допусти-
мых действий, со стороны нескольких центров, то есть модели
распределенного контроля.
Рассмотрим сначала взаимодействие между одним агентом и
одним центром, находящимся на следующем (более высоком отно-
сительно агента) уровне иерархии, то есть модель ОС с унитарным
контролем (ОС УК). Простейшая ОС ?, включающая этих двух
участников, описывается совокупностью множеств допустимых
стратегий центра и агента (U и A соответственно) и их целевыми
функциями (?(?) и f(?) соответственно), то есть
(1) ? = {U, A, ?(?), f(?)}.
Целевые функции (предпочтения) участников в общем случае
nf
являются векторными, то есть ?: U ? A > ?n ? , f: U ? A > ? ,
84
где n? ? 1 и nf ? 1 - соответствующие размерности. В целях удобст-
ва записи скалярные предпочтения (n? = 1, nf = 1) будем иногда
r
r
обозначать ? и f, а векторные (n? ? 2, nf ? 2) – ? и f .
Множества допустимых стратегий также могут быть много-
мерными, то есть A ? ?n A , nA ? 1, u = (u1, u2, …, unu ), nu ? 1. Век-
r
торное управление1 (nu ? 2) будем обозначать u , скалярное (nu = 1)
управление – u. Отметим, что двухуровневыми расширениями
описываемой базовой модели являются многоэлементные ОС, в
которых имеется более одного агента: n > 1 – см. выше, и двух-
уровневые ОС с несколькими центрами: k > 1 (здесь и далее k
обозначает число центров).
В работах [132, 133] было предложено называть ОС, в которых
каждый агент подчинен одному и только одному центру, ОС с
унитарным контролем, а ОС, в которых хотя бы один агент подчи-
нен одновременно двум центрам – ОС с распределенным контро-
лем (ОС РК). Примерами структур управления являются линейная,
матричная и сетевая (составляющие их элементы соответственно -
прямая, треугольная и ромбовидная структуры) [104].
Стандартным порядком функционирования одноэлементной2
ОС назовем следующий – центры выбирают одновременно свои
стратегии (u1, u2, …, uk), являющиеся функциями от будущего вы-
бора агента, то есть ui = u i(y), i = 1, k , k ? 1, и сообщают их агенту.
?
Агент при известном управлении выбирает свою стратегию – дей-
ствие y ? A, которое становится известным центрам. Множество
действий агента, доставляющих при фиксированном управлении
"максимум" его целевой функции3, называется множеством реше-

1
В большинстве рассматриваемых в настоящей работе теоретико-
игровых моделей управление является функцией от стратегии управляе-
мого субъекта. В этом случае под скалярным управлением понимается
функция, принимающая значения из ?1, а под векторным управлением -
вектор-функция.
2
В настоящей работе исследуются одноэлементные ОС РК. Специфика
многоэлементных ОС подробно описана выше.
3
Употребление кавычек обусловлено следующими причинами. Во-первых,
если не оговорено особо (и если на этом не надо акцентировать внимание
читателя), будем считать, что все максимумы и минимумы достигают-
85
ний игры или множеством действий, реализуемых данным управле-
нием.
При этом стандартная информированность участников сле-
дующая: центрам и агенту на момент принятия решений известна
модель ОС ?, кроме того агенту известны стратегии центров. В
ходе дальнейшего изложения, если не оговорено особо, по умолча-
нию будем считать, что имеют место стандартные информирован-
ность и порядок функционирования.
Относительно целевой функции центра в настоящем разделе
считается, что выполнены следующие предположения1.
А.0. Целевая функция центра (центров в моделях с несколькими
управляющими органами) скалярна: ?: U ? A > ? .
1

Пусть целевые функции участников ОС (центра и агента соответст-
венно) имеют вид: ??(y) = H(y) - ?(y), f?(y) = ?(y) - c(y), где H(y) - функция
дохода центра, c(y) - функция затрат агента, удовлетворяющие следующим
предположениям.
А.1. Функции ?(?) и f(?) непрерывны на компактах U и A.
А.2. A = ? + , H(?) и c(?) - непрерывные строго возрастающие функции,
1

H(0) = c(0) = 0.
А.2'. A.2 и H(?) - вогнутая, c(?) - выпуклая дифференцируемые функ-
ции.
Несколько забегая вперед отметим, что при рассмотрении за-
дач стимулирования под векторной целевой функцией агента
r
(случай f ) будем понимать векторную функцию затрат, то есть
n
c: A > ? f , nf ? 2. Аналогично, при векторных управлениях (слу-
r
чай u ) будем считать, что целевая функция центра скалярна и
определяется суммарными затратами на стимулирование, опреде-




ся (в противном случае будут использоваться соответственно Sup и Inf).
Во-вторых, не всегда понятно, что означает "максимум" векторной
функции, поэтому до тех пор, пока соответствие рационального выбора
участника ОС РК не введено корректно (см. ниже), будем ограничивать-
ся интуитивным пониманием рационального поведения.
1
Возможность наличия векторных предпочтений центра описывается
по аналоги с тем как это делается ниже для агента.
86
nA
? ? i ( y ) , где ?i(y)
ляемыми следующим образом: ?(y) = - стиму-
i =1
лирование за i-ю компоненту вектора действий.
Множество реализуемых ограниченными константой C системами
стимулирования действий агента имеет вид: P(C) = {y ? A | с(y) ? С}
= [0; y (C)], где y (C) = max {y ? A | c(y) ? C}. В силу предположения А.2
+ +


max
эффективность управления равна: K(C) = {H(y) - c(y)}, а оптималь-
y?P ( C )
* *
max
ное реализуемое действие равно
y y (C) = arg {H(y) - c(y)}
y?P ( C )
[99, 100, 104].
Теорема 2.8.1. [104]. Пусть выполнены предположения А.1, А.2 и ГБ.
Тогда компенсаторная система стимулирования
?c( y ), y = y * (C )
? (y) = ?
*
является оптимальной.
y ? y (C )
*
?0,
Эффективным инструментом исследования ОС РК является анализ
минимальных затрат на стимулирование [99, 100].
Качественно, центр гарантирует агенту компенсировать его за-
траты при условии, что он выберет действие, рекомендуемое цен-
тром. Оптимальное с точки зрения центра реализуемое действие
определяется из условия максимума разности между его доходом и
затратами на стимулирование агента.
Таким образом, мы привели решение задачи управления в мо-
дели ОС УК1, что дает возможность перейти к рассмотрению
ОС РК.
Обозначим K = {1, 2, …, k} - множество центров. Содержа-
тельно данная модель соответствует, например, матричной струк-
туре управления ОС, в которой имеются несколько управляющих
органов, оценивающих скалярное действие агента каждый по сво-

1
Если ввести предположение, что управления со стороны единственного
центра – векторные, то все общие результаты, описанные выше, оста-
ются в силе (напомним, что предположение А.1 заключалось в частности
только в компактности допустимых множеств, размерность которых
не оговаривалась) при условии, что затраты центра на стимулирование
будут определяться суммой затрат на стимулирование по каждой из
компонент.
87
ему критерию. Например, деятельность агента может описываться
объемом выпускаемой им продукции и оцениваться управляющими
органами по различным критериям, например, экономическая
эффективность, социальная значимость, влияние на окружающую
среду и т.д.
Обозначим u ? U - управление, выбранное i-ым центром , i ? K,
i i 1
r 1 2 k
= (u , u , …, u ). Если управление u скалярно (с точки зрения агента), то
u
предположим, что это скалярное управление является известной участни-
кам ОС функцией F(?) от управлений, выбранных центрами, то есть
r ri
u = F( u ), u ? U = {u | u = F( u ), u ? U , i ? K}.
i

Пусть информированность участников стандартная (см. опре-
деление выше), а последовательность функционирования следую-
щая: центры одновременно и независимо (коалиционные эффекты в
настоящей работе не рассматриваются) выбирают свои управления
{ui} (что приводит к реализации скалярного или векторного управ-
r
ления u = F( u )); далее агент при известном ему управлении u ? U
выбирает свое действие y ? A, что однозначно определяет выигры-
ши участников ОС.
r
Пусть y( u ) - известная центрам зависимость действия, выбираемого
r
uN
агентом, от управлений, назначенных центрами. Тогда вектор являет-
ся равновесием Нэша тогда и только тогда, когда выполнено: ? i ? K,
ir r ?i ?i ?i 1 2
? u ? U ? ( u N , y( u N )) ? ? ( u N , u , y( u N , u )), где u N = ( u N , u N , …,
i i i i



u i ?1 , u i +1 , …, u N ) - обстановка игры центров для i-го центра, i ? K.
k
N N
r
i
Относительно целевых функций центров {? ( u , y)} введем следую-
щее предположение.
А.3. Целевая функция i-го центра ? (u , y) зависит явным образом
ii

только от соответствующего управления и действия агента и непрерывна
на компакте U ? A, i ? K.
i

Множество реализуемых управлением u ? U действий агента имеет
max
вид: P(u) = Arg f(u, y).
y? A
При решении задачи управления существенно доопределение того,
что следует понимать под действием агента, выбираемым им при задан-
ных управлениях со стороны центров, то есть какие значения в рамках


1
Условимся, что верхние индексы нумеруют центры.
88
r
гипотезы рационального поведения агента может принимать y( u ). Под-
робное обсуждение приведено в [104].
r
Пусть y ( u ) ? A - представления i-го центра о выборе агента при
i

r 1 2 k
управлении u, i ? K. Вектор управлений u N = ( u N , u N , …, u N ) является
равновесием Нэша тогда и только тогда, когда ? i ? K, ? u ? U
i i

r ?i
i
? ( u N , y ( u N )) ? ? (u , y ( u N , u )).
i i ii i i


Множество равновесий Нэша обозначим EN.
Таким образом, характерной особенностью системы с рас-
пределенным контролем является наличие игры центров.
Исследуем свойства решений этой игры для задачи стимулирова-
ния.
В задаче стимулирования с одним центром скалярное управление
u ? U определяется по управлениям центров следующим образом:
? ? i ( y) .
? = ?(y) =
u( y )
(2)
i?K
Если центров несколько, то подобный переход невозможен, так как
имеются k ? 2 центров с целевыми функциями
1

(3) W (? , y) = H (y) - ? (y), i ? K.
ii i i

Целевая функция агента имеет вид:
(4) w(?, y) = ?(y) - c(y).
Для задачи стимулирования с целевой функцией агента вида (4) в рамках
предположения А.2 доказано (см. выше и [48, 100, 104]), что при использо-
вании компенсаторной системы стимулирования в рамках ГБ агент выбе-
*
рет действие y . Следовательно, минимальные суммарные затраты цен-
тров на стимулирование по реализации действия y ? A равны (точнее - при
отказе от ГБ сколь угодно близки к) соответствующим затратам агента, то
есть ?min(y) = c(y).
Из этого следует, что при использовании центрами компенсаторных
управлений, в рамках предположения А.2 выбор агента однозначен и
ir
совпадает с y ? A, поэтому будем считать, что y ( u ) = y , i ? K.
* *

Свойства стратегий центров в задаче стимулирования определяются
следующей леммой.



1
Отметим, что рассматриваемая модель качественно эквивалентна
модели, в которой единственный центр имеет векторные предпочтения
на множестве U ? A. Именно по этой причине в настоящей работе
рассматриваются управляющие органы со скалярными предпочтениями.
89
Лемма 2.8.2. [104]. Пусть выполнены предположения А.1-А.3 и ГБ. То-
r
гда в задаче стимулирования для любого вектора ? стратегий центров,
r
реализующего действие y ? A агента (y ? P(? )), существует недомини-
* *

r*
руемый им по Парето вектор стратегий центров ? , который реализует то
же действие агента и имеет вид:
??i , y = y *
r
(5) ? ( ? , y) = ?
*i
, i ? K,
? 0, y ? y
*
i
где величины {? } удовлетворяют следующим условиям:
? ?i
(6) ? ? 0, i ? K;
i *
= c(y ).
i?K
Если выполнено предположение А.2' (см. выше), то существует функ-
-1
ция с (?), обратная к функции затрат агента, и равенство в условии (6)
можно записать в виде
r
? ?i ).
(7) y( ? ) = c (
-1

i?K
Лемма 2.8.2 позволяет в ряде случаев при исследовании задачи сти-
мулирования в ОС с несколькими центрами (для решения которой необхо-
димо искать k функций стимулирования и реализуемое ими действие) без
потери эффективности ограничиться задачей поиска (k+1)-го скалярного
i *
параметра, то есть k чисел {? } и реализуемого действия y .
Пусть действие агента y ? A реализуется системой стимулирования
*


??i , y = y *
r
(8) ? ( ? , y) = ? , i ? K.
i


? 0, y ? y
*


? ?i *
(9) = c(y )
i?K
Обозначим
i
(10) Wmax = max {H (y) - c(y)}, i ? K,
i

y? A
i
{H (y) - c(y)}, i ? K.
i
y max max
(11) = arg
y? A
Теорема 2.8.3. [104]. Решение игры центров в задаче стимулирования
при использовании ими стратегий типа (5) определяется выражениями (9) и
i
(12) H (y ) - ? ? Wmax , i ? K.
i* i




90
r
?
Пусть ? - множество векторов ? 0, удовлетворяющих (9), (12) при
всевозможных y ? A. Если это множество непусто, то говорят, что имеет
*

место режим сотрудничества центров. Обозначим множество действий
агента, реализуемых равновесными по Нэшу стратегиями центров
r
(13) P = {y ? A | ? ? ? 0: (9), (12)}.
K

Случай, когда множество ? пусто, называемый режимом конкуренции
центров, исследуется (строятся сильно равновесные по Нэшу стратегии
центров) в [104].
Содержательно, в игре центров имеются два режима - режим
сотрудничества и режим конкуренции.
Режим сотрудничества имеет место когда множество ? не
пусто (для этого интересы центров должны различаться не очень
сильно). При этом центры совместно компенсируют затраты агента
(множество недоминирующих друг друга по Парето допустимых
дележей затрат при этом может оказаться достаточно широким) и
получают полезность, превышающую полезность, получаемую
каждым из них в случае индивидуального управления агентом.
Режим конкуренции появляется когда множество ? пусто (для
этого интересы центров должны быть почти антагонистичны). При
этом один из центров (содержательно - обладающий наибольшими
ресурсами управления) единолично не только компенсирует затра-
ты агента, но и переплачивает ему ровно столько, чтобы обезопа-
сить себя от возможности соглашения агента на другие (более
выгодные для него) условия, которые может предложить любой
другой центр.
Интересно отметить, что режим конкуренции невыгоден ни
одному из центров, так как любая точка из множества ? (если оно
непусто) доминирует его Парето. Тем не менее этот режим является
"равновесным", то есть при сильно различающихся интересах и
отсутствии возможности согласовать свои действия (напомним, что
мы рассматриваем некооперативное взаимодействие центров)
неэффективная ситуация является единственной ситуацией, устой-
чивой относительно индивидуальных отклонений.
В [104] показано, что даже в случае двух центров для фиксиро-
ванного действия агента, которое центры хотят реализовать, суще-
ствует целое множество комбинаций выплат со стороны центров
(сумма платежей фиксирована, а распределяться между центрами
эти платежи могут разными способами). Все эти комбинации при-
91
надлежат множеству Парето, следовательно априори (и не вводя
дополнительных предположений) сказать что-либо о конкретной
реализации точки Нэша нельзя. Поэтому рассмотрим возможные
дополнительные предположения о поведении центров.
Первая группа предположений относится к последовательно-
сти выбора стратегий центрами, то есть их априорному упорядоче-
нию по времени выбора стратегий и взаимным обязательствам
следовать установленным правилам игры. Например, игра центров
может производиться в два этапа - сначала они согласованно выби-
рают действие агента, которое в дальнейшем необходимо реализо-
вать, а затем последовательно (например, по-одному) выбирают
свои платежи агенту. Если принято решение реализовать действие
y* ? A, и центры, обязанные подчиниться этому решению, упорядо-
чены в порядке возрастания их номеров, то, очевидно, что имеет
? ? j ; Hk-1(y*)},
место: ?k = min {c(y*); Hk(y*)}, ?k-i= min {c(y*) -
j > k ?i

i = 1, k ? 1 .
Содержательная интерпретация такого механизма прозрачна:
представим себе k-уровневую иерархическую систему управления,
которая должна побудить управляемый субъект совершить некото-
рые действия, то есть, как минимум, компенсировать ему затраты
по совершению этих действий. Если ресурс нижнего уровня управ-
ления (с номером k, отсчитываемым от самого верхнего уровня
иерархии) достаточен для этого (то есть c(y*) ? Hk(y*)), то он осуще-
ствляет управление самостоятельно, не затрагивая более высоких
уровней иерархии. Если ресурс недостаточен (то есть
c(y*) > Hk(y*)), то он полностью использует свой ресурс и обраща-
ется за разницей c(y*) - Hk(y*) к представителю более высокого
уровня, который поступает аналогично и т.д. Понятно, что для
более адекватного отражения специфики иерархических много-
уровневых ОС можно приписывать различные "ценности" едини-
цам ресурсов различных уровней и т.д. (см. модели иерархических
ОС в [96]).
Вторая группа предположений относится к информационному
взаимодействию центров (кооперативные игры с нетрансферабель-
ной полезностью), а также к их возможности обмениваться полез-
ностью (кооперативные игры с трансферабельной полезностью)
92
[41, 54, 189]. Если центры могут принимать решения сообща и
обладают возможность осуществлять побочные платежи (условно
можно считать, что в классе стратегий вида (5) игра центров уже
является игрой с трансферабельной полезностью - центры могут в
широких пределах "передавать" друг другу полезность, варьируя
{?i}), то возникает кооперативная игра центров. Для поиска реше-
ний этой игры (например для исследования условий непустоты С-
ядра или существования и свойств какого-либо иного решения)
необходимо (но не достаточно!) использование введенного пред-
ставления. Содержательно последнее утверждение означает, что в
первую очередь центры могут, например, в первую очередь попро-
бовать образовать максимальную (включающую все центры) коа-
лицию и максимизировать суммарную полезность, побуждая агента
выбрать соответствующее действие, а затем обменяться платежами,
компенсировав тем центрам, которым выбор агентом именно этого
действия не очень выгоден, "потери" в полезности.
Если имеется векторное множество допустимых действий
агента, предпочтительность которых оценивается им по значениям
скалярной функции полезности, то содержательно такая модель
соответствует, например, ОС, в которой имеются несколько бизнес-
процессов, результаты которых оцениваются по некоторому еди-
ному критерию, например, времени, или объему выпуска, или
маржинальной прибыли, или затратам и т.д. Все общие результаты,
описанные выше, остаются в силе и для этого случая (напомним,
что предположение А.1 заключалось в частности только в компакт-
ности допустимых множеств, размерность которых не оговарива-
лась, а в предположении А.2 достаточно потребовать, чтобы вы-
полнялось A = ?n A , и строгой монотонности функций дохода и
+
затрат по всем переменным).
Для задач стимулирования существует глубокая взаимосвязь
между моделями ОС с векторными действиями агента и многоэле-
ментной ОС, в которой агенты выбирают скалярные действия, а их
вознаграждение основывается на наблюдаемом агрегированном
результате их деятельности, являющемся известной функцией от их
действий (подробное описание решения этой задачи и соответст-
вующие примеры приведены в [103, 104]).
Рассмотрим теперь случай, когда имеется векторная целевая
функция агента, по значениям компонент которой он оценивает
93
предпочтительность скалярного или векторного действия. Содер-
жательно такая модель соответствует, например, ОС, в которой
имеется один бизнес-процесс, результаты которого оцениваются
агентом, реализующим этот процесс, по нескольким критериям,
например, времени, объему выпуска, затратам и т.д.
В теории принятия решений получено значительное число ре-
зультатов [12, 64, 105, 113], посвященных методам поиска множе-
ства Парето, исследованию его свойств и т.д., описывать которые
подробно мы не будем. Отметим лишь, что вся трудность исследо-
вания моделей ОС с векторными предпочтениями участников
заключается в отсутствии для этого случая единой универсальной
концепции рационального выбора. Если в случае скалярных пред-
почтений участников (то есть предпочтений, описываемых целе-
выми функциями, отображающими декартово произведение допус-
тимых множеств всех участников в ?1) их рациональное поведение
заключалось в стремлении к максимизации целевой функции выбо-
ром собственной стратегии (при этом, правда, приходится доопре-
делять выбор в случае, когда множество максимумов содержит
более одной точки - см. ГБ и принцип МГР выше), то в случае
векторных предпочтений понятие рационального поведения опре-
деляется не столь однозначно. Понятно, что следует потребовать,
чтобы участник ОС выбирал стратегию которая не ухудшала бы
одновременно значения всех критериев (аксиома Парето), однако в
большинстве случаев это требование является слишком слабым.
Поэтому при построении конкретной модели исследователь опера-
ций вынужден конкретизировать закладываемые в модель предпо-
ложения о поведении центров и агента, то есть вводить допущения,
в рамках которых моделируемая ОС описывается наиболее адек-
ватно (с его субъективной точки зрения с учетом всей имеющейся
объективной информации). Перейдем к формальным определени-
ям.
Обозначим Nf = {1, 2, …, nf} - множество критериев и определим мно-
жество действий, оценки которых при данном управлении u ? U эффектив-
1
ны по Парето :

1
Еще раз подчеркнем глубокую взаимосвязь (с точки зрения методов
описания и исследования) между многоэлементными ОС с унитарным
контролем и ОС РК. В многоэлементных ОС УК имеет место игра
агентов и считается, что агенты выбирают вектор действий, принад-
94
(14) Par(A, u, {fi}) = {y ? A | ? y' ? A (fi(u, y') ? fi(u, y), i ? Nf)
> fi(u, y') = fi(u, y)},
то есть множество таких действий агента, что выбор любых других дейст-
вий приводит к ухудшению оценок хотя бы по одному из критериев.
Определим также множество полуэффективных (оптимальных по
Слейтеру) при данном управлении u ? U действий агента:
(15) Sl(A, u, {fi}) = {y ? A | ? y' ? A ? i ? Nf: fi(u, y') ? fi(u, y)}.
Естественно считать1, что множество реализуемых действий
содержится в соответствующем множестве типа (14), то есть агент
заведомо выбирает действия, недоминируемые по Парето.
Множество (14) может оказаться слишком широким для того, чтобы
конструктивно его использовать как определение множества реализуемых
действий P(u), следовательно, хотелось бы определить P(u) таким обра-
зом, чтобы выполнялось P(u) ? Par(u).
Итак, при попытке определения множества решений игры в
модели ОС РК, в которой агент имеет векторные предпочтения, мы
сталкиваемся с традиционной для многокритериальной оптимиза-
ции и теории принятия решений при нескольких критериях про-
блемой – проблемой определения рационального выбора [16, 113].
Единственное требование, относительно необходимости удовле-
творения которому согласны подавляющее большинство исследо-
вателей, это - аксиома Парето. Таким образом, помимо описанной
выше игры центров, в ОС РК существует еще одна характерная
особенность - многокритериальность предпочтений агентов,
порождающая (как и наличие нескольких центров) необходимость
корректного доопределения рационального выбора. Подробно эта


r
лежащий множеству равновесий Нэша EN( u ), в ОС РК единственный
агент выбирает вектор действий принадлежащий множеству Парето
(14). Если интерпретировать критерий агента в ОС РК как самостоя-
тельного агента, то получим многоэлементную ОС УК, причем множе-
r r
ства Парето и Нэша могут не совпадать. Если же EN( u ) ? Par( u ) ? ?,
то можно считать, что модели в определенном смысле эквивалентны.
1
Отметим, что в скалярном случае (nf = 1) множества (14) и (15) опти-
мальных по Парето и по Слейтеру действий агента совпадают с множе-
ством максимумов его целевой функции:
Par(A, u, f) = Sl(A, u, f) = P(u) = Arg max f(u, y).
y? A
95
проблема обсуждается в [3, 104, 113]. Там же приводится обзор
известных подходов.
Будем считать, что выполнено следующее предположение:
А.4. nf = nu; fi = fi(ui, y), i ? Nf,
то есть каждая компонента управления соответствует одному и только
одному критерию оценки агентом своих действий.
С содержательной точки зрения можно считать, что каждому
критерию (отражающему определенный аспект деятельности аген-
та) соответствует некоторое управление и только оно.
Пусть ограничения на управление имеют следующий вид.
А.5. ui ? Ui, i ? Nu = {1, 2, …, nu}.
Введем следующие обозначения. Стратегия наказания uнi агента
центром соответствует минимизации соответствующей компоненты целе-
вой функции агента по стратегии центра:
fi(ui, y), i ? Nu.
min
(16) fi(uнi(y), y) =
ui ?U i
v
u0
Абсолютно оптимальная стратегия центра соответствует мак-
симизации его целевой функции по собственной стратегии:
r
v
(17) ?( u0 , y) = max ?( u , y),
r
u?U
r
?Ui .
) ? U. В рамках предположения А.5 U =
un u
где u = (u1, u2, …,
i? N u
Обозначим Li - максимальное гарантированное значение i-ой компо-
ненты целевой функции агента:
?
fi( uн i(y), y), i ? Nf;
max
(18) Li =
y? A
Ei - множество действий агента, обеспечивающих ему получение по
соответствующему критерию выигрыша Li:
?
(19) Ei = {y ? A | fi( uн i(y), y) = Li}, i ? Nf;

I Ei - множество действий агента, обеспечивающих ему полу-
E=
i? N f
чение по каждому из критериев выигрыша (18);
Di - множество пар стратегий центра и агента, при которых значение
соответствующей компоненты целевой функции агента строго превышает
максимальное гарантированное значение:
r
(20) Di = {( u , y) ? U ? A | fi(ui, y) > Li}, i ? Nf;



96
I Di - множество пар стратегий центра и агента, при которых
D=
i? N f
значения всех компонент целевой функции агента строго превышают
соответствующие максимальные гарантированные значения;
K1 - максимальное на множестве D значение целевой функции центра:
r
? r sup ? (u , y ), D ? ?
?
?( u , y )?D
(21) K1 = ;
? ? ?, D=?
?
K2 - максимальное на множестве E значение целевой функции центра:
r
?( u , y);
min max
(22) K2 = r
y?E u?U
r
, y?) ? D ? ? - пара ?-оптимальных стратегий центра и агента,
( u?
? > 0:
r
(23) ?( u? , y?) ? K1 - ?.
Теорема 2.8.4. [104]. Пусть для каждой из компонент целевой функции
агента и для целевой функции центра выполнено предположение А.1, а
также выполнены предположения А.4 и А.5. Тогда гарантированная эффек-
тивность управления есть Kg = max {K1, K2}-?, ? > 0, а стратегия
*
r
?u? , если y = y? , K1 > K 2
?r
r*
? u0 , если y ? E , K1 ? K 2
u?
(24) =
r
?u , в остальных случаях

является гарантированно ?-оптимальной стратегией центра.
Содержательно в соответствии с результатом теоремы 2.8.4
центр фиксирует действие, которое он хочет реализовать, и наказы-
вает агента (независимо по каждому критерию!) при выборе других
действий (при этом агент получает выигрыши {Li}), поощряя за
выбор реализуемого действия (выигрыши агента при этом строго
превышают {Li}). В результате множество Парето состоит из един-
ственной точки - реализуемого действия1.
Введем в рассмотрение множество D0 - множество пар стратегий цен-
тра и агента, при которых значение каждой из компонент целевой функции
агента не меньше соответствующего максимального гарантированного
значения:

1
Еще раз отметим, что возможность независимого поощрения и наказа-
ния агента обусловлена предположениями А.4 и А.5.
97
r
(25) D0 = {( u , y) ? U ? A | fi(ui, y) ? Li, i ? Nf}.
Теорема 2.8.5. [104]. Пусть для каждой из компонент целевой
функции агента и для целевой функции центра выполнено предпо-
ложение А.1, а также выполнены предположения А.4, А.5 и ГБ.
Тогда
r
(26) K* = r max ?( u , x),
( u , x )?D0
а стратегия
r
r * ?u * , если y = x *
˜
(27) u = ? r ,
?uн , если y ? x
*

где
r r
˜
(28) ( u * , x*) = arg rmax ?( u , y)
( u , y )?D0
является оптимальной стратегией центра1.
Перейдем к рассмотрению задачи стимулирования, в которой целевая
функция агента имеет вид:
(29) wi(?i, y) = ?i(y) - ci(y), i ? Nf,
где ci(?) - i-я компонента затрат агента, а целевая функция центра в рамках
предположения А.4 имеет вид:
r
? ? i ( y) .
(30) W(? , y) = H(y) -
i? N f
Рассмотрим два случая.
Случай 1. В первом случае (для которого справедливы теоремы 2.8.4
и 2.8.5) выполнено предположение А.5, следовательно стимулирование
агента за каждую компоненту деятельности может выбираться независимо
от стимулирования других компонент, то есть ?i ? Ui, i ? Nf. Если для
каждой из компонент целевой функции агента выполнено предположение
А.2, то возможна декомпозиция стимулирования (по аналогии с принципом
декомпозиции игры агентов выше), которая реализуется следующим обра-
зом.
Из теорем 2.8.4 и 2.8.5 вытекают соответственно два следующих ут-
верждения [104].




1
Отметим, что в теоремах 2.8.4 и 2.8.5 не требуется скалярности
множества допустимых действий агента.
98
Следствие 2.8.6. Система стимулирования
?ci ( y ) + ? i , y = y * *
(31) ? K ( y , y ) = ?
*
, y ? A, i ? Nf
y?y
*
i
?0,
?? i .
реализует действие y и является ?-оптимальной, где ? =
*

i? N f
При использовании центром системы стимулирования (31) действие
y ? A является единственной Парето-оптимальной точкой.
*

Следствие 2.8.7. В рамках ГБ система стимулирования (31) с ? = 0
*
реализует действие y и является оптимальной.
Случай 2. Во втором случае предположение А.5 не выполнено, сле-
довательно стимулирование агента за каждую компоненту деятельности не
может выбираться независимо от стимулирования по другим компонентам,

<<

стр. 3
(всего 5)

СОДЕРЖАНИЕ

>>