<<

стр. 2
(всего 4)

СОДЕРЖАНИЕ

>>

а целевые функции центра и агента могут быть записаны соответ-
r r
ственно в виде: W(? , y) = H(y) - ?(y), w(? , y) = ?(y) - c(y), то есть
задача стимулирования в модели РК2 заменой (1) полностью сво-
дится (естественно, с учетом ограничений на суммарное стимули-
r
рование, порождаемых требованием ? ? U) к задаче стимулирова-
ния в базовой модели РК1, решение которой дается теоремами 2 и
7.


2.2.2. Модель РК3

Отличие модели РК3 от модели РК1 заключается в наличии
нескольких управляющих органов, каждый из которых вырабаты-
вает собственное управляющее воздействие, то есть
?РК3 = {nA =1, f, k ? 2, u}. Обозначим K = {1, 2, …, k} - множество
центров1.
Содержательно модель РК3 соответствует, например, матрич-
ной структуре управления ОС, в которой имеются несколько
управляющих органов, оценивающих скалярное действие агента
каждый по своему критерию. Например, деятельность агента может
описываться объемом выпускаемой им продукции и оцениваться
управляющими органами по различным критериям, например,
экономическая эффективность, социальная значимость, влияние на
окружающую среду и т.д.
Обозначим ui ? Ui - управление, выбранное i-ым центром2,
r
i ? K, u = (u1, u2, …, uk). Так как целевая функция и множество

1
Выше символ "K" был введен для обозначения эффективности K(u)
управления u ? U, в моделях же ОС с несколькими центрами этот же
символ традиционно используется для обозначения множества центров.
Можно надеяться, что такая не очень удачная, но исторически сложив-
шаяся система обозначений не приведет к путанице.
2
Условимся, что верхние индексы нумеруют центры.
37
допустимых действий агента скалярны, а также скалярно (с точки
зрения агента) управление u (также как это имеет место и в базовой
модели РК1), то предположим, что это скалярное управление явля-
ется известной участникам ОС функцией F(?) от управлений, вы-
r r
бранных центрами, то есть u = F( u ), u ? U = {u | u = F( u ), ui ? Ui,
i ? K}.
Пусть информированность участников стандартная (см. опре-
деление выше), а последовательность функционирования следую-
щая: центры одновременно и независимо (коалиционные эффекты в
настоящей работе не рассматриваются) выбирают свои управления
r
{ui}, что приводит к реализации управления u = F( u ); далее агент
при известном ему управлении u ? U выбирает свое действие y ? A,
что однозначно определяет выигрыши участников ОС.
r
Пусть y( u ) - известная центрам зависимость действия, выби-
раемого агентом, от управлений, назначенных центрами. Тогда
r
вектор u N является равновесием Нэша тогда и только тогда, когда
выполнено: ? i ? K, ? ui ? Ui
r r ? ?
(1) ?i( u N , y( u N )) ? ?i( u Ni , ui, y( u Ni , ui)),
где u Ni = ( u1 , u N , …, u i ?1 , u i +1 , …, u N ) - обстановка игры цен-
? 2 k
N N N
тров для i-го центра, i ? K.
r
Относительно целевых функций центров {?i( u , y)} введем
следующее предположение.
А.3. Целевая функция i-го центра ?i(ui, y) зависит явным обра-
зом только от соответствующего управления и действия агента и
непрерывна на компакте Ui ? A, i ? K.
Таким образом, в модели РК3 имеют место две "игры" - игра
между центрами1 (на этапе определения управлений) и "игра", в
которой агент выбирает свою стратегию1.

1
Казалось бы, явного взаимодействия между центрами быть не должно,
так как в силу предположения А.3 в целевую функцию каждого центра не
входят (по крайней мере явным образом) стратегии других центров.
Однако зависимость между центрами существует, так как в целевую
r
функцию каждого центра входит действие агента y( u ), конкретное
значение которого в силу гипотезы рационального поведения агента
зависит в общем случае от стратегий всех центров.
38
Обсудим что следует понимать под действием агента, выби-
раемым им при заданных управлениях со стороны центров, то есть
какие значения в рамках гипотезы рационального поведения агента
r
может принимать y( u ).
Множество реализуемых управлением u ? U действий агента
имеет вид:
(2) P(u) = Arg max f(u, y).
y? A
r
Подставляя u = F( u ) в определение (2), получаем:
r r
(3) P( u ) = Arg max f(F( u ), y).
y? A
Как и в базовой модели, после определения множества реали-
зуемых действий следует оговорить что понимается под рацио-
нальным выбором агента, на который рассчитывают центры, в
r
случае, когда множество P( u ) содержит более одного элемента. В
модели РК1 использовались два предельных подхода - ГБ и прин-
цип МГР. В рассматриваемой модели число возможных подходов к
определению рационального выбора агента еще более разнообраз-
но. Приведем некоторые из них.
Первый подход – предположение об использовании каждым из
центров принципа МГР, то есть расчет на выбор агентом наихуд-
r
шего (с точки зрения данного центра) действия из множества P( u ).
Обозначим это действие
r
i
(4) y МГР ( u ) = arg minr ?i(ui, y), i ? K.
y ?P ( u )
Непосредственное обобщение другого предельного подхода -
гипотезы благожелательности - на случай нескольких центров
невозможно [72, 73], так как в общем случае не существует дейст-
r
вия агента, принадлежащего множеству P( u ), которое одновре-
менно максимизировало бы целевые функции всех центров. Поэто-
r
му обозначим Par(B, u , {?i}) - множество недоминируемых по
Парето (при критериях {?i} центров) элементов множества B ? A:



1
Вторая "игра" становится полноценной игрой в случае нескольких
связанных агентов (см. подробное описание результатов исследования
моделей многоэлементных ОС в [63]).
39
r
(5) Par(B, u , {?i}) = {y ? B | ? y' ? B (?i(ui, y') ? ?(ui, y),
i ? K) > ?i(ui, y') = ?(ui, y)}.
Представляется естественным считать (что мы и будем делать
в ходе дальнейшего изложения при рассмотрении ГБ в моделях
ОС РК с несколькими центрами) обобщением ГБ следующее пред-
r
положение: агент выбирает из множества P( u ) действия, как ми-
нимум, неулучшаемые одновременно с точки зрения всех центров.
Рассчитывая на гарантированный результат по множеству Па-
рето, i-ый центр вычисляет действие
r
i
?i(ui, y), i ? K.
(6) y ParМГР ( u ) = arg min r
r
y?Par ( P ( u ), u , {? i })
Аналогично, i-ый центр может надеяться на благожелательное
отношение агента именно к нему, в случае, если агент не может
одновременно улучшить значения целевых функций всех центров,
то есть, рассчитывать на выбор действия
r
i
?i(ui, y), i ? K.
(7) y ParГБ ( u ) = arg max r
r
y?Par ( P ( u ), u , {? i })
И, наконец, четвертым (но, естественно, не исчерпывающим
все возможные подходы) вариантом является использование i-ым
центром гипотезы "абсолютной благожелательности", в рамках
r
которой центр рассчитывает, что агент выберет из множества P( u )
действие, наилучшее именно с его точки зрения:
r
i
(8) y ГБ ( u ) = arg max ?i(ui, y), i ? K.
r
y ?P ( u )
r r r
Arg max ?i(ui, y) ? Par(P( u ), u , {?i}) ? P( u ),
Так как1 r
y ?P ( u )
i ? K, то введенные величины удовлетворяют следующему соотно-
шению:
r r
i
i
?i(ui, y ГБ ( u )) = ?i(ui, y ParГБ ( u )) ?
r r
i i
? ?i(ui, y ParМГР ( u )) ? ?i(ui, y МГР ( u )).


1
Легко видеть, что в рамках введенных предположений множество
Par(B, {?i}) заведомо включает в себя точки, на которых достигаются
максимумы целевых функции центров {?i} по множеству B.
40
r
Обсудив возможные определения рационального выбора y( u )
агента при заданных управлениях, перейдем к описанию игры
r
центров. Пусть yi( u ) ? A - представления i-го центра о выборе
r
агента при управлении u, i ? K (возможные значения yi( u ) -
r r r
i
i i
y ГБ ( u ), y ParМГР ( u ), y МГР ( u ) и т.д.).
r
Вектор управлений u N = ( u1 , u N , …, u N ) является равнове-
2 k
N
сием Нэша тогда и только тогда (см. (1) и предположение А.3),
когда ? i ? K, ? ui ? Ui
r ?
(9) ?i( u i , yi( u N )) ? ?i(ui, yi( u Ni , ui)).
N
Множество равновесий Нэша обозначим EN.
Таким образом, характерной особенностью ОС РК является
наличие игры центров. Исследуем свойства решений этой игры
на примере задачи стимулирования.
В задаче стимулирования в модели РК3 скалярное управление
u ? U определяется по управлениям центров следующим образом
(напомним, что величина ?(y) в модели РК1 называлась суммарны-
ми затратами центра на стимулирование):
(10) u ( y ) = ?(y) = ? ? i ( y) .
?
i?K
Если в модели РК2 замена типа (10) позволяла свести задачу
стимулирования к известной (то есть к задаче стимулирования в
модели РК1, решение которой описано в разделе 2.1), то подобный
переход в модели РК3 невозможен, так как в ней имеются k ? 2
центров с целевыми функциями1
(11) Wi(?i, y) = Hi(y) - ?i(y), i ? K.
Целевая функция агента имеет вид:
(12) w(?, y) = ?(y) - c(y).


1
Отметим, что модель РК3 качественно эквивалентна модификации
модели РК1 или РК2, в которой единственный центр имеет векторные
предпочтения на множестве U ? A (см. также обсуждение взаимосвязи
модели РК5 с векторными предпочтениями агента и моделей многоэле-
ментных ОС с агентами, имеющими скалярные предпочтения). Именно
по этой причине в настоящей работе рассматриваются управляющие
органы со скалярными предпочтениями.
41
Для задачи стимулирования с целевой функцией агента вида
(12) в рамках предположения А.2 доказано (см. раздел 2.1 и
[61, 62]), что при использовании компенсаторной системы стиму-
лирования
?c( y * ), y = y *
(13) ?(y) = ?K(y) = ?
y ? y*
? 0,
в рамках ГБ агент выберет действие y*. Следовательно, минималь-
ные суммарные затраты центров на стимулирование по реализации
действия y ? A равны (точнее - при отказе от ГБ сколь угодно
близки к) соответствующим затратам агента, то есть
(14) ?min(y) = c(y).
Из этого следует, что при использовании центрами управле-
ний, удовлетворяющих (13), в рамках предположения А.2 выбор
агента однозначен (см. теорему 4) и совпадает с y* ? A, поэтому
r
будем считать, что yi( u ) = y*, i ? K.
Свойства стратегий центров в задаче стимулирования опреде-
ляются следующей леммой.
Лемма 9. Пусть выполнены предположения А.1-А.3 и ГБ. То-
r
гда в задаче стимулирования для любого вектора ? стратегий
r
центров, реализующего действие y* ? A агента (y* ? P(? )), суще-
ствует недоминируемый им по Парето вектор стратегий центров
r
? * , который реализует то же действие агента и имеет вид:
??i , y = y *
r
(15) ? ( ? , y) = ?
*i
, i ? K,
? 0, y ? y
*

где величины {?i} удовлетворяют следующим условиям:
(16) ?i ? 0, i ? K; ? ?i = c(y*).
i?K
r
Доказательство. Пусть y* ? P(? ). Из определения реализуемо-
сти действия y* ? A следует, что
?? i ( y* ) ? ? i ( y)
(17) ? y ? A - c(y*) ? - c(y).
i?K i?K
r
Переход от системы стимулирования ? к системе стимулиро-
вания (15), в которой, например, ?i = ? i ( y * ) , i ? K, оставляет в

42
силе условие (17), следовательно действие y* может быть реализо-
вано стратегиями типа (15).
Докажем выполнение (16). Неотрицательность стимулирова-
ния в (15) следует из предположения А.2, поэтому необходимо
показать, что имеет место ? ?i = c(y*). Из определения реализуе-
i?K
мости следует, что при использовании системы стимулирования
(15) выполнено
? ? *i ( y * ) ? ? *i ( y )
?y?A - c(y*) ? - c(y),
i?K i?K
r
то есть y ? P( ? * ).
Правая часть последнего выражения в силу (15) и предположе-
ния А.2 достигает максимума при y = 0, следовательно:
? ? *i ( y * ) ? c(y*).
(18)
i?K
Если неравенство (18) выполнено как строгое, то всегда най-
дется такой номер i ? K, что выбор i-ым центром параметра ?i < ?i в
стратегии типа (15) оставит в силе условие реализуемости и строго
увеличит значение его целевой функции при неизменных стратеги-
ях и значениях целевых функций остальных центров, что противо-
речит определению эффективности по Парето. •
Если выполнено предположение А.2' (см. выше), то существует
функция с-1(?), обратная к функции затрат агента, и равенство в
условии (16) можно записать в виде
r
(19) y( ? ) = c-1( ? ?i ).
i?K
Лемма 9 позволяет в ряде случаев (см. теорему 10) при иссле-
довании задачи стимулирования в ОС с несколькими центрами (для
решения которой необходимо искать k функций стимулирования и
реализуемое ими действие) без потери эффективности ограничить-
ся задачей поиска (k+1)-го скалярного параметра, то есть k чисел
{?i} и реализуемого действия y*.
Итак, лемма 9 описывает вектора стратегий центров, реали-
зующих те или иные действия агента, но ничего не говорит о том
являются ли эти вектора равновесиями в игре центров, единственно
ли равновесие и как его искать. Для ответа на эти вопросы запишем

43
определение равновесия Нэша в рамках предположения об исполь-
r
зовании центрами стратегий типа (15), используя (16) и (19): ? -
равновесие Нэша тогда и только тогда, когда
(20) ? i ? K ? ?i ? 0 Hi(y(?-i, ?i)) - ?i ? Hi(y(?-i, ?i)) - ?i.
Пусть действие агента y* ? A реализуется системой стимули-
рования1
??i , y = y *
r
(21) ? ( ? , y) = ? , i ? K.
i

0, y ? y *
?
Запишем для задачи стимулирования определение равновесия
Нэша (9) в игре центров следующим образом:
(22) ? i ? K ? ?i ? 0 Hi(yi) - ?i ? Hi(y*) - ?i,
ri
где y ? P( ? ), y ? P(?-i, ?i), то есть
*


? ?i
(23) ? i ? K ? ?i ? 0, ? yi ? P(?-i, ?i) ?i - c(yi) ? - c(y*).
i?K
Условия (22), (23) означают, что ни один из центров, отклоня-
ясь по-одиночке от равновесия Нэша и побуждая агента использо-
?? i , y = y ( ??i , ? i )
ванием системы стимулирования ? (y) = ? вы-
i
?i
? 0, y ? y ( ? , ? )
i

брать действие yi, быть может отличное от действия y* (см. условие
(23)), не выигрывает от этого (условие (22)).
Из условий реализуемости (17) следует, что условие
? ?i = c(y*)
(24)
i?K
является необходимым условием равновесия по Нэшу системы
стимулирования (21) - в противном случая, уменьшая по-одиночке
выплаты агенту, любой из центров может только выиграть.
Итак, мы имеем необходимое условие равновесия Нэша (24), и
необходимое условие реализуемости2 (18). Требование их одновре-

1
Отметим, что скалярное управление при этом определяется выраже-
нием (10), в котором управления центров - суть системы стимулирова-
ния (21).
2
Равновесиями Нэша будут также все системы стимулирования, при
которых центры реализуют действие y*, и предлагают достаточно
малое вознаграждение за выбор других действий. Эти равновесия инте-
44
менного выполнения сводится к (24). Значит правая часть в (23)
равна нулю и условия реализуемости действия yi можно записать в
виде
(25) ?i ? c(yi), i ? K.
Обозначим
i
(26) Wmax = max {Hi(y) - c(y)}, i ? K,
y? A
i
(27) y max = arg max {Hi(y) - c(y)}, i ? K.
y? A
Объединяя (22) и (25) получаем с учетом (26) и (27) следую-
щий результат.
Теорема 10. Решение игры центров в задаче стимулирования
при использовании ими стратегий типа (21) определяется выраже-
ниями (24) и
i
(28) Hi(y*) - ?i ? Wmax , i ? K.
Отметим, во-первых, что результат теоремы 10 охватывает и те
ситуации, в которых определенное действие агента реализуется
некоторой "коалицией" центров S ? K, а центры, не вошедшие в
"коалицию", не принимают участия в компенсации затрат. В этом
случае в неравенствах (27) ?i = 0, i ? K \ S. Если существует реше-
ние соответствующей системы неравенств для "коалиции" и ее
дополнения, то, очевидно, существует решение системы неравенств
(27).
Во-вторых, утверждение теоремы 10 характеризует равновесия
Нэша на множестве стратегий центров типа (21). Если хотя бы один


реса не представляют, но они есть. Кроме того, если стратегии центров
имеют вид (21), то такая реализация требует совместных действий
центров. При стратегиях вида (21) имеем задачу коллективного благо-
состояния [54, 79], где сообщество центров выбирает действие y* и
распределение затрат на его реализацию (при этом (28) является услови-
ем индивидуальной рациональности и нахождение достаточно узкого
решения требует применения гипотез типа утилитаризма или эгалита-
ризма [54]). При k > 2 и разрешении образовывать коалиции имеем коопе-
ративную игру. Найденное множество равновесий Нэша – это на самом
деле ядро для игры двух лиц или ядро (если оно непусто) в игре, в которой
разрешена только максимальная коалиция.
45
из центров устанавливает ненулевое вознаграждение агента за
выбор им действия, отличного от y*, то необходимо доопределение
множества равновесий Нэша, например, за счет использования так
называемых условий угроз (см. [13-15, 63, 76] и лемму 11) и т.д.
Содержательно условие (24) обеспечивает реализуемость дей-
ствия y* (см. лемму 9), условие (21) обеспечивает эффективность по
Парето (и является необходимым условием равновесия Нэша)
стратегий центров (см. лемму 9), а условие (28) гарантирует, что ни
одному из центров не выгодно отклоняться от равновесия Нэша,
побуждая агента выбирать действие, отличное от y*, и в одиночку
компенсировать его затраты (отметим, что из (24) содержательно
следует, что центры "скидываются" и совместно компенсируют
затраты агента).
Необходимо подчеркнуть, что при предельном переходе от мо-
дели РК3 к базовой модели РК1 теорема 10 переходит в теорему 8
(если k = 1, то единственный центр компенсирует затраты агента,
побуждая его выбирать действие, максимизирующее разность
между доходом центра и его затратами на стимулирование, равны-
ми затратам агента (при этом (28) обращается в равенство)).
Если выполнено предположение А.2', то (24) и (28) могут быть
объединены (воспользовавшись (19), можно исключить из условий,
определяющих равновесные стратегии центров, действие агента) в
следующую систему неравенств:
? ?i )) - ?i ? Wmax , i ? K.
i
(29) Hi(c-1(
i?K
Условие типа (29) можно записать в виде (j ? K):
? H i ( y * ) ? ?i ? Wmax , i ? K \ { j}
i
?
(30) ? H j ( y * ) ? c( y ) +
? ?i ? Wmax ,
j
?
? i? j
исключив из (28) подстановкой (24) одно из значений стимулиро-
вания (?j) и оставив действие агента y*.




46
r
Пусть ? - множество векторов ? ? 0, удовлетворяющих (24),
(28) при всевозможных y* ? A. Обозначим множество действий
агента, реализуемых равновесными по Нэшу стратегиями центров1
r
(31) P = {y ? A | ? ? ? 0: (24), (28)},
K

то есть множество таких действий агента, для которых система
неравенств (24), (28) имеет решение.
Рассмотрим пример, иллюстрирующий свойства введенных
величин и соотношений между ними.
Пример 2. Пусть имеет место совпадение интересов центров,
то есть они стремятся реализовать максимально возможное дейст-
вие агента. Тогда вопрос заключается в определении множества
допустимых распределений затрат агента между центрами. Рас-
смотрим ОС, в которой c(y) = y, Hi(y) = ?i y, ?i ? 1, i ? K, k = 2 и
i
A = [0; A+], A+ < +?. Тогда y max = A+, i ? K, а система неравенств
? ? 1 ( ?1 + ?2 ) ? ?1 ? (? 1 ? 1) A+
(29) может быть записана в виде ? 2 1 .
+
?? ( ? + ? ) ? ? ? (? ? 1) A
2 2 2

Множество ? равновесных по Нэшу стратегий центров заштрихо-
вано на рисунке 7. •
Таким образом, теорема 10 дает характеризацию множества
равновесий Нэша в игре центров. Однако, это множество может
оказаться достаточно большим (см. в качестве иллюстрации этого
утверждения пример 2), поэтому необходимо дополнительное
исследование его свойств. Рассмотрим несколько примеров.
j
Очевидно, что имеет место: Par(PK, {Wi}) = PK ? U { y max }
j? K
(то, что все точки множества P не доминируют друг друга по
K

Парето следует из леммы 9 и теоремы 10; кроме того, множество
Парето содержит точки максимумов каждого из критериев). Со-
держательно любое равновесие Нэша в игре центров, определяемое
теоремой 10, не доминируется по Парето ни одним другим равно-
весием и, кроме того, реализуемыми являются такие (но в общем
1
Из (29) следует, что в рамках предположения А.2' максимальное мно-
c ?1 ( ? ?i ) .
rU
жество реализуемых действий есть PK =
i ?K
? ??
47
случае не только такие) действия агента, которые доставляют
максимум хотя бы одной из функций:
Wi(?i, y) = Hi(yi) - c(y), i ? K
(отметим, что при этом не обязательно стратегии типа (21), реали-
зующие это действие, будут равновесными по Нэшу - см. следствие
12), что иногда значительно упрощает поиск и исследование равно-
весий в игре центров.

?2

A+




(1-1/?1)A+



?1
(1-1/?2)A+ A+
0

Рис. 7. Равновесные по Нэшу стратегии центров в примере 2

Исследуем случай, когда множество ? пусто, то есть когда не
существует равновесных по Нэшу стратегий центров типа (21).
В доказательстве леммы 9 установлен тот факт, что для любого
вектора стратегий центров, реализующих действие y* ? A агента,
можно построить стратегию (15), реализующую то же действие
агента, но этот вектор стратегий не обязательно является равнове-
сием Нэша, например, в случае, когда ? = ? и, следовательно, (16)
не имеет места. Следующая лемма характеризует равновесные по
Нэшу стратегии центров для этого случая.
i
Упорядочим центры в порядке убывания величин Wmax , i ? K,
относительно которых не снижая общности будем считать, что все
они различны. Первого в этом упорядочении центра назовем дик-
татором. Если равновесия Нэша (при использовании центрами
Парето эффективных стратегий типа (21)) не существует, то необ-
48
ходимо ослабление концепции равновесия для того, чтобы иметь
возможность определить решение игры (см. для примера соревно-
вательные системы стимулирования [13, 23, 63, 76]). Одним из
возможных путей является использование "условий угроз", в соот-
ветствии с которыми решением игры считается такая обстановка
игры, при который каждый из игроков уверен, что ни один из
других игроков не может угрожать ему изменением своей страте-
гии (понятно, что если равновесие Нэша существует, то оно удов-
летворяет этим условиям).
Лемма 11. Если множество ? пусто, то равновесные1 стратегии
центров удовлетворяют следующим условиям:
??i , y = y *i
r
(32) ? ( ? , y) = ? , i ? K,
*i

? 0, y ? y
*i

(33) y* = y*1,
где
(34) ?1 = c( y1 ) + Wmax + ?, y*1 = y1 ,
2
max max
а y , ? и ? - любые, удовлетворяющие следующим условиям:
*i i

1 2
(35) y*i ? A, ?i ? [0; Hi(y*i)], i = 2, k , ? ? (0; Wmax - Wmax ].
Доказательство. Ограничимся тезисным изложением основных
пунктов доказательства. Если множество ? пусто, то под равнове-
сием в игре центров будем понимать такой вектор стратегий, что
каждый из центров может быть уверен, что ни один из других
центров не сможет, изменяя свою стратегию, реализовать другое
действие агента ("условие угроз" - см. [63]).
Какое действие ни пытался бы реализовать любой из k-1 цен-
тров (за исключением диктатора), диктатор всегда сможет предло-
жить агенту большую оплату за выбор наиболее выгодного для
него действия y1 .
max


1
Равновесие понимается в смысле "условий угроз" [63] при минимальном
2
?. Кроме того, если второй центр предлагает агенту выплаты Wmax в
2
случае выбора им действия y max , то получаем, что выражения (32)-(35)
будут задавать слабое ?-равновесие Нэша.
49
Для удовлетворения "условию угроз" диктатору достаточно
оплатить агенту, помимо компенсации затрат, величину строго
превышающую (на ? > 0) ту доплату (опять-же по сравнению с
компенсацией затрат), которую ему могут предложить другие
2
центры. Максимум из этих доплат равен Wmax . •
Отметим, во-первых, что можно расширить множество равно-
весных стратегий центров в условиях леммы 11, предположив, что
соревноваться могут произвольные коалиции центров, и определять
равновесие, записывая неравенства типа (32)-(35) уже для коали-
ций. Однако, при этом приходится вводить дополнительные пред-
положения об информированности центров и их возможностях
обмениваться информацией и предпринимать согласованные дей-
ствия. Получающаяся в результате игра может рассматриваться
либо как игра с «равновесием Нэша», либо как кооперативная игра
с нетрансферабельной полезностью [68, 69, 86]. Так как исследова-
ние коалиционных эффектов выходит за рамки настоящей работы,
то в ходе дальнейшего изложения под равновесием в игре центров
будем понимать равновесия, определяемые теоремой 10 и леммой
11.
Во-вторых, при предельном переходе от модели с несколькими
центрами (модель РК13) к модели с одним центром (модель РК1),
который, естественно, и является диктатором, система стимулиро-
вания (32)-(35) переходит в оптимальную квазикомпенсаторную
систему стимулирования (см. теорему 7). Таким образом, при
предельном переходе в случае непустого множества ? эффектив-
ность стимулирования в модели РК13 стремится к эффективности
стимулирования в соответствующей модели РК1 "сверху", а в
случае пустого множества ? - "снизу".
Пример 3. Рассмотрим ОС, в которой интересы центров проти-
воположны. Пусть k = 2, c(y) = y2, H1(y) = ? - ?1y, H2(y) = ?2 y, то
есть первый центр заинтересован в выборе агентом минимального
(нулевого) действия, а второй центр - некоторого действия, отлич-
ного от нуля (см. рисунок 8).




50
y1 = 0, 2
y max = ?2/2,
Вычислим следующие величины: max
1 2
Wmax = ?, Wmax = (?2)2/4. Условия (22) примут вид:
? ?1 + ? ?1 + ?2 ? 0
? 1
?2 1 .
?? ? + ? ? ? ? (? ) / 4
2 2 22
?
В силу неотрицательности выплат от центров агенту последняя
система неравенств не имеет решения, то есть ? = ?. Следователь-
но, не существует равновесия Нэша типа (21) в игре центров, реа-
лизующего действия агента с минимальными затратами, то есть
условие (24) не выполнено.
Следовательно, в соответствии с леммой 11, если ? ? (?2)2/4, то
первый (в рамках обозначений настоящего примера) центр является
диктатором и реализует нулевое действие, выплачивая агенту
вознаграждение (?2)2/4 + ?. Если же выполнено ? ? (?2)2/4, то дик-
татором является второй центр, который в этом случае реализует
действие ?2/2, выплачивая агенту вознаграждение ? + ?. •



?
?1(y)


(?2)2/4

?2(y)



y
?2
0
?2/2


Рис. 8. Целевые функции центров в примере 3

Полная характеризация (в оговоренном выше смысле, то есть
без учета коалиционных эффектов) равновесных (либо по Нэшу в
51
случае непустоты множества ?, либо относительно «условий уг-
роз»стратегий центров дается следствием 12, объединяющим ре-
зультаты лемм 9 и 11, а также теоремы 10.
Следствие 12. Если ? ? ?, то множество равновесий в игре
центров определяется выражениями (21), (24) и (28); если ? = ?, то
множество равновесий в игре центров определяется выражениями
(32)-(35).
Содержательно, в игре центров имеются два режима - режим
сотрудничества и режим конкуренции.
Режим сотрудничества имеет место когда множество ? не
пусто (для этого интересы центров должны различаться не очень
сильно). При этом центры совместно компенсируют затраты агента
(множество недоминирующих друг друга по Парето допустимых
дележей затрат при этом может оказаться достаточно широким) и
получают полезность, превышающую полезность, получаемую
каждым из них в случае индивидуального управления агентом (см.
модель РК1).
Режим конкуренции появляется когда множество ? пусто (для
этого интересы центров должны быть почти антагонистичны). При
этом один из центров (содержательно - обладающий наибольшими
ресурсами управления) единолично не только компенсирует затра-
ты агента, но и переплачивает ему ровно столько, чтобы обезопа-
сить себя от возможности соглашения агента на другие (более
выгодные для него) условия, которые может предложить любой
другой центр. Интересно отметить, что режим конкуренции невы-
годен ни одному из центров (даже диктатору, который "переплачи-
вает" агенту ? 2 + ?), так как любая точка из множества ? (если
max
оно непусто) доминирует его Парето. Тем не менее этот режим
является "равновесным", то есть при сильно различающихся инте-
ресах и отсутствии возможности согласовать свои действия (на-
помним, что мы рассматриваем некооперативное взаимодействие
центров) неэффективная ситуация является единственной ситуаци-
ей, устойчивой относительно индивидуальных отклонений.
Следует отметить, что результат следствия 12 описывает дос-
таточно широкий круг прикладных задач, включающий в том числе
и задачу стимулирования в ОС РК, для которой первоначально эта
модель и разрабатывалась. Примером может служить задача найма
52
на работу (см. модели рекрутинга и формирования состава ОС в
[47, 63]).
Представим себе следующую ситуацию: пусть имеются один
агент, ищущий работу, и k центров - потенциальных работодателей.
Не имея возможности (по информационным, нормативным и пр.
причинам) договориться о сотрудничестве (никто из работодателей
не будет оплачивать работу агента на другого работодателя), цен-
тры попадают в режим конкуренции, то есть конкурируют за при-
влечение агента. В соответствии с результатом леммы 11 величина
i
Wmax характеризует максимально возможную эффективность
найма агента i-ым центром, поэтому без учета информационных и
транзакционных издержек агент примет предложение того центра,
который сможет наиболее эффективно использовать результаты его
2
деятельности. Величина Wmax (аукционное решение - см. выше)
характеризует ту доплату, которую получает агент сверх компенса-
ции своих затрат за счет имеющейся на рынке труда конкуренции.
Аналогично может рассматриваться конкуренция между аген-
тами (см. модели многоэлементных ОС в [63]) при найме их на
работу единственным центром, и в общем случае - конкуренция
между центрами с одной стороны и агентами с другой стороны.
Поэтому можно констатировать, что полученные результаты по-
зволяют формулировать и исследовать не только задачи стимули-
рования в ОС с фиксированным составом, но и модели рынка тру-
да.
Выше мы привели два примера, иллюстрирующих предельные
случаи - полного совпадения (пример 2) и полного антагонизма
(пример 3) интересов центров. При этом оказалось, что в первом
случае ? ? ? и существует достаточно широкая область сотрудни-
чества центров, во втором случае область сотрудничества пуста
(? = ?) и в соответствии с леммой 11 имеет место конкуренция
между центрами. В приводимом ниже примере интересы центров
не антагонистичны, но и не полностью совпадают, что приводит к
возможности обсуждения различных подходов к описанию их
поведения в процессе сотрудничества.
Пример 4. Пусть k = 2, c(y) = y, Hi(y) = y - y2/2ri, i ? K. Вычис-
i
ляем y max = 0, i ? K, то есть затраты агента настолько велики по

53
сравнению с доходом каждого из центров, что деятельность агента
(выбор им ненулевых действий) невыгодна ни одному из центров
при условии, что они управляют агентом по-одиночке (отметим,
что в этом примере мы нарушаем предположение А.2, требующее
монотонного возрастания функции дохода центра).
Введем функцию "дохода центров", определяемую как сумма
их индивидуальных доходов:
? H i ( y) .
(36) H(y) =
i?K
Множество центров может в определенных случаях (см. со-
держательные интерпретации ниже) рассматриваться как один
игрок, имеющий целевую функцию
r
(37) W(? , y) = H(y) - ?(y).
Обозначим
(38) ymax = arg max H(y).
y? A
2 r1r2
В рассматриваемом примере ymax = . Запишем условия (29):
r1 + r2
?2r1?2 ? (?1 + ?2 ) 2 ? 0
(39) ? 2 1
?2 r ? ? ( ? + ? ) ? 0
1 22

Исключая ?1 или ?2 и вводя реализуемое действие (см. пред-
ставление (30)), систему неравенств (39) можно записать либо в
виде1:
?2 r1 ( y ? ?1 ) ? y 2 ? 0
(40) ? 2 1 ,
? 2r ? ? y ? 0
2

либо в виде:
?2 r 2 ( y ? ?2 ) ? y 2 ? 0
(41) ? 1 2 .
? 2r ? ? y ? 0
2


1
В случае двух центров представление (30) за счет того, что стимулиро-
вание аддитивно входит в целевую функцию центра, позволяет упро-
стить и наглядно представить на плоскости вид решения системы
неравенств, описывающих множество равновесий Нэша (ср. (40), (41) и
(39)).
54
Системы неравенств (40) и (41) задают соответственно множе-
ства допустимых значений ?1 и ?2 выплат первого и второго цен-
тров (см. рисунок 9).

?2
?1
r2/2


r1/2
?2

?1




y y
1
1 ymax 2r 2
0 2
r ymax 2r
0 r

Рис. 9. Множества ?1 и ?2 в примере 4

Таким образом, даже в случае двух центров для фиксированно-
го действия агента, которое центры хотят реализовать, существует
целое множество комбинаций выплат со стороны центров (сумма
платежей фиксирована, а распределяться между центрами эти
платежи могут разными способами). Все эти комбинации принад-
лежат множеству Парето, следовательно априори (и не вводя до-
полнительных предположений) сказать что-либо о конкретной
реализации точки Нэша нельзя. Поэтому рассмотрим возможные
дополнительные предположения о поведении центров.
Первая группа предположений относится к последовательно-
сти выбора стратегий центрами, то есть их априорному упорядоче-
нию по времени выбора стратегий и взаимным обязательствам
следовать установленным правилам игры. Например, игра центров
может производиться в два этапа - сначала они согласованно выби-




55
рают1 действие агента, которое в дальнейшем необходимо реализо-
вать, а затем последовательно (например, по-одному) выбирают
свои платежи агенту. Если принято решение реализовать действие
y* ? A, и центры, обязанные подчиниться этому решению, упорядо-
чены в порядке возрастания их номеров, то, очевидно, что имеет
? ? j ; Hk-1(y*)},
место: ?k = min {c(y*); Hk(y*)}, ?k-i= min {c(y*) -
j > k ?i

i = 1, k ? 1 .
Содержательная интерпретация такого механизма прозрачна:
представим себе k-уровневую иерархическую систему управления,
которая должна побудить управляемый субъект совершить некото-
рые действия, то есть, как минимум, компенсировать ему затраты
по совершению этих действий. Если ресурс нижнего уровня управ-
ления (с номером k, отсчитываемым от самого верхнего уровня
иерархии) достаточен для этого (то есть c(y*) ? Hk(y*)), то он осуще-
ствляет управление самостоятельно, не затрагивая более высоких
уровней иерархии. Если ресурс недостаточен (то есть
c(y*) > Hk(y*)), то он полностью использует свой ресурс и обраща-
ется за разницей c(y*) - Hk(y*) к представителю более высокого
уровня, который поступает аналогично и т.д. Понятно, что для
более адекватного отражения специфики иерархических много-
уровневых ОС можно приписывать различные "ценности" едини-
цам ресурсов различных уровней и т.д. (см. модели иерархических
ОС в [59]).
Вторая группа предположений относится к информационному
взаимодействию центров (кооперативные игры с нетрансферабель-
ной полезностью), а также к их возможности обмениваться полез-
ностью (кооперативные игры с трансферабельной полезностью)
[54, 56, 68]. Если центры могут принимать решения сообща и обла-
дают возможность осуществлять побочные платежи (условно мож-
но считать, что в классе стратегий вида (21) игра центров уже
является игрой с трансферабельной полезностью - центры могут в
широких пределах "передавать" друг другу полезность, варьируя

1
В случае, если функция дохода каждого из центров известна только ему
самому, то на этом этапе игры центров может оказаться целесообраз-
ным использование механизмов с сообщением информации [21, 35].
56
{?i}), то возникает кооперативная игра центров. Для поиска реше-
ний этой игры (например для исследования условий непустоты С-
ядра или существования и свойств какого-либо иного решения)
необходимо (но не достаточно!) использование представления (32)-
(34). Содержательно последнее утверждение означает, что в первую
очередь центры могут, например, в первую очередь попробовать
образовать максимальную (включающую все центры) коалицию и
максимизировать суммарную полезность, побуждая агента выбрать
соответствующее действие (см. выражение (34)), а затем обменять-
ся платежами, компенсировав тем центрам, которым выбор агентом
именно этого действия не очень выгоден, "потери" в полезности. •
В заключение настоящего раздела сделаем три общих замеча-
ния.
Во-первых, в зависимости от степени близости интересов цен-
тров в их игре существуют два возможных режима - режим сотруд-
ничества и режим конкуренции, характеризуемый аукционным
решением (см. выражение (34) и [13, 63, 86]). В первом случае они
совместно компенсируют агенту затраты и получают полезности,
большие, чем в случае управления данным агентом по-одиночке.
Во втором случае выигравший конкуренцию центр (сумевший
предложить агенту более выгодные условия) вынужден не только
единолично компенсировать агенту затраты, но и переплачивать
ему, чтобы не дать возможность другому центру предложить более
выгодные условия.
Во-вторых, несмотря на то, что исследование игры центров в
модели РК3 проводилось для частного случая задачи стимулирова-
ния, результаты, аналогичные леммам 9, 11, теореме 10 и следст-
вию 12, могут быть получены и для более общего случая игры Г2 с
побочными платежами (см. раздел 2.1). В то же время, исследова-
ние самого общего случая игры Г2 (см. опять же раздел 2.1) с не-
сколькими центрами представляется достаточно трудоемкой и
выходящей за рамки настоящего исследования задачей.
В-третьих, так как в настоящей работе исследуется некоопера-
тивное взаимодействие участников ОС, то характеризация множе-
ства равновесий Нэша, даваемая теоремой 10, может считаться
исчерпывающей только условно. Поэтому, как с точки зрения
формального анализа, так и с точки зрения содержательных интер-
претаций (см. пример 4), напрашивается введение допущения о
57
возможности образования коалиций центрами, что, очевидно,
позволит сузить множество решений игры центров. Поэтому иссле-
дования кооперативного взаимодействия центров в ОС РК пред-
ставляется актуальной и чрезвычайно перспективной задачей бу-
дущих исследований.


2.2.3. Модель РК5

Отличие модели РК5 от модели РК1 заключается в наличии
векторного множества допустимых действий агента, предпочти-
тельность которых оценивается по значениям скалярной функции
полезности, то есть ?РК5 = {nA ? 2, f, k = 1, u}.
Содержательно модель РК5 соответствует, например, ОС, в ко-
торой имеются несколько бизнес-процессов, результаты которых
оцениваются по некоторому единому критерию, например, време-
ни, или объему выпуска, или маржинальной прибыли, или затратам
и т.д.
Все общие результаты, описанные в разделе 2.1 для модели
РК1, остаются в силе и для модели РК5 (напомним, что предполо-
жение А.1 заключалось в частности только в компактности допус-
тимых множеств, размерность которых не оговаривалась, а в пред-
положении А.2 достаточно потребовать, чтобы выполнялось
A = ?n A , и строгой монотонности функций дохода и затрат по
+
всем переменным). Следовательно, решение задачи синтеза опти-
мальных (гарантированно ?-оптимальных) управлений для модели
РК5 дается теоремой 2 (соответственно - теоремой 1). Единствен-
ное отличие заключается в том, что в случае многомерного множе-
ства допустимых действий в задаче стимулирования понятие "пра-
вой границы" y+(C) максимального множества реализуемых
действий теряет смысл.
Для задач стимулирования существует глубокая взаимосвязь
между моделями ОС с векторными действиями агента и многоэле-
ментной ОС, в которой агенты выбирают скалярные действия, а их
вознаграждение основывается на наблюдаемом агрегированном
результате их деятельности, являющемся известной функцией от их
действий (подробное описание решения этой задачи и соответст-
вующие примеры приведены в [4, 5, 59, 63]).
58
2.2.4. Модель РК13

Отличие модели РК13 от модели РК1 заключается в наличии
векторной целевой функции агента, по значениям компонент кото-
рой он оценивает предпочтительность скалярного (описываемого
r
одним показателем) действия, то есть ?РК13 = {nA = 1, f , k = 1, u}.
Содержательно модель РК13 соответствует, например, ОС, в
которой имеется один бизнес-процесс, результаты которого оцени-
ваются агентом, реализующим этот процесс, по нескольким крите-
риям, например, времени, объему выпуска, затратам и т.д.
В теории принятия решений получено значительное число ре-
зультатов [3, 12, 29, 40, 41, 50, 55, 64, 70, 71, 74, 78], посвященных
методам поиска множества Парето, исследованию его свойств и
т.д., описывать которые подробно мы не будем. Отметим лишь, что
вся трудность исследования моделей ОС с векторными предпочте-
ниями участников заключается в отсутствии для этого случая
единой универсальной концепции рационального выбора. Если в
случае скалярных предпочтений участников (то есть предпочтений,
описываемых целевыми функциями, отображающими декартово
произведение допустимых множеств всех участников в ?1) их
рациональное поведение заключалось в стремлении к максимиза-
ции целевой функции выбором собственной стратегии (при этом,
правда, приходится доопределять выбор в случае, когда множество
максимумов содержит более одной точки - см. ГБ и принцип МГР
выше), то в случае векторных предпочтений понятие рационально-
го поведения определяется не столь однозначно. Понятно, что
следует потребовать, чтобы участник ОС выбирал стратегию кото-
рая не ухудшала бы одновременно значения всех критериев (ак-
сиома Парето), однако в большинстве случаев это требование
является слишком слабым. Поэтому при построении конкретной
модели исследователь операций вынужден конкретизировать за-
кладываемые в модель предположения о поведении центров и
агента, то есть вводить допущения, в рамках которых моделируе-
мая ОС описывается наиболее адекватно (с его субъективной точки
зрения с учетом всей имеющейся объективной информации). Пе-
рейдем к формальным определениям.


59
Обозначим Nf = {1, 2, …, nf} - множество критериев и опреде-
лим множество действий, оценки которых при данном управлении
u ? U эффективны по Парето1:
(1) Par(A, u, {fi}) = {y ? A | ? y' ? A (fi(u, y') ? fi(u, y), i ? Nf) >
> fi(u, y') = fi(u, y)},
то есть множество таких действий агента, что выбор любых других
действий приводит к ухудшению оценок хотя бы по одному из
критериев.
Определим также множество полуэффективных (оптимальных
по Слейтеру) при данном управлении u ? U действий агента:
(2) Sl(A, u, {fi}) = {y ? A | ? y' ? A ? i ? Nf: fi(u, y') ? fi(u, y)}.
Естественно считать2, что множество реализуемых действий
содержится в соответствующем множестве типа (1), то есть агент
заведомо выбирает действия, недоминируемые по Парето.
Множество (1) может оказаться слишком широким для того,
чтобы конструктивно его использовать как определение множества
реализуемых действий P(u), следовательно, хотелось бы опреде-
лить P(u) таким образом, чтобы выполнялось
(3) P(u) ? Par(u).
Итак, при попытке определения множества решений игры в
модели ОС РК, в которой агент имеет векторные предпочтения, мы
сталкиваемся с традиционной для многокритериальной оптимиза-
ции и теории принятия решений при нескольких критериях про-
1
Еще раз подчеркнем глубокую взаимосвязь (с точки зрения методов
описания и исследования) между многоэлементными ОС с унитарным
контролем и ОС РК. В многоэлементных ОС УК имеет место игра
агентов и считается, что агенты выбирают вектор действий, принад-
r
лежащий множеству равновесий Нэша EN( u ), в ОС РК единственный
агент выбирает вектор действий принадлежащий множеству Парето
(1). Если интерпретировать критерий агента в ОС РК как самостоя-
тельного агента, то получим многоэлементную ОС УК, причем множе-
r r
ства Парето и Нэша могут не совпадать. Если же EN( u ) ? Par( u ) ? ?,
то можно считать, что модели в определенном смысле эквивалентны.
2
Отметим, что в скалярном случае (nf = 1) множества (1) и (2) опти-
мальных по Парето и по Слейтеру действий агента совпадают с множе-
ством максимумов его целевой функции:
Par(A, u, f) = Sl(A, u, f) = P(u) = Arg max f(u, y).
y? A
60
блемой – проблемой определения рационального выбора. Единст-
венное требование, относительно необходимости удовлетворения
которому согласны подавляющее большинство исследователей, это
- аксиома Парето. Таким образом, помимо описанной выше игры
центров (см. модель РК3), в ОС РК существует еще одна харак-
терная особенность - многокритериальность предпочтений
агентов, порождающая (как и наличие нескольких центров) необ-
ходимость корректного доопределения рационального выбора.
Не претендуя на полноту охвата всех известных в многокрите-
риальной оптимизации моделей и методов, рассмотрим несколько
подходов, представляющих в контексте настоящего исследования
наибольший интерес.
Пусть предпочтительность действий и управлений оценивается
агентом по nf критериям: {f1(u, y), f2(u, y), ..., f n f (u, y)}. Функция
f N f (u, y) называется возрастающей по системе критериев1 агента,
если из выполнения системы неравенств fi(u1, y1) ? fi(u2, y2), i ? Nf,
u1, u2 ? U, y1, y2 ? A следует справедливость неравенства
f N f (u1, y1) > f N f (u2, y2). Максимизация функции f N f (?) по y ? A
при заданном u ? U является достаточным условием Парето опти-
мальности соответствующего действия при данной системе крите-
риев агента.
Если предположить, что имеет место ГБ, то есть считать, что
агент выбирает при заданном управлении действие из множества
недоминируемых по Парето действий, то можно рассматривать
функцию f N f (u, y) в качестве целевой функции агента и восполь-
зоваться для нее общими теоремами 1 и 2. Однако, при этом эффек-
тивность не будет максимальной, так как целевая функция центра
будет максимизироваться не на множестве Парето, а на его под-
множестве (максимизация функции, возрастающей по системе
критериев является достаточным2, но не необходимым условием).

1
Свойства подобных функций, их примеры, а также необходимые усло-
вия оптимальности по Парето, сформулированные их терминах, приве-
дены в [64, 70, 79].
2
Можно воспользоваться также и другими достаточными условиями,
например - максимизировать один из критериев, также обеспечивая при
61
Для достижения максимальной эффективности следует использо-
вать необходимые условия эффективности по Парето [70], которые,
к сожалению, на сегодняшний день не позволяют получить просто-
го аналитического решения и требуют значительных вычислитель-
ных затрат.
Другой возможный подход основывается на полученном в
[8, 9] результате о взаимосвязи задач многокритериальной оптими-
зации и задач согласованного планирования. Для системы критери-
ев агента введем следующую функцию1:
(4) f(u, x, y) = min {fi(u, y) - fi(u, x)}.
i?N f
Множество S(A, u, f) ? A называется множеством согласован-
ных планов и определяется следующим образом:
(5) S(A, u, f) = {x ? A | ? y ? A f(u, x, x) ? f(u, x, y)}.
В [9] доказано, что множество согласованных планов для
функции (4) совпадает с множеством эффективных по Слейтеру
(при заданной системе критериев агента) действий агента, то есть
Sl(A, u, {fi}) = S(A, u, f). Этот результат позволяет свести задачу
определения множества полуэффективных точек к задаче согласо-
ванного планирования, методы решения которой детально исследо-
ваны и подробно описаны в [2, 10, 16, 23]. Однако, этот подход не
намного проще, чем непосредственное использование общих ре-
зультатов характеризации множества Парето в многокритериаль-
ных задачах.
Перейдем к рассмотрению задачи стимулирования в модели
РК13. Содержательные интерпретации подобных моделей затруд-
нительны со следующей точки зрения. Если скалярным управлени-
ем единственного центра является выбор системы стимулирования,
то при нескольких критериях неясно как стимулирование должно
учитываться в векторной целевой функции агента. Если оно адди-
тивно входит (например, в определенной пропорции) одновременно
в несколько критериев агента, то это уже векторное управление (см.
описание соответствующих моделей более высокого уровня слож-

этом эффективность по Парето, и т.д. Этот подход позволяет добить-
ся «субъективного» максимума целевой функции центра, если последняя
зависит только от одной из компонент вектора действий агента.
1
В качестве управления в выражении (4) можно использовать оптималь-
ную в модели РК1 квазикомпенсаторную систему стимулирования.
62
ности ниже), если стимулирование входит только в один из крите-
риев, то остальные критерии "неуправляемы", то есть получаем
базовую модель РК1, подробно описанную выше. По этим причи-
нам рассматривать задачи стимулирования в модели РК13 мы не
будем, отложив изучение специфики задач стимулирования при
векторных предпочтениях управляемых субъектов до этапа описа-
ния моделей более высокого уровня сложности, то есть моделей, в
которых присутствуют векторные предпочтения и либо векторные
управления со стороны единственного центра, либо несколько
центров (либо, естественно, и то и другое).
В целом можно сделать заключение, что на сегодняшний день
(ни в теории принятия решений и многокритериальной оптимиза-
ции, ни в теории управления социально-экономическими система-
ми) не существует универсальных методов формализации рацио-
нального многокритериального выбора управляемых субъектов в
задачах управления, и как следствие не существует общих эффек-
тивных аналитических методов решения задач управления. Поэто-
му, наверное, целесообразна разработка простых методов решения
для набора практически важных и содержательно интерпретируе-
мых задач управления для того, чтобы на их основе пытаться де-
лать более общие выводы.




63
2.3. МОДЕЛИ ВТОРОГО УРОВНЯ СЛОЖНОСТИ

При изучении моделей ОС РК второго уровня сложности мы
имеем возможность адаптированно использовать полученные в
предыдущих разделах результаты исследования ОС с унитарным
контролем (раздел 2.1) и ОС РК первого уровня сложности, поэто-
му при изложении материала этого и последующих двух разделов
основное внимание будет уделяться тем синергетическим эффек-
там, которые возникают за счет наличия одновременно нескольких
характерных для ОС РК признаков - игры центров, многокритери-
альности предпочтений агентов и т.д.

2.3.1. Модель РК4
r
Отличие модели РК4 (?РК4 = {nA = 1, f, k ? 2, u }) от модели
РК3 (см. рисунок 5) заключается в том, что каждый центр выбирает
собственное управление, и в целевой функции агента явным обра-
зом фигурируют все управления центров, а не их агрегат как это
имело место в модели РК3. Кроме того, откажемся от предположе-
ния А.3, которое гласило, что целевая функция каждого центра
явным образом зависит только от его собственных управлений и
действия агента, и допустим, что выигрыш каждого центра в общем
случае может зависеть от стратегий всех центров. Тогда равновесие
Нэша в игре центров примет вид: ? i ? K, ? ui ? Ui
? ? ? ?
(1) ?i( u i , u Ni , yi( u i , u Ni )) ? ?i(ui, u Ni , yi(ui, u Ni )).
N N
В задаче стимулирования в силу аддитивности стимулирова-
ния и скалярности действий агента целевая функция i-го центра
r r
имеет вид: Wi(? , y) = Hi(y) - ?i(y), y ? P(? ), i ? K,
а целевая функция агента1:
r
w(? , y) = ? ? i ( y) - c(y).
i?K



1
Напомним, что в модели РК3 целевая функция агента имела вид
r
w(? , y) = ?(y) - c(y), где ?(y) = ? ? i ( y) - суммарные затраты центров
i?K
на стимулирование, являющееся их "общим" скалярным управлением.
64
Поэтому задача стимулирования в модели РК4 совпадает с задачей
стимулирования в модели РК3, решение которой дается теоремами
10-12.


2.3.2. Модель РК6

Характерной особенностью модели РК6 (?РК6 = {nA ? 2, f,
r
k = 1, u }) является наличие векторных действий агента и вектор-
ных управлений со стороны единственного центра (см. рисунок 5).
Так как целевые функции участников скалярны, то решение задачи
управления в модели РК6 дается теоремами 1 и 2, а решение задачи
стимулирования в этой модели определяется теоремами 7 и 8 (см.
раздел 2.1 и описание моделей РК2 и РК5 в разделах 2.2.1 и 2.2.4
соответственно).


2.3.3. Модель РК7

В модели РК7 (?РК7 = {nA ? 2, f, k ? 2, u}) присутствуют не-
сколько центров, выбирающих совместно скалярные управления, а
векторные действия агента оцениваются им по значениям скаляр-
ной целевой функции, поэтому для данной модели применимы все
результаты, полученные в разделе 2.2.2 для модели РК3 (напомним,
что при доказательстве утверждений 9-12 размерность множества
допустимых действий агента не оговаривалась).


2.3.4. Модель РК9
r
В модели РК9 ?РК9 = {nA ? 2, f , k = 1, u} агент имеет вектор-
ное множество допустимых действий, предпочтительность которых
оценивается по нескольким критериям, то есть в общем случае
fi: ?n A > ?1, i ? Nf. Множество реализуемых действий P(u) агента
и множество его Парето оптимальных действий Par(A, u, {fi})
практически ничем не отличаются от соответствующих множеств,
фигурирующих в модели РК13 (см. также более общую, чем модель
65
РК13, модель РК14, детально описываемую ниже), поэтому под-
робно рассматривать данную модель мы не будем, тем более, что в
силу скалярности управления содержательные интерпретации
задачи стимулирования в ней затруднительны.


2.3.5. Модель РК14
r r
Отличие модели РК14 ?РК14 = {nA = 1, f , k = 1, u } от модели
РК13 (см. рисунок 5) заключается в наличии векторных управлений
со стороны единственного центра, а отличие от модели РК2 заклю-
чается в наличии векторных предпочтений агента.
Будем считать, что выполнено следующее предположение:
А.4. nf = nu; fi = fi(ui, y), i ? Nf,
то есть каждая компонента управления соответствует одному и
только одному критерию оценки агентом своих действий. С содер-
жательной точки зрения можно считать, что каждому критерию
(отражающему определенный аспект деятельности агента) соответ-
ствует некоторое управление и только оно. В рамках предположе-
ния А.4 возможно обобщение теорем 1 и 2 (см. теорему 13 ниже).
Пусть ограничения на управление имеют следующий вид.
А.5. ui ? Ui, i ? Nu = {1, 2, …, nu}.
Введем следующие обозначения.
Стратегия наказания uнi агента центром соответствует мини-
мизации соответствующей компоненты целевой функции агента по
стратегии центра:
?
(1) fi( uн i(y), y) = min fi(ui, y), i ? Nu.
u i ?U i
v
Абсолютно оптимальная стратегия центра u0 соответствует
максимизации его целевой функции по собственной стратегии:
r
v
(2) ?( u0 , y) = max ?( u , y),
r
u?U
r
где u = (u1, u2, …, un u ) ? U. В рамках предположения А.5
?Ui .
U=
i? N u



66
Обозначим Li - максимальное гарантированное значение i-ой
компоненты целевой функции агента:
?
(3) Li = max fi( uн i(y), y), i ? Nf;
y? A
Ei - множество действий агента, обеспечивающих ему получе-
ние по соответствующему критерию выигрыша Li:
?
(4) Ei = {y ? A | fi( uн i(y), y) = Li}, i ? Nf;
I Ei - множество действий агента, обеспечивающих ему
E=
i? N f
получение по каждому из критериев выигрыша (3);
Di - множество пар стратегий центра и агента, при которых
значение соответствующей компоненты целевой функции агента
строго превышает максимальное гарантированное значение:
r
(5) Di = {( u , y) ? U ? A | fi(ui, y) > Li}, i ? Nf;
I Di - множество пар стратегий центра и агента, при
D=
i? N f
которых значения всех компонент целевой функции агента строго
превышают соответствующие максимальные гарантированные
значения;
K1 - максимальное на множестве D значение целевой функции
центра:
r
? r sup ? (u , y ), D ? ?
?
(6) K1 = ?( u , y )?D ;
? ? ?, D=?
?
K2 - максимальное на множестве E значение целевой функции
центра:
r
(7) K2 = min max ?( u , y);
r
y?E u?U
r
( u? , y?) ? D ? ? - пара ?-оптимальных стратегий центра и
агента, ? > 0:
r
(8) ?( u? , y?) ? K1 - ?.
Решение задачи синтеза управления, обладающего максималь-
ной гарантированной эффективностью, дается следующей теоре-
мой.


67
Теорема 13а. Пусть для каждой из компонент целевой функции
агента и для целевой функции центра выполнено предположение
А.1, а также выполнены предположения А.4 и А.5. Тогда
Kg* = max {K1, K2} - ?, ? > 0, а стратегия
r
?u? , если y = y? , K1 > K 2
r* ? r
(9) u? = ? u0 , если y ? E , K1 ? K 2
r
?u , в остальных случаях

является гарантированно ?-оптимальной стратегией центра.
Доказательство теоремы 13а полностью аналогично доказа-
тельству теоремы 1 с учетом того, что так как максимумы и мини-
мумы компонент целевой функции агента вычисляются независимо
(используя управление (9) центр обеспечивает выполнение
Ei = E, Di = D = {y?}, i ? Nf), рассматриваемая задача распадается
на nf задач, решение каждой из которых дается теоремой 1.
Содержательно центр фиксирует действие, которое он хочет
реализовать, и наказывает агента (независимо по каждому крите-
рию!) при выборе других действий (при этом агент получает выиг-
рыши {Li}), поощряя за выбор реализуемого действия (выигрыши
агента при этом строго превышают {Li}). В результате множество
Парето состоит из единственной точки - реализуемого действия1.
Введем в рассмотрение множество D0 - множество пар страте-
гий центра и агента, при которых значение каждой из компонент
целевой функции агента не меньше соответствующего максималь-
ного гарантированного значения:
r
(10) D0 = {( u , y) ? U ? A | fi(ui, y) ? Li, i ? Nf}.
Решение задачи синтеза оптимального в рамках ГБ управления
дается следующей теоремой.
Теорема 13б. Пусть для каждой из компонент целевой функции
агента и для целевой функции центра выполнено предположение
А.1, а также выполнены предположения А.4, А.5 и ГБ. Тогда
r
(11) K* = r max ?( u , x),
( u , x )?D0




1
Еще раз отметим, что возможность независимого поощрения и наказа-
ния агента обусловлена предположениями А.4 и А.5.
68
а стратегия
r
?u * , если y = x *
˜
r
(12) u * = ? r ,
uн , если y ? x *
?
где
r r
˜ * , x*) = arg ?( u , y)
(13) ( u rmax
( u , y )?D0
является оптимальной стратегией центра1.
Доказательство теоремы 13б аналогично доказательству тео-
ремы 2 с учетом замечаний, сделанных выше в настоящем разделе
при обсуждении отличий теоремы 13а и теоремы 1.
Итак, теоремы 13а и 13б дают решение задачи управления в
модели РК 14 в случае, когда каждая компонента управления соот-
ветствует одному и только одному критерию оценки агентом своих
действий (см. предположение А.4) и отсутствуют общие ограниче-
ния на управления (см. предположение А.5). Сложнее дело обстоит
в общем случае игры Г2, когда предположения А.4 и А.5 не выпол-
r
нены. При этом возможна ситуация, в которой nf ? nu и fi = fi( u , y),
i ? Nf, то есть каждая компонента целевой функции агента может
зависеть от всех компонент управления, выбираемого центром, а
размерности вектора управления и предпочтений агента могут
различаться. Понятно, что в этом случае результат теоремы 13 не
имеет места, так как может не существовать управления, миними-
зирующего или максимизирующего одновременно значения всех
критериев оценки агентом своих действий. Та же проблема возни-
кает и в случае, когда существуют общие ограничения на компо-
ненты управления, то есть ограничения на управление имеют вид
r
u ? U. Исследование этих задач представляет существенный инте-
рес для развития теоретико-игровых моделей управления, однако,
выходит за рамки настоящей работы.
Перейдем к рассмотрению задачи стимулирования, в которой
целевая функция агента имеет вид:
(14) wi(?i, y) = ?i(y) - ci(y), i ? Nf,


1
Отметим, что в теоремах 13а и 13б не требуется скалярности множе-
ства допустимых действий агента, то есть полученные результаты
справедливы и для модели РК 10 (см. раздел 2.4.2 ниже).
69
где ci(?) - i-я компонента затрат агента, а целевая функция центра в
рамках предположения А.4 имеет вид:
r
(15) W(? , y) = H(y) - ? ? i ( y) .
i? N f
Рассмотрим два случая.
Случай 1. В первом случае (для которого справедливы теоре-
мы 13а и 13б) выполнено предположение А.5, следовательно сти-
мулирование агента за каждую компоненту деятельности может
выбираться независимо от стимулирования других компонент, то
есть ?i ? Ui, i ? Nf. Если для каждой из компонент целевой функции
агента выполнено предположение А.2, то возможна декомпозиция
стимулирования (по аналогии с принципом декомпозиции игры
агентов в [63]), которая реализуется следующим образом.
Из теорем 13а и 13б вытекают соответственно два следующих
утверждения.
Следствие 14. Система стимулирования
?ci ( y ) + ? i , y = y * *
(16) ? K i ( y , y ) = ?
*
, y ? A, i ? Nf
y ? y*
? 0,
?? i .
реализует действие y* и является ?-оптимальной, где ? =
i? N f
При использовании центром системы стимулирования (16)
действие y* ? A является единственной Парето-оптимальной точ-
кой.
Следствие 15. В рамках ГБ система стимулирования (16) с
? = 0 реализует действие y* и является оптимальной.
Случай 2. Во втором случае предположение А.5 не выполнено,
следовательно стимулирование агента за каждую компоненту
деятельности не может выбираться независимо от стимулирования
по другим компонентам, то есть ограничение на стимулирование
v
имеет вид: ? ? M. Тем не менее, в отличие от общего результата
теоремы 13, задача стимулирования за счет своей специфики до-
пускает простое решение и в этом случае.
Введем следующее предположение относительно множества
допустимых управлений M.


<<

стр. 2
(всего 4)

СОДЕРЖАНИЕ

>>