Метод согласования
/ ч IX (y), y Z AnB ~ , Л C(y) = \ ' , где Xi (y) - некоторые неотрицательные
[0, y e A'nB
функции, i е N. Тогда, если AM - множество реализуемых действий, определяемых без учета глобальных ограничений на действия агентов, то целевая функция центра в задаче стимулирования (с учетом глобальных ограничений) имеет вид:
F(y) = H(y) - j c(y) + xt(y)}.
i =1
Задача планирования запишется в виде:
ж n
X = arg max H(y) - j{Cl (y) + Xt (y)}L
Xe AM i = 1
а максимальная эффективность стимулирования (эффективность оптимальной системы стимулирования) равна K = Ф(х*).
В таблице 1 представлены возможные комбинации глобальных ограничений («+» - наличие глобальных ограничений, «-» - отсутствие глобальных ограничений) на множества допустимых стратегий агентов, их целевые функции и управления.
Таблица 1
Классификация взаимосвязанности и взаимозависимости агентов Множества допустимых стратегий агентов Целевые функции агентов Управления (допустимые стратегии центра) Тип ОС 1. - - - ОС с независимыми и несвязанными агентами 2. + - - ОС с зависимыми и несвязанными агентами 3. + + - ОС с зависимыми и сильно связанными агентами 4. + - + ОС с зависимыми и слабо связанными агентами 5. - + - ОС с независимыми и сильно связанными агентами 6. - - + ОС с независимыми и слабо связанными агентами 7. - + + ОС с независимыми и сильно связанными агентами 8. + + + ОС с зависимыми и сильно связанными агентами Рассмотрим, следуя [34], кратко все восемь случаев (см.
таблицу 1) и покажем для них, что при решении задач стимулирования в многоэлементных ОС с зависимыми агентами учет глобальных ограничений на множества допустимых действий агентов возможно осуществлять, применяя как метод штрафов, так и метод согласования, причем их использование не изменяет результатов [32, 34] анализа систем с независимыми агентами.Качественное обоснование справедливости последнего утверждения таково - взаимосвязь агентов (в смысле целевых функций) учитывается при решении задач стимулирования, а, используя выражения (2) и (3), удается декомпозировать и учесть «независимо» факторы, связанные с ограничениями на множества допустимых стратегий агентов и центра. Другими словами, в общем случае алгоритм действий при учете глобальных ограничений таков: для любой задачи стимулирования на втором этапе решения (этапе поиска оптимального для центра реализуемого действия) максимизация целевой функции центра ведется не по всему множеству А' допустимых действий агентов, а по множеству: A' п B п AM.
При этом «автоматически» обеспечивается учет глобальных ограничений как на действия агентов, так и на стимулирование.
Случай 1. ОС с независимыми и несвязанными агентами. Оче-видно, что многоэлементная ОС с независимыми и несвязанными агентами может быть представлена в виде набора невзаимодействующих одноэлементных ОС (ни согласование с глобальными ограничениями, ни штрафы в данном случае не требуются). На втором этапе решения задачи стимулирования максимизация целевой функции центра ведется по множествам Аг-, i е N, независимо.
Случай 2. ОС с зависимыми и несвязанными агентами. Отметим, что в работе [12] при описании игр с запрещенными ситуациями взаимозависимость агентов отражалась следующим образом: целевая функция i-го агента определялась как
Если " i е N Bi = B, то имеет место случай одинаковых ограничений. В дальнейшем мы по умолчанию ограничимся случаем одинаковых ограничений, в котором центр имеет возможность использовать индивидуальное стимулирование для каждого агента, рассматривая в качестве реализуемых только вектора действий, принадлежащие множеству допустимых с точки зрения глобальных ограничений (метод согласования), то есть на втором этапе решения задачи стимулирования максимизация целевой функции центра ведется по множеству A' п B.
Случай 3.
ОС с зависимыми и сильно связанными агентами (глобальные ограничения на управление отсутствуют). На втором этапе решения задачи стимулирования максимизация целевой функции центра также ведется по множеству A' пB.Случай 4. ОС с зависимыми и слабо связанными агентами (глобальные ограничения на управление присутствуют). На втором этапе решения задачи стимулирования максимизация целевой функции центра ведется по множеству A' п B п AM.
Случай 5. ОС с независимыми и сильно связанными агентами (глобальные ограничения на управление отсутствуют). На втором этапе решения задачи стимулирования максимизация целевой функции центра ведется по множеству A'.
Случай 6. ОС с независимыми и слабо связанными агентами (глобальные ограничения на управление присутствуют). На втором этапе решения задачи стимулирования максимизация целевой функции центра ведется по множеству A' пAM. Как отмечалось выше, задача управления ОС с независимыми и слабо связанными агентами может быть сведена к параметрической задаче управления набором одноэлементных ОС и задаче выбора оптимального значения параметра.
Случай 7. ОС с независимыми и сильно связанными агентами (глобальные ограничения на управление присутствуют). На втором этапе решения задачи стимулирования максимизация целевой функции центра также ведется по множеству A' п AM.
Случай 8. ОС с зависимыми и сильно связанными агентами (глобальные ограничения на управление присутствуют). На втором этапе решения задачи стимулирования максимизация целевой функции центра ведется по множеству A' п AM п B.
Таким образом, учет глобальных ограничений на стратегии участников ОС (агентов и центра) производится методами штрафов или согласования в рамках метода декомпозиции игры агентов в многоэлементных ОС.
Исследуем задачу управления ОС, в которой центр, помимо выбора системы стимулирования, имеет возможность влиять и на множества допустимых действий агентов (задачи управления ОС с переменными множествами допустимых действий рассматривались как в теории активных систем [8], так и в теории иерархиче-
ских игр [12], причем, в основном, для динамических моделей - см.
обзор в [31]).Рассмотрим, следуя [34], многоэлементную ОС, в которой центр имеет возможность выбирать, помимо функций стимулирования, управляющие параметры ui е Ui, i е N, определяющие множества допустимых действий агентов, то есть Ai = Ai(ui). Тогда вектор действий агентов y принадлежит допустимому множеству
nn
A(u) = П Ai(ui), u = (uj, u2, ..., un) е U' = ПUi .
i=1 i=1
Предположим, что " y е A' $ u е U': y е A(u). Содержательно данное предположение означает, что множество допустимых управлений центра достаточно «велико» для того, чтобы сделать допустимым любой вектор действий агентов.
Назначая определенные значения управляющих параметров u е U', центр несет издержки c(u), c U' ® Ж1. Тогда целевая функция центра имеет вид (в общем случае будем считать, что затраты агентов несепарабельны, а индивидуальное стимулирова-ние каждого агента зависит от действий всех агентов):
F(y, s, u) = H(y) - ? Si (y) - c(u).
i =1
Действия y , выбираемые агентами, являются равновесием Нэша при данных управлениях, то есть
n
y* е En(C, u) = {y е П 4 (u) | "i е N, "zt е A,(u,)
i =1
S(y) - Ci(y) > Oi(y-i, zi) - ct(y_v Zi)}. Задача управления в рамках гипотезы благожелательности заключается выборе управляющих параметров, максимизирующих целевую функцию центра на множестве решений игры:
max F(y, s, u) ® max .
yeEN(s,u) seM, ueU'
Для решения задачи (5) воспользуемся комбинацией принципа декомпозиции игры агентов и выражений (1)-(3), позволяющих учитывать глобальные ограничения.
Фиксируем произвольный вектор действий агентов х е A'. Для того чтобы этот вектор действий был реализуем, необходимо и достаточно, чтобы он был равновесием Нэша (для этого достаточ-
но использовать соответствующую компенсаторную систему стимулирования), и был допустимым действием (с точки зрения ограничений на множества действий агентов). Для удовлетворения последнему условию центр должен выбрать такие значения управ-ляющего параметра u е U', чтобы "i е N xi е Ai(ui).
Обозначим Щхг) = {ui е Ui | xi е Аг(иг)}, i е N - множество таких управлений, при которых действие xi является допустимым для
n
i-го агента, i е N; U(x) = ^ Ui (xi). Минимальные затраты центра
i=1
на обеспечение допустимости вектора действий x е А' равны:
j~(x) = min c(u).
ueU ( x )
Из принципа компенсации затрат [32] и принципа декомпозиции игры агентов [34] следует, что в рассматриваемой модели суммарные затраты центра по реализации действия x е A' равны
n
J(x) = X Сг (x) + C~(x).
i =1
Оптимальным для центра действием агентов является дейст-
*
вие y , максимизирующее разность между доходом центра и его затратами на стимулирование:
y* = arg max {Я^) - Jx)}.
xcA'
Итак, выражение (7) дает оптимальное решение задачи управления в многоэлементной ОС в условиях, когда центр имеет возможность управлять множествами допустимых действий агентов.