6.1. Решение матричных игр в чистых стратегиях

Будем рассматривать игру, задаваемую платежной матрицей:

В1

В2

Вn

A1

a11

a12

a1n

A2

a21

a22

a2n

...

...

...

...

Am

am1

am2

amn

Каждый из игроков стремится максимизировать свой выигрыш с учетом поведения противника. Поэтому игроку А, принимая решение о выборе своей стратегии (строки), необходимо учитывать возможность наиболее неблагоприятного развития событий.

Максиминная стратегия, принцип максимина

Вполне разумным представляется его желание действовать таким образом, чтобы получить максимальный гарантированный выигрыш независимо от ответа игрока В.

Пусть игрок А выбрал некоторую чистую стратегию. Посмотрим, какой выигрыш он может себе обеспечить при любом поведении противника.

Если игрок В выбирает i-ю строку, то его выигрышем в зависимости от ответа противника может быть любое из чисел в этой строке, т.е. он гарантирует себе выигрыш . Так как он стремится максимизировать свой выигрыш, то ясно, что ему следует выбирать свою строку так, чтобы его минимальный выигрыш был максимальным, т.е. равен


= (6.1)


Таким образом, α ≥ αi для всех Стратегия соответствующая выбору строки матрицы А, минимальное значение в которой равно α, называется максиминной чистой стратегией, а величина α, вычисляемая по формуле (6.1), называется нижней ценой игры или максимином.

Выбирая эту стратегию игрок А действует очень осторожно, стремясь обеспечить себе гарантированный выигрыш, равный максимину α. Поэтому принцип рационального поведения, которому он следует, называется принципом максимина. Этот принцип гласит: нужно выбрать такую стратегию, чтобы при наихудшем поведении противника получить максимальный выигрыш. Он был впервые сформулирован Дж. фон Нейманом и имеет важное значение в теории игр.

Минимаксная стратегия

Аналогично игрок В может определить стратегию, обеспечивающую ему минимальный проигрыш при любом ответе игрока А. Для этого ему нужно найти в каждом столбце максимальное значение, равное его проигрышу при наиболее неблагоприятном для него ответе противника, т.е. величину для всех . Тогда величина

(6.2)

будет минимальным проигрышем игрока В, который он обеспечивает себе при любом ходе игрока А. Ясно, что β ≤ βj для всех .

Величина β, вычисляемая по формуле (6.2), называется верхней ценой игры или минимаксом. Стратегия , соответствующая выбору столбца матрицы А, максимальное значение в котором равно β, называется минимаксной чистой стратегией. Выбрав минимаксную чистую стратегию, игрок В проиграет не больше верхней цены игры.

Отметим, что во всех матричных играх

α ≤ β,

т.е. нижняя цена матричной игры всегда не превосходит ее верхней цены.

Пример 6.1. Дана матрица игры, в которой у игрока А три стратегии, у игрока В четыре стратегии:

B1

B2

B3

B4

A1

17

16

15

12

A2

11

18

12

13

A3

18

11

13

12

Выпишем для игроков значения αi и βj

B1

B2

B3

B4

αi

A1

17

16

15

12

12

A2

11

18

12

13

11

A3

18

11

13

12

11

βj

18

18

15

13

Таким образом, нижняя цена игры равна:

=12,

при этом максиминной стратегией является стратегия А1.

Верхняя цена игры:

,

минимаксная стратегия второго игрока В4.

Рассмотрим случай, когда максимин α равен минимаксу β. Обозначим их общее значение , т.е.

= .

Число называется ценой игры. В этом случае максиминная стратегия игрока А и минимаксная стратегия игрока В образуют так называемую седловую точку.

Пусть А — платежная матрица размерности m x n. Элемент называется седловой точкой матрицы А, если для всех выполнены следующие неравенства:

, (6.3)

то есть элемент одновременно является наименьшим в своей строке и наибольшим в своем столбце . Справедлива следующая теорема.

Теорема 6.1. Матрица А = (аij) имеет седловую точку тогда и только тогда, когда нижняя цена игры равна ее верхней цене, т.е.

α = β.

Игра, в которой максимин α равен минимаксу β, называется игрой с седловой точкой. При этом величина называется чистой ценой игры, или просто, ценой игры.

Если матрица имеет несколько седловых точек, то все они имеют одинаковые значения.

Пример 6.2. Дана матрица игры:

B1

B2

B3

B4

αi

A1

17

16

15

14

14

A2

11

18

12

13

11

A3

18

11

13

12

11

βj

18

18

15

14

Таким образом, нижняя цена игры равна:

=14, при этом максиминной стратегией является стратегия А1.

Верхняя цена игры:

,

минимаксная стратегия второго игрока В4. Элемент а14 матрицы игры является седловой точкой матрицы.

Пусть платежная матрица А имеет седловую точку . Тогда стратегия игрока А является его чистой максиминной стратегией, а стратегия игрока В — его чистой минимаксной стратегией.

Эти стратегии являются оптимальными стратегиями для игроков. Они обладают важным свойством устойчивости: ни одному из игроков невыгодно отклоняться от своей оптимальной стратегии, так как это может привести лишь к ухудшению его положения.

Действительно, предположим, что в примере 6.2. игрок А выбрал другую чистую стратегию Аi — i-ю строку матрицы А, а игрок В придерживается прежней стратегии . Тогда значение выигрыша игрока 1 равно . Так как — седловая точка, то . Следовательно, выбрав другую стратегию, игрок А не сможет улучшить свой результат. Он может только потерять часть выигрыша, который ему гарантирован, если он придерживается своей оптимальной стратегии .

Аналогичными рассуждениями легко показать, что и игроку В нет смысла изменять свою стратегию, поскольку, если его противник будет придерживаться своей оптимальной стратегии , то в этом случае он может лишь ухудшить свой результат. В том случае, когда игроки имеют несколько чистых максиминных (минимаксных) стратегий, они могут выбирать любую из них без изменения величины выигрыша.

Таким образом, если игра имеет седловую точку, то оптимальной стратегией игрока А является его чистая максиминная стратегия, а оптимальной стратегией игрока В — его чистая минимаксная стратегия. Выбрав эту стратегию, игрок А (игрок В) обеспечивает себе максимальный выигрыш (минимальный проигрыш) независимо от действий противника, равный значению игры.

Любая пара оптимальных стратегий игроков образует решение игры, которое также называют ситуацией равновесия или равновесием.

Если игра не имеет седловой точки (α < β), то максиминная и минимаксная стратегии игроков уже не обладают свойством устойчивого равновесия. Каждый из игроков может попытаться изменить ситуацию в свою пользу и добиться выигрыша n, где

α < n < β.

Правда, в этом случае он рискует, так как ни одна из его чистых стратегий не способна обеспечить ему этот результат.

6.2. Смешанные стратегии

Если игра не имеет решения в чистых стратегиях (α < β), то наличие у противника информации о том, какую стратегию выбрал игрок, может существенно повлиять на его конечный результат. В этом случае максиминная и минимаксная стратегии игроков уже не обладают свойством устойчивого равновесия. Каждый из игроков может попытаться изменить ситуацию в свою пользу и добиться выигрыша n, где α < n < β. Правда, при этом он рискует, так как ни одна из его чистых стратегий не может обеспечить ему этот результат.

Если игра состоит из одной партии, и игрок не хочет рисковать, то, как и в игре с седловой точкой, ему следует придерживаться принципа максимина. Если же играется не одна, а несколько партий, он может, надеясь добиться большего, отказаться от получения гарантированного результата с помощью выбора соответствующей чистой стратегии. В этом случае он старается максимизировать свой средний выигрыш.

Однако чтобы добиться успеха в такой игре, каждый игрок должен, во-первых, менять свои стратегии и, во-вторых, выбирать свою текущую стратегию таким образом, чтобы информация о его выборе не стала известна противнику. Невыполнение любого из этих условий может привести к тому, что выигрыш игрока окажется не больше, а меньше его гарантированного выигрыша.

Чтобы избежать этого, игроку нужно чередовать ("смешивать") свои чистые стратегии, причем в каждой партии стратегия должна выбираться случайным образом с некоторой заданной вероятностью. Эта тактика позволит ему скрыть свой выбор от противника. По своей сути такое поведение игрока также является некоторой стратегией, которая в отличие от первоначально заданных чистых стратегий носит название смешанной стратегии.

Смешанной стратегией игрока называется вектор, каждая компонента которого показывает с какой вероятностью (относительной частотой) он будет использовать свою чистую стратегию.

Будем обозначать смешанную стратегию игрока А в виде вектора х = (х1,..., хm), где хi — вероятность применения чистой стратегии i. Таким образом, множество Х смешанных стратегий игрока 1 имеет такой вид:

Х = { х = (х1,…, хm) │ }. (6.4)

Соответственно, смешанную стратегию игрока В будем обозначать в виде вектора у = (у1,…, уn), где уj — вероятность применения чистой стратегии Bj, т.е. множество Y смешанных стратегий игрока В выглядит так:

Y = { у = (у1,…, уn) │ }. (6.5)

Чистую стратегию можно считать частным случаем смешанной стратегии (она используется с вероятностью, равной 1, а остальные чистые стратегии игрока — с вероятностью, равной 0).

Так, чистая стратегия Аi игрока А задается m-мерным вектором вида: (0,…, 1, 0,…0), у которого i-я компонента равна 1, а остальные компоненты нулевые. Соответственно, чистая стратегия Вj игрока В задается n-мерным вектором (0,…, 1, 0,…0), у которого j-я компонента равна 1, а остальные компоненты нулевые.

Новая игра называется игрой в смешанных стратегиях. Матрицу этой игры можно представить в таком виде:

В1

В2

Вn

A1

a11

a12

a1n

x1

A2

a21

a22

a2n

x2

...

...

...

...

...

Am

am1

am2

...

amn

xm

y1

y2

...

yn

При использовании смешанных стратегий величина выигрыша в отдельной партии является случайной величиной. Как уже говорилось, цель игрока состоит в максимизации своего среднего выигрыша в партии. По закону больших чисел при многократном повторении игры средний выигрыш близок к математическому ожиданию выигрыша.

Отсутствие обмена информацией между игроками делает их случайные выборы своих чистых стратегий независимыми. Поэтому, если игрок А использует свою чистую стратегию Аi с вероятностью хi, а игрок В — свою чистую стратегию Вj с вероятностью yj, то математическое ожидание выигрыша при выборе игроками этих стратегий равно аijхiyj.

В том случае, когда игрок А использует смешанную стратегию х = (х1,…, хm), а игрок В — смешанную стратегию у = (у1,…, уn), выигрыш Н(х, y) игрока А определяется по формуле вычисления математического ожидания суммы независимых событий, т.е.

. (6.6)

Функция Н(х, y), задаваемая формулой (6.6), называется функцией выигрыша игры в смешанных стратегиях. Ее значение в ситуации (х, y) равно математическому ожиданию выигрыша (ожидаемому выигрышу) игрока А.

Итак игра, называемая игрой в смешанных стратегиях, задается множествами смешанных стратегий игроков Х, Y и функцией выигрыша Н(х, y). Она является расширением исходной матричной игры, задаваемой множествами чистых стратегий игроков , и платежной матрицей А = (aij).

Рассмотрим, как выглядит функция выигрыша в ситуациях, когда хотя бы один из игроков выбирает свою чистую стратегию.

1) Игрок А выбирает чистую стратегию Аi, а игрок В — смешанную стратегию у = (у1, ... , уn). Так как чистая стратегия Аi игрока А задается вектором х = (0,…, 1, 0,…0), у которого i-я компонента равна 1, а остальные компоненты нулевые, то значение функции выигрыша .

2) Игрок А выбирает смешанную стратегию х = (х1,…, хm), а игрок В — чистую стратегию Вj. Так как чистая стратегия Вj игрока В задается вектором y = (0,…, 1, 0,…0), у которого j-я компонента равна 1, а остальные компоненты нулевые, то значение функции выигрыша .

3) Игрок A выбирает чистую стратегию Аi а игрок B — чистую стратегию Вj. В этом случае значение функции выигрыша , т.е. совпадает со значением функции выигрыша в исходной игре.

4) Игрок А выбирает смешанную стратегию х = (х1,…, хm), игрок В — смешанную стратегию у = (у1,…, уn). В этом случае значение функции выигрыша равно .

Отметим, если игрок придерживается некоторой смешанной стратегии, то для определения выбора конкретной чистой стратегии в текущей партии перед ее началом должен быть использован некоторый механизм случайного выбора, реализующий эту смешанную стратегию.

Пусть, например, игрок А имеет две чистых стратегии, и смешанная стратегия задается вектором (1/2, 1/2), т.е. он выбирает свои чистые стратегии А1 и А2 с одинаковыми вероятностями. В этом случае перед началом каждой партии он может подбрасывать монету и при выпадении "решки" выбирать стратегию А1, а при выпадении "орла" — стратегию А2.

Если игрок 1 имеет три чистых стратегии и смешанная стратегия задается вектором (1/2, 1/3, 1/6), то в качестве механизма случайного выбора можно использовать урну, в которой находятся три белых, два красных и один черный шар. Перед началом партии игрок должен вынуть из урны шар, а затем положить его снова в урну. Если вынут белый шар, то он должен использовать стратегию А1, если красный, то стратегию А2, а если черный, то стратегию А3.

В некоторых случаях возможно "смешивание" чистых стратегий. Тогда смешанную стратегию х = (х1,…, хm) можно реализовать в виде физической смеси чистых стратегий. Она задает доли чистых стратегий в этой смеси, т.е. xi — доля стратегии Аi. в смеси стратегий. Пусть, например, инвестор располагает некоторой суммой и собирается вложить ее в акции различных компаний. В этом случае его чистой стратегией можно считать покупку акций данной компании, и число чистых стратегий равно числу компаний. Смешанная стратегия допускает такую реализацию: ее компонента xi — доля общей суммы, на которую покупаются акции i-ой компании.

Справедлива теорема, называемая основной теоремой матричных игр,·которая была доказана фон Нейманом в 1928 г.

Теорема 6.2. Всякая матричная игра с нулевой суммой имеет решение в смешанных стратегиях.

Итак, если матричная игра не имеет решения в чистых стратегиях (платежная матрица не имеет седловой точки), то следует рассмотреть ее расширение — игру в смешанных стратегиях. Решение этой игры всегда существует. Его образуют оптимальные смешанные стратегии игроков, отклонение от этих стратегий не выгодно ни одному из игроков: они образуют ситуацию равновесия.

6.3. Доминирование стратегий

В ряде случаев часть чистых стратегий игроков может быть исключена после анализа платежной матрицы путем вычеркивания соответствующих строк или столбцов. При этом стратегии, являющиеся оптимальными в игре с сокращенной матрицей, будут оптимальными стратегиями и для исходной игры. В основе такого анализа лежит принцип доминирования. Он исходит из того факта, что если одна из стратегий игрока лучше чем другая (дает ему больший выигрыш) независимо от стратегии противника, то при анализе стратегий на оптимальность худшая может не рассматриваться. Игрок не будет ее использовать ни при каких обстоятельствах, так как это противоречит принципу рациональности его поведения.

Будем говорить, что вектор х = (х1,…, хn) строго доминирует вектор z = (z1,…, zn), если для всех .

Теорема 6.3 (правило отбрасывания доминируемых стратегий). Пусть А — платежная матрица игры. Тогда

а) если j-я строка матрицы А строго доминирует i-ю строку, то i-ю строку можно вычеркнуть из матрицы А без изменения множества оптимальных стратегий игрока А;

б) если j-й столбец матрицы А строго доминирует i-й столбец, то j-й столбец можно вычеркнуть из матрицы А без изменения множества оптимальных стратегий игрока В.

Эта теорема утверждает, что при наличии строгого доминирования вычеркнутая строка (столбец) не может войти в оптимальную стратегию с положительной вероятностью, т.е. ей (ему) всегда соответствует нулевая компонента в соответствующей оптимальной стратегии. Таким образом, исключение строго доминируемых стратегий не изменяет множества решений игры. Более слабым типом доминирования является нестрогое доминирование.

Будем говорить, что вектор х = (х1,…, хn) нестрого доминирует вектор z = (z1,…, zn), если для всех и по крайней мере для одного индекса выполнено строгое неравенство .

Если имеет место нестрогое доминирование строк (столбцов), то также можно вычеркнуть соответствующую строку (столбец). В этом случае множество решений в игре с уменьшенной матрицей, вообще говоря, изменяется. Однако всякое решение игры с уменьшенной матрицей будет решением исходной игры. Можно также утверждать, что если в игре имеется доминируемая чистая стратегия, то существует оптимальная смешанная стратегия, в которой ей соответствует нулевая компонента.

Использование принципа доминирования позволяет существенно сократить размерность исходной платежной матрицы.

Пример 6.3. Дана матрица игры:

B1

B2

B3

B4

B5

B6

А1

1

2

3

4

4

7

А2

7

6

5

4

4

8

А3

1

8

2

3

3

6

А4

8

1

3

2

2

5

В этой матрице с доминируемыми и дублирующими стратегиями стратегия A1 является доминируемой по отношению к стратегии A2, стратегия B6 является доминируемой по отношению к стратегиям B3, B4 и B5, а стратегия B5 является дублирующей по отношению к стратегии B4.

Данные стратегии не будут выбраны игроками, так как являются заведомо проигрышными и удаление этих стратегий из платежной матрицы не повлияет на определение нижней и верхней цены игры, описанной данной матрицей. Иными словами, частоты применения стратегий A1, B5, B6 будут равны нулю. (Отметим, что для игрока В невыгодной будет стратегия, которая дает ему заведомо больший проигрыш, или , что тоже самое, дает возможность игроку А выиграть больше по сравнению с другими стратегиями).

Пример 6.4. Рассмотрим игру с платежной матрицей

Вторая строка этой матрицы строго доминирует первую строку и нестрого — третью строку. Поэтому оптимальной стратегией первого игрока является выбор второй строки. Анализ столбцов показывает, что первый столбец строго, а второй и третий нестрого доминируют четвертый столбец. Следовательно, оптимальной стратегией второго игрока является выбор четвертого столбца.

Таким образом, анализ матрицы А показывает, что игра имеет решение в чистых стратегиях . Этот же результат можно получить, найдя седловую точку — элемент .

6.4. Решение матричной игры путем ее сведения к задаче линейного программирования

Общим методом решения матричной игры, не имеющей седловой точки, является ее сведение к задаче линейного программирования. Пусть игрок А имеет m чистых стратегий, а игрок В — n чистых стратегий. Тогда матрица игры имеет вид:

В1

В2

Вn

A1

a11

a12

a1n

x1

A2

a21

a22

a2n

x2

...

...

...

...

...

Am

am1

am2

...

amn

xm

y1

y2

...

yn

Для нахождения оптимальной стратегии игрока А и цены игры следует решить задачу линейного программирования

Задача игрока А

xm+1→ max,

,

,

.

В этой задаче m+1 переменная и n+1 ограничение. Переменными в ней являются нижняя оценка выигрыша xm+1 и вектор смешанных стратегий х = (х1,…, хm) игрока А. Переменная xm+1 может быть любого знака, а все компоненты вектора х должны быть неотрицательны, причем их сумма равна единице. Смысл первых n ограничений задачи состоит в том, что, как бы не играл игрок В, игрок А, играя своей смешанной стратегией, должен получать выигрыш не меньше некоторой нижней оценки xm+1 . При этом ищется максимальное значение переменной xm+1 .

Аналогично, нахождение оптимальной стратегии игрока В и цены игры можно свести к решению следующей задачи:

Задача игрока В

yn+1→ min, ,

.

Она содержит n+1 переменную и m+1 ограничение. Ее переменные: вектор стратегий у = (у1, ... , уn) игрока B и верхняя оценка выигрыша игрока А yn+1 (или, что тоже самое, верхняя оценка проигрыша игрока В). Смысл первых m ограничений задачи состоит в том, что, как бы не играл игрок А, игрок В, играя своей смешанной стратегией, должен получать проигрыш не больше некоторой его верхней оценки yn+1. При этом ищется минимальное значение переменной yn+1.

Легко проверить, что эти задачи являются двойственными по отношению друг к другу. Можно доказать, что для любой платежной матрицы эти задачи всегда имеют оптимальные решения. Поэтому справедливость основной теоремы матричных игр о разрешимости любой игры в смешанных стратегиях является следствием теоремы двойственности для задачи линейного программирования. При этом значения целевых функций на оптимальных решения равны, то есть

где и есть цена игры.

Пример 6.5. Пусть дана матричная игра с платежной матрицей

.

Тогда пара двойственных задач, эквивалентная этой матричной игре, имеет такой вид:

Задача игрока А:

Задача игрока В:

→ min,

Таким образом, решение матричной игры сводится к решению пары двойственных задач линейного программирования.

Замечание. Полученные задачи линейного программирование можно решить, например, в пакете EXCEL. Технология решения была описана в теме "Задачи линейного программирования" дисциплины "ИССЛЕДОВАНИЕ ОПЕРАЦИЙ".

Решением игры является пара оптимальных стратегий игроков A и B соответственно:

X*=(0,75; 0,5) ,

Y*=(0; 0,5; 0,5).

Цена игры =2,5 - это тот средний выигрыш, который будет получать игрок А, придерживаясь своей оптимальной стратегией, то есть играя в 75% случаев своей чистой первой стратегией и в 25% случаев чистой второй стратегией. Оптимальная смешанная стратегия игрока B - не использовать первую чистую стратегию, а играть только второй и третьей, причем с одинаковыми частотами.

Контрольные вопросы

  1. Почему для задания матричной игры достаточно задать только матрицу выигрышей одного игрока?
  2. Что такое чистые и смешанные стратегии игроков?
  3. Какая стратегия в матричной игре называется оптимальной?
  4. Что такое нижняя цена игры и как ее определить?
  5. Что такое верхняя цена игры и как ее определить?
  6. Какими свойствами обладает максиминная и минимаксная стратегии игроков?
  7. Являются ли максиминная и минимаксная стратегии игроков оптимальными?
  8. Что такое седловая точка матрицы игры и при каких условиях она существует?
  9. Что такое цена игры и как это понятие связано с понятиями верхней и нижней ценой игры?
  10. В чем состоит основная теорема матричных игр (теорема Неймана)?
  11. Как задается смешанная стратегия игрока?
  12. Выпишите функции выигрышей (проигрышей) игроков, если они используют свои смешанные стратегии.
  13. Как определить доминирующие стратегии первого игрока (игрока А) в матричной игре?
  14. Как определить доминирующие стратегии второго игрока (игрока В) в матричной игре?
  15. Сформулируйте задачи игроков в матричной игре как задачи линейного программирования. В чем состоят целевые функции этих задач и какова интерпретация ограничений?
  16. Покажите, что сформулированные задачи игроков действительно являются парой взаимодвойственных задач линейного программирования.