<<

стр. 28
(всего 35)

СОДЕРЖАНИЕ

>>


754 Часть III. Сбор, подготовка и анализ данных
В основе метода одиночной связи (single method) лежит минимальное расстояние, или пра-
вило ближайшего соседа.

Метод одиночной связи (single method)
Метод связи, в основе которого лежит минимальное расстояние между объектами, или
правило ближайшего соседа.

При формировании кластера первыми объединяют два объекта, расстояние между которы-
ми минимально. Далее определяют следующее по величине самое короткое расстояние, и в
кластер с первыми двумя объектами вводят третий объект. На каждой стадии расстояние между
двумя кластерами представляет собой расстояние между их ближайшими точками (рис. 20.5).

Одиночная связь




Минимальное
Кластер! расстояние ю,астер2

Полная связь




Максимальное
Кластер 1 расстояние Кластер 2

Средняя связь




Среднее
расстояние
Кластер 1 Кластер 2

Рис. 20.5. Методы связи для процедуры
кластеризации

На любой стадии два кластера объединяют по единственному кратчайшемурасстоянию ме-
жду ними. Этот процесс продолжают до тех пор, пока все объекты не будут объединены в кла-
стер. Если кластеры плохо определены, то метод одиночной связи работает недостаточно хоро-
шо. Метод полной связи (complete linkage) аналогичен методу одиночной связи, за исключени-
ем того, что в его основе лежит максимальное расстояние между объектами, или правило
дальнего соседа. В методе полной связи расстояние между двумя кластерами вычисляют как
расстояние между двумя их самыми удаленными точками.

Метод полной связи (complete linkage)
Метод связи, в основе которого лежит максимальное расстояние между объектами, или
правило дальнего соседа.



755
Глава 20. Кластерный анализ
Метод средней связи (average linkage) действует аналогично. Однако в этом методе рас-
стояние между двумя кластерами определяют как среднее значение всех расстояний, изме-
ренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных
кластеров (см. рис. 20.5).

Метод средней связи (average linkage)
Метод связи, в основе которого лежит среднее значение всех расстояний, измеренных
между объектами двух кластеров, при этом в каждую пару входят объекты из разных
кластеров.

Из рис. 20.5 видно, что метод средней связи использует информацию обо всех расстояниях
между парами, а не только минимальное или максимальное расстояние. По этой причине
обычно предпочитают метод средней связи, а не методы одиночной или полной связи.
Дисперсионные методы (variance methods) формируют кластеры таким образом, чтобы ми-
нимизировать внутрикластерную дисперсию.

Дисперсионный метод (variance methods)
Агломеративный метод иерархической кластеризации, в котором кластеры формируют так,
чтобы минимизировать внутрикластерную дисперсию.

Широко известным дисперсионным методом, используемым для этой цели, является метод
Варда (Ward's procedure).

Метод Варда (Ward's procedure)
Дисперсионный метод, в котором кластеры формируют таким образом, чтобы минимизиро-
вать квадраты евклидовых расстояний до кластерных средних.

Для каждого кластера вычисляют средние всех переменных. Затем для каждого объекта вы-
числяют квадраты евклидовых расстояний до кластерных средних (рис. 20.6).
Эти квадраты расстояний суммируют для всех объектов. На каждой стадии объединяют два
кластера с наименьшим приростом в полной внутрикластерной дисперсии. В центроидных ме-
тодах (centroid method) расстояние между двумя кластерами представляет собой расстояние ме-
жду их центроидами (средними для всех переменных), как показано на рис. 20.6.

Центроидный метод (centroid method)
Дисперсионный метод иерархической кластеризации, в котором расстояние между двумя
кластерами представляет собой расстояние между их центроидами (средними для всех пе-
ременных).

Каждый раз объекты группируют и вычисляют новый центроид. Изо всех иерархических
методов методы средней связи и Варда показывают наилучшие результаты по сравнению с дру-
гими методами [12].
К другому типу процедур кластеризации относятся неиерахические методы кластеризации
(nonhierarchical clustering), часто называемые методом А-средних.

Неиерархические методы кластеризации, метод k-средних (nonhierarchical clustering,
k-means clustering)
Метод, который вначале определяет центр кластера, а затем группирует все объекты в пре-
] делах заданного от центра порогового значения.




Часть III. Сбор, подготовка и анализ данных
756
Метод Варда




Центре идный метод




Рис. 20.6. Другие а&юмеративные методы кластеризации

Эти методы включают последовательный пороговый метод, параллельный пороговый
метод и оптимизирующее распределение. В последовательном пороговом методе (sequential
threshold method) выбирают центр кластера и все объекты, находящиеся в пределах задан-
ного от центра порогового значения, группируют вместе. Затем выбирают новый кластер-
ный центр, и процесс повторяют для несгруппированных точек. После того как объект
помещен в кластер с этим новым центром, его уже не рассматривают как объект для даль-
нейшей кластеризации.

Последовательный пороговый метод (sequential threshold method)
Неиерархический метод кластеризации, при котором выбирают кластер и все объекты, на-
ходящиеся а пределах заданного от центра порогового значения, группируют вместе.

Аналогично работает параллельный пороговый метод (parallel threshold method), за исключе-
нием того, что одновременно выбирают несколько кластерных центров и объекты в пределах
порогового уровня группируют с ближайшим центром.

Параллельный пороговый метод (parallel threshold method)
Неиерархический метод кластеризации, при котором одновременно определяют несколько
кластерных центров. Все объекты, находящиеся в пределах заданного центром порогового
значения, группируют вместе.

Метод оптимизирующего распределения (optimizing partitioning method) отличается от двух
изложенных выше пороговых методов тем, что объекты можно впоследствии поставить в соот-
ветствие другим кластерам (перераспределить), чтобы оптимизировать суммарный критерий,
такой как среднее внутри кластерное расстояние для данного числа кластеров.




Глава 20. Кластерный анализ 757
Метод оптимизирующего распределения (optimizing partitioning method)
Неиерархический метод кластеризации, который позволяет поставить объекты в соответствие
другим кластерам (перераспределить объекты), чтобы оптимизировать суммарный критерий.

Два главных недостатка неиерархических методов состоят в том, что число кластеров определя-
ется заранее и выбор кластерных центров происходит независимо. Более того, результаты класте-
ризации могут зависеть от выбранных центров. Многие неиерархические процедуры выбирают
первые k случаев (k — число кластеров), не пропуская никаких значений в качестве начальных
кластерных центров. Таким образом, результаты кластеризации зависят от порядка наблюдений в
данных. Неиерархическая кластеризация быстрее иерархических методов, и ее выгодно использо-
вать при большом числе объектов или наблюдений, Высказано предположение о возможности
использования иерархических и неиерархических методов в тандеме. Во-первых, первоначальное
решение по кластеризации получают, используя такие иерархические методы, как метод средней
связи или метод Варда. Полученное этими методами число кластеров и кластерных центроидов
используют в качестве исходных данных в методе оптимизирующего распределения [ 13].
Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. Например, квадра-
ты евклидовых расстояний используют наряду с методом Варда и центроидным методом. Не-
которые из неиерархических методов также используют квадраты евклидовых расстояний.
Для иллюстрации иерархической кластеризации используем метод Варда. Результаты, по-
лученные при кластеризации данных табл. 20.1, приведены в табл, 20.2.

г Таблица 20.2. Результаты иерархической кластеризации
План агломерации на основании метода Варда

Объединяемые кластеры Стадия, на которой впервые появился
кластер
Стадия Кластер 1 Кластер 2 Коэффициент (расстояние между Кластер 1 Кластер 2 Следующая
объединяемыми кластерами) стадия
1 16 0 0
14 7
1,000000
2 13 0 0 15
2 2,500000
3 7 12 0 и 10
4,000000
5
4 0 0
11 11
5,500000
3
5 0 0 16
?, 7,000000
10
0 0
б ! 6 8,500000
1
7 10 14 0 9
10,166667
8 0
9 20 11
0
12,666667
4 0 7 12
9 15,250000

10 6 13
1 7 3
18,250000
11 5 4 8 15
9 22,750000
12 19
4 0 17
9
27,500000
17
13 I 10 1) 14
32,700001
0
15
(
14 13
40,500000 16
11
15 5 2
2 18
51,000000
16 3 14 5
1 19
63,125000
4 18 0
17 12 18
78,291664
;.'
18 15 17 19
А 171,291656
1 2
19 16 18 0
330,450012



758 Часть III. Сбор, подготовка и анализ данных
Окончание табл. 20.2

Принадлежность кластеру при использовании метода Барда
Число кластеров
Меня (HOMepJ случая 4 3
1 1 1
1
2 2 2
2
I
3 1 1
3 3
4 2
•)
5 2
2
6 1
1 1
1
1 1
7
1
8 1 1
2 2
9 2
2
10 3 3
2
2 2
11
1
12 1 1
2
2
13 2
2
14 3 3
1
1 1
15
2
3
16 3
1
1
17 I
3 2
18 4
3 2
3
19
2
20 2 2

Полезную информацию можно извлечь из плана агломерации, где показано число случаев
или кластеров, которые нужно объединить на каждой стадии. Первая строка представляет пер-
вую стадию, когда есть 19 кластеров. На этой стадии объединены респонденты 14 и 16, что по-
казано в колонках, озаглавленных "Объединяемые кластеры". Квадрат евклидового расстояния
между точками, соответствующими этим двум респондентам, дан в колонке "Коэффициент",
Колонка "Стадия, на которой впервые появился кластер" показывает стадию, на которой впер-
вые был сформирован кластер. Например, цифра (входа в кластер) 1 на стадии 7 указывает на
то, что респондента 14 впервые включили в кластер на стадии 1. Последняя колонка,
"Следующая стадия", показывает стадию, на которой другой случай (респондент) или кластер
объединили с этим кластером. Поскольку число в первой строке последней колонки равно 7,
значит, респондента 10 объединили с респондентами 14 и 16 на стадии 7, чтобы сформировать
один кластер. Аналогично, вторая строка представляет стадию 2 с 18 кластерами. На стадии 2
респондентов 2 и 13 группируют вместе.
Другая важная часть результата кластеризации содержится в сосульчатой диаграмме, пред-
ставленной на рис. 20.7.




Глава 20. Кластерный анализ 759
Число кластеров

Is гг Г!I I
I i l
N


I
S
Я




I




I
I
Столбики соответствуют объектам, которые подлежат кластеризации, в этом случае респон-
дентам присвоили номера от I до 20. Ряды соответствуют числу кластеров. Эту диаграмму чи-
тают снизу вверх. Вначале все случаи считают отдельными кластерами. Так как мы имеем 20
респондентов, количество исходных кластеров равно 20. На первой стадии объединяют два
ближайших объекта, что приводит к 19 кластерам. Последняя строчка на рис. 20.7 показывает
эти 19 кластеров. Два случая, а именно респонденты 14 и 16, которых объединили на этой ста-
дии, не имеют между собой разделяющего пустого (белого) пространства. Ряд с номером 18 со-
ответствует следующей стадии с 18 кластерами. На этой стадии вместе группируют респонден-
тов 2 и 13. Таким образом на этой стадии мы имеем 18 кластеров, 16 из них состоят из отдель-
ных респондентов, а два содержат по два респондента. На каждой последующей стадии
формируется новый кластер одним из трех способов: два отдельных объекта группируют вме-
сте; объект присоединяют к уже существующему кластеру; два кластера группируют вместе.
Еще одно полезное графическое средство отображения результатов кластеризации — это
древовидная диаграмма (дендрограмма) (рис. 20.8).




Метка
объекта
4
4-
Последовательность I-
О 25
10 15
Шкапа расстояний объединяемых кластеров

Рис. 20.8. Древовидная диаграмма, используемая в методе Варда

Древовидную диаграмму читают слева направо. Вертикальные линии показывают класте-
ры, объединяемые вместе. Положение линии относительно шкалы расстояния показывает рас-
стояния, при которых кластеры объединили. Поскольку многие расстояния на первых стадиях
объединения примерно одинаковой величины, трудно описать последовательность, в которой
объединили первые кластеры. Однако понятно, что на последних двух стадиях расстояния, при
которых кластеры должны объединиться, достаточно большие. Эта информация имеет смысл
при принятии решения о количестве кластеров (см. следующий раздел).
Кроме того, если число кластеров определено, то можно получить информацию о принад-
лежности к кластеру, Хотя эта информация следует и из сосульчатой диаграммы, табличная
форма нагляднее, Табл. 20,2 содержит данные о кластерной принадлежности объектов, в зави-
симости от принятого решения; два, три или четыре кластера. Информацию такого рода можно
получить для любого числа кластеров, и она полезна при принятии решения о числе кластеров.



761
Глава 20. Кластерный анализ
Принятие решения о количестве кластеров
Главный вопрос кластерного анализа — вопрос о количестве кластеров. Здесь нет твердых
правил, позволяющих быстро принять решение, но можно руководствоваться следующим.
1. При определении количества кластеров руководствуются теоретическими и практическими
соображениями. Например, если цель кластеризации — выявление сегментов рынка, то
менеджмент может захотеть получить конкретное число кластеров.
2. В иерархической кластеризации в качестве критерия можно использовать расстояния, при
которых объединяют кластеры, В нашем случае из плана агломерации в табл. 20.2 видно,
что значение в колонке "Коэффициент" увеличивается больше, чем вдвое при переходе от
17 к 18 стадии. Аналогично, на последних стадиях древовидной диаграммы (рис. 20.8) кла-
стеры объединяются при больших расстояниях. Следовательно, самое приемлемое реше-
ние — это решение о трех кластерах.
3. В неиерархической кластеризации чертят график зависимости отношения суммарной внут-
ригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Точка, в которой
наблюдается изгиб или резкий поворот, указывает на приемлемое количество кластеров.
Увеличение числа кластеров за эту точку обычно безрезультативно.
4. Относительные размеры кластеров должны быть достаточно выразительными. Из табл. 20.2,
просто подсчитав частоты кластерной принадлежности, мы увидим, что решение с тремя кла-
стерами приводит к кластерам, содержащим 8, 6 и 6 элементов. Однако если мы перейдем к
четырем кластерам, то размеры кластеров будут 8, 6, 5 и I. Бессмысленно создавать кластер с
одним случаем, поэтому в данной ситуации предпочтительнее решение с тремя кластерами.

Интерпретация и профилирование кластеров
Интерпретация и профилирование кластеров включает проверку кластерных центроидов.
Центроиды представляют средние значения объектов, содержащиеся в кластере по каждой из
переменных. Они позволяют описывать каждый кластер, если присвоить ему номер или метку.
Если компьютерная программа кластеризации не выдаст такую информацию, ее можно полу-
чить через д искри ми нантный анализ. В табл. 20.3 приведены центроиды или средние значе-
ния для каждого кластера в расматриваемом примере.

Таблица 20,3. Кластерные net
Средние переменных

Номер кластера Vi V2 V3 V4 V$ Vs
I 5,750 6,000 3,125
3,625 3,875
1,750
2 3,500
1,667 1,833
3,000 5,500 3,333
3 3,500 5,833 3,333 6,000 3,500 6,000

Кластер 1 имеет относительно высокие значения по переменной Vl (посещение магазинов —
приятный процесс) и переменной К, (я совмещаю посещение магазинов с питанием вне дома).
Он также имеет низкое значение по переменной У$ (меня не интересуют покупки). Следователь-
но, кластер I можно назвать так: "любители посещать магазины и делать покупки". Этот кластер
состоит из случаев 1, 3, 6, 7, 8, 12, 15 и 17. Кластер 2 — прямая противоположность кластеру 1: он
имеет низкие значения по переменным К, и К3 и высокое значение по переменной У5, значит, этот
кластер можно назвать "апатичные покупатели". В кластер входят случаи 2, 5, 9, II, 13 и 20. Кла-
стер 3 имеет высокие значения по переменным V2 (посещение магазинов плохо сказывается на
моем бюджете), У< (я стараюсь сделать лучшие покупки, посещая магазины) и У6 (можно сэконо-
мить много денег, сравнивая цены в разных магазинах). Таким образом, этот кластер можно на-
звать "экономные покупатели". Кластер 3 охватывает случаи 4, 10, 14,16,18и 19.


762 Часть III. Сбор, подготовка и анализ данных
Часто имеет смысл профилировать кластеры через переменные, которые не явились ос-
нованием для кластеризации. Эти переменные могут включать демографические, психогра-
фические характеристики, использование продукта или другие переменные. Например, кла-
стеры можно вывести, исходя из искомых преимуществ. Дальнейшее профилирование осу-
ществляют через демографические или психографические переменные, чтобы определить
маркетинговую стратегию для каждого кластера. Переменные, существенно различающиеся
между кластерами, можно идентифицировать дискриминантным анализом и однофактор-
ным дисперсионным анализом.

Оценка надежности и достоверности
Имея несколько умозаключений, выведенных из кластерного анализа, не следует прини-
мать никакого решения по кластеризации, не выполнив оценку надежности и достоверности
этого решения. Формальные процедуры оценки надежности и достоверности решений класте-
ризации достаточно сложны и не всегда оправданы [14], поэтому мы их опустим. Однако сле-
дующие процедуры обеспечат адекватную проверку качества кластерного анализа.
1. Выполняйте кластерный анализ на основании одних и тех же данных, но с использованием
различных способов измерения расстояния. Сравните результаты, полученные на основе
разных мер расстояния, чтобы определить, насколько совпадают полученные результаты.
2. Используйте разные методы кластерного анализа и сравните полученные результаты.
3. Разбейте данные на две равные части случайным образом. Выполните кластерный анализ
отдельно для каждой половины. Сравните кластерные центроиды двух подвыборок.
4. Случайным образом удалите некоторые переменные. Выполните кластерный анализ по со-
кращенному набору переменных. Сравните результаты с полученными на основе полного
набора переменных.
5. В неиерархической кластеризации решение может зависеть от порядка случаев в наборе
данных. Выполните анализ несколько раз, меняя порядок случаев, до получения стабиль-
ного решения.
Ниже иерархическая кластеризация проиллюстрируется на примере изучения различий в
маркетинговой стратегии фирм США, Японии и Великобритании.

ПРИМЕР. Этот маленький и тесный мир
Данные для исследования конкурирующих между собой 90 компаний из Соединенных
Штатов Америки, Японии и Великобритании получены из подробных личных интервью с
президентами и высшими должностными лицами, принимающими маркетинговые реше-
ния по группам определенных товаров. В основе методологии контроля рыночных различий
лежало сопоставление 30 британских компаний с их главными американскими и японски-
ми конкурентами на британском рынке. В исследование включено 30 триад компаний, каж-
дая состояла из британских, американских и японских компаний, непосредственно конку-
рирующих между собой.
Большинство данных, касающихся эффективности компаний, стратегии и организации,
собраны с использованием пятибалльных семантических дифференциальных шкал. Первая
стадия анализа включала факторный анализ переменных, описывающих стратегии фирм и
маркетинговые виды деятельности. Для того чтобы идентифицировать группы аналогичных
компаний методом иерархической кластеризации Барда, использовали значения факторов.
В итоге получено шесть кластеров.
Затем принадлежность к одному из шести кластеров интерпретировали относительно ис-
ходных переменных: деятельность, стратегия и организационная структура. Во все кластеры
входило несколько преуспевающих компаний, хотя в некоторых кластерах таких компаний
было существенно больше^ чем в других. Распределение фирм по кластерам подтвердило ги-
потезу о том, что успех компании не зависит от национальной принадлежности, поскольку
американские, британские и японские компании обнаружились во всех кластерах. Однако j

Глава 20. Кластерный анализ 763
наблюдалось преобладание японских компаний в кластерах с наиболее преуспевающими
компаниями и преобладание британских компаний в двух кластерах с наименее преуспе-
ваюшими компаниями. По-видимому, японские компании не применяли свойственных
только им уникальных стратегий, скорее большинство из них следовало стратегиям, которые
эффективно работали на британском рынке.
Стратегические кластеры
II III IV V VI
'Кластер /
Название Новаторы Продавцы товаров Законода Продавцы- Зрелые Агрессивные мало-
высокого качества гели цен производители продавцы ристые компании
22 11 14 13 13 17
Размер
55 100
Преуспевающие 36 38 77 41
компании (%)
Принадлежность
к стране {%)
59 46
Японские 22 31 15 18
18 36
Американские 14 31 54 53
23 18
Британские 64 38 31 29

Исследования показывают, что существуют общие стратегии, характерные для преуспе-
вающих компаний, независимо от отрасли промышленности, к которой они относятся. Оп-
ределены три стратегии успеха. Первая — это стратегия "Продавцов товаров высокого каче-
ства". Такие компании сильны в маркетинге и НИОКР (научно-исследовательских и опыт-
но-конструкторских работах). Их технические разработки концентрируются больше на
достижении высокого качества, а не на чистой инновации. Эти компании отличаются уме-
? нием принимать стратегические решения, долгосрочным планированием и хорошо разви-
I тым осознанием своей миссии, Вторая общая стратегия ("Новаторы") заключается в том,
что, компании, которые слабее в проведении НИОКР, более предприимчивы и заняты по-
иском и внедрением новых идей. Последняя преуспевающая группа— "Зрелые продавцы",
которые сильно ориентированы на получение прибыли и обладают высоким мастерством в
|
1 области маркетинга. Как оказаюсь, все три типа состоят из компаний, которые сильно ори-
! ентированы на маркетинг [15].



ПРИМЕНЕНИЕ НЕИЕРАРХИЧЕСКОЙ
КЛАСТЕРИЗАЦИИ
Проиллюстрируем неиерархический метод, используя данные табл. 20.1 и метод оптимизи-
рующего распределения. Исходя из результатов иерархической кластеризации, мы заранее оп-
ределили, что количество кластеров равно трем (трехкластерное решение). Результаты пред-
ставлены в табл. 20.4.
шяимнн^Н^^в^^^^Л^н^н^^в^^н^вв^шямш^^^^^вшщ^щ^нинмвяявц^шн^^^вщня^в^^^вшп
Таблица 20.4. Результаты неиерархической кластеризации
Исходные кластерные центры
Кластер Vi Vz V3 Vt

1 4,0000 6,0000 3,0000 7,0000
2,0000 4,0000
3,0000 2,0000
3 7,0000 2,0000 6,0000 4,0000



764 Часть III, Сбор, подготовка и анализ данных
Продолжение табл. 20.4

Кластер
2,0000 7,0000
\
7,0000 2,0000
?
3 1,0000 3,0000
Классификационные кластерные центры
Кластер V, V2
1 3,2522
3,8135 5,8992 6,4891
2 3,7864
1,85-7 3,0234 1,8327
3 6,3558 6,1576 3,6736
2,8356
Кластер V, VB

! 2,5149 6,6957
2 6,4436 2,5056
3 1,3047 3,2010
Слисок кластерной принадлежности объектов
Номер Щ объекта Кластер Расстояние
1 3 1,780
2 2,254
2
3
3 1,174
4 1,882
!

5 2 2,525
6 3 2,340
3
7 1,862
В 3 1,410
9 2 1,843
10 1 2,112
11 2 1,923
12 3 2,400
13 2 3,382
14 1 1,772
15 3 3,605
16 1 2,137
17 3 3,760
1
18 4,421
1
19 0,853
20 2 0,813
Конечные кластерные центры

V,
Кластер V2 V3 V*

1 3,5000 5,8333 3,3333 6,0000
2 1,6667 3,0000 1,8333 3,5000
3 5,7500 3,6250 6,0000 3,1250


Глава 20. Кластерный анализ 765
Окончание табл. 20.4

Кластер
1 3,5000 6,0000
2 5,5000 3,3333
3 1,7500 3,8750
Расстояния между конечными кластерными центрами
Кластер 1 2 3
1 0,0000
2 5,5678 0,0000
3 5,7353 6,9944 0,0000
Дисперсионный анализ
Переменная MS (средний Степени Ошибка MS Степени Уровень
F-статнстика
квадрат) кластера свободы значимости, р
свободы
29,1083 0,6078 0,000
17,0 47,8879
13,5458 0,6299 21,5047 0,000
17,0
31,3917 0,8333 0,000
17,0 37,6700
15,7125 0,7279 0,000
17,0 21,5848
V:

24,1500 0,7353 0,000
17,0 32,8440
V-

12,1708 1,0711 0,000
17,0 11,3632
V,

Число объектов в каждом кластере
Кластер Невзвешенные случаи Взвешенные случаи
1 6,0 6,0
6,0 6,0
2
8,0 8,0
3
0,0
Пропущенный
Итого 20,0 20,0

Исходные кластерные центры — это значения первых трех объектов. Классификационные
кластерные центры — это промежуточные значения центров, используемые для отнесения объ-
екта к определенному кластеру. Каждый объект относят к ближайшему классификационному
кластерному центру. Классификационные центры обновляют до тех пор, пока не достигнут
критерия остановки. Конечные кластерные центры представляют средние значения перемен-
ных для объектов в конечных кластерах.
В табл. 20.4- также показана кластерная принадлежность объектов и расстояние между каж-
дым объектом и его классификационным центром. Следует отметить, что кластерные принад-
лежности, приведенные в табл. 20.2 (иерархическая кластеризация) и табл. 20.4 (неиерархичес-
кая кластеризация), идентичны (кластер 1 табл. 20.2 является кластером 3 в табл. 20.4, а кластер
3 табл. 20.2 — кластером 1 в табл. 20.4), Расстояния между конечными кластерными центрами
указывают, что пары кластеров хорошо разделены. Для каждой переменной, лежащей в основе
кластеризации, приведено только описательное значение /"-статистики для одномерной вы-
борки. Случаи или объекты систематично относят к кластерам, чтобы максимизировать разли-
чия по переменным, лежащим в основе кластеризации, поэтому полученные значения вероят-
ностей не следует интерпретировать как испытание нулевой гипотезы об отсутствии различий
среди кластеров. Следующий пример о выборе больницы продолжает иллюстрацию неиерар-
хической кластеризации.


766 Часть III. Сбор, подготовка и анализ данных
ПРИМЕР. Сегментация с хирургической точностью
Кластерный анализ использовался маркетологами для классификации пациентов, пред-
почитающих стационарное лечение. Цель анализа — идентификация этого сегмента паци-
ентов, предпочитающих стационарное лечение. Кластеризация опиралась на причины, по
которым респонденты предпочитали лечение в больнице. Для того чтобы узнать, насколько
эффективно можно идентифицировать сегменты, сравнивали демографические профили
сгруппированных респондентов.
Для группирования респондентов на основе их ответов на вопросы, касающиеся выбора
больницы, использовали метод кластеризации, минимизирующий дисперсию, который
выполнили с помощью программы Quick Cluster (программный пакет SPSS). Минимизиро-
вали квадраты евклидовых расстояний между всеми переменными, лежащими в основе кла-
стеризации. Поскольку разные респонденты воспринимали шкалы важности по-разному,
перед кластеризацией персональные рейтинги нормировали. Результаты показали, что рес-
пондентов наилучшим образом можно классифицировать на четыре кластера. Достоверность
результатов кластерного анализа проверили методом перекрестной проверки двух половинок
общей выборки.
Как и ожидалось, четыре группы существенно отличались по кривым распределения и
средним значениям ответов, касающихся причин выбора стационарного лечения. Назва-
ния, присвоенные каждой из четырех групп, отразили демографические характеристики и
причины выбора стационарного лечения; клиенты со старомодными взглядами; богатые
клиенты; клиенты, здраво оценивающие стоимость лечения; клиенты, желающие получить
1 профессиональное медицинское обслуживание [16].


КЛАСТЕРИЗАЦИЯ ПЕРЕМЕННЫХ
Иногда кластерный анализ используют для кластеризации переменных, чтобы опреде-
лить однородные (гомогенные) группы. В этом случае элементами, используемыми для
анализа, будут переменные, и меры расстояния вычисляют для всех пар переменных. На-
пример, коэффициент корреляции либо по абсолютной величине, либо с присущим ему
знаком можно использовать как меру сходства (в противоположность расстоянию) между
переменными.
Иерархическая кластеризация переменных помогает идентифицировать характерные
переменные или переменные, которые вносят уникальный вклад в данные. Кластериза-
ция также используется для уменьшения числа переменных. Связанную с каждым класте-
ром линейную комбинацию переменных в кластере называют кластерным компонентом.
Большой набор переменных часто можно заменить набором кластерных компонентов, по-
теряв при этом незначительную часть информации. Однако данное число кластерных
компонентов обычно не объясняет столько дисперсии, сколько такое же количество глав-
ных компонентов. Тогда возникает вопрос: зачем же использовать кластеризацию пере-
менных? Кластерные компоненты обычно легче интерпретировать, чем главные, даже ес-
ли последние повернутые [17]. Проиллюстрируем кластеризацию переменных на примере
из исследования рекламы.

ПРИМЕР. Эмоции — и ничего, кроме эмоций
Для того чтобы определить, какие эмоции вызывает у людей реклама, было проведено I
маркетинговое исследование. Набор из 655 эмоций уменьшили до 180, после этого их оце- |
нили респонденты, которые, вероятнее всего, наиболее подвержены рекламе. Эту группу |
разбили на 31 кластер похожих эмоций, исходя из оценок респондентов о влиянии на них I
| рекламы. Затем эти кластеры разделили на 16 кластеров с положительными эмоциями и ]
I 15 — с отрицательными [18].


Глава 20. Кластерный анализ 767
Положительные эмоции Отрицательные эмоции
1. Игривость-несерьезность 1. Страх
2. Дружелюбие 2. Испорченное настроение-досада
3. Смущение
3. Юмор
4. Восхищение 4. безразличие
5. Скука
5. Интерес
6. Сила-уверенность 6. Грусть
7. Сердечность-нежность 7. Беспокойство
8. Рассла&ленность 8. Беспомощность-робость
9. Энергия-импульсивность 9. Неприязнь-глупость
10. Страстное желание-воэбуадение 10. Сожаление-обман
11. Гнев
11. Размышление
12. Гордость 12. Неловкость
13. Убежденность-ожидание 13. Отвращение
14. Бодрость-вызов 14. Раздражение
15. Дурное настроение-замешательство
15. Изумление
16. Горячее желание-осведомленность
Таким образом 665 эмоций — откликов на рекламу, снизили до основного набора из 31
i эмоции. Теперь менеджеры в сфере рекламы имеют управляемый набор эмоций (чувств),
I позволяющий понять и измерить эмоциональные отклики респондентов на рекламу. Буду-
| чи измеренными, эти эмоции предоставляют информацию о способности рекламы убеждать
| целевых потребителей.

Кластерный анализ может оказаться полезным при изучении проблем этики маркетинго-
вых исследований (врезка 20.1 "Практика маркетинговых исследований" [19]).

Врезка 20.1. Практика маркетинговых исследований

Кластеризация профессионалов в маркетинге на основе оценки этичности ситуаций
Кластерный анализ используется для объяснения различий в восприятии этических
норм. Для измерения этичности различных ситуаций разработаны шкалы, состоящие из не-
скольких разделов и многих пунктов (многоразмерные шкалы). Одна из таких шкал создана
Райденбахом и Робином (Reidenbach and Robin), она состоит из 29 пунктов, которые охваты-
вают пять областей этики, и служит для оценки респондентом конкретного действия. На-
пример, респондент прочтет о том, что исследователь-маркетолог предоставил частную ин-
формацию об одном из своих клиентов другому клиенту. Респондента попросят заполнить
анкету из 29 пунктов. Например, его просят указать, каким является это действие:
Справедливое (действие) ;__j ; : : : : : Несправедливое
Обычно приемлемое : : ; : : : _: : Неприемлемое
Имеет место нарушение: : :;: :: : ; Нет нарушения условий контракта
Эту шкалу использовали при опросе специалистов-маркетологов. На основе ответов на
29 пунктов анкеты респондентов разделили на кластеры, при этом изучались два основ-
ных вопроса. Во-первых, чем отличаются кластеры с точки зрения таких этических ком-
понентов, как справедливость, релятивизм, эгоизм, утилитаризм, деонтология
(подробности — в главе 24). Во-вторых, какие типы фирм входят в каждый из кластеров?
Кластеры можно описать с точки зрения стандартной промышленной классификации от-
раслей (SIC) и рентабельности фирм. Ответы на эти вопросы позволят увидеть, каким из


768 Часть 111, Сбор, подготовка и анализ данных
принципов этики руководствуется определенный тип руководителей фирм для оценки
этичности ситуаций. Например, попадут ли крупные и мелкие фирмы в один и тот же
кластер? Действительно ли рентабельные фирмы относятся к спорным ситуациям лояль-
нее, чем менее прибыльные фирмы?



ИСПОЛЬЗОВАНИЕ INTERNET И КОМПЬЮТЕРА
В SPSS главной программой для иерархической кластеризации объектов является
CLUSTER. Можно вычислить различные значения меры расстояний, доступны также все ме-
тоды кластеризации, рассмотренные в этой главе. Для неиерархической кластеризации ис-
пользуется программа QUICK CLUSTER. Она чрезвычайно полезна для кластеризации боль-
шого количества случаев. Все опции по умолчанию приводят к кластеризации методом k-
средних. Для кластеризации переменных следует вычислять значения меры сходства по всем
переменным, используя программу PROXIMITIES. Матрицу близости можно получить с по-
мощью программы CLUSTER
В SAS используется программа CLUSTER для иерархической кластеризации случаев или
объектов. Доступны все методы кластеризации, описанные в данной главе, а также некоторые
дополнительные. Неиерархическая кластеризация случаев или объектов выполняется с помо-
щью FASTCLUS. Для кластеризации переменных используется программа VARCLUS. Дендро-
граммы не вычисляются автоматически, их можно получить с помощью программы TREE.
В программном пакете BMDP главной программой для кластеризации случаев с использо-
ванием иерархических методов является 2М. Она позволяет использовать несколько мер рас-
стояний, но только одну из процедур кластеризации: метод одиночной связи, центроидный
метод или правило k ближайших соседей. Для неиерархичсской кластеризации используется
программа КМ, позволяющая выполнять кластеризацию объектов с ^-средними. Кластериза-
ция переменных выполняется программой 1М. Она дает возможность использовать методы
одиночной, полной и средней связи. Существует также специальная программа ЗМ для по-
строения блок-кластеров для категориальных переменных. Поднаборы объектов объединяются
в кластеры, аналогичные поднаборам переменных.
В Minitab можно оценить кластерный анализ, используя функцию Multivariate>Cluster ob-
servation. Кроме того, существуют функции Clustering of Variables и Cluster K-Means. Кластер-
ный анализ нельзя выполнить в Excel (версия 7.0 для PC).

В центре внимания Burke

Когда компания Burke представляет результаты кластерного анализа клиенту, он должен
получить ответы на следующие три существенных вопроса.
1. Что я могут узнать с помощью кластеров о моем рынке?
2. Какие переменные лежат в основе кластеризации?
3. Насколько отличаются кластеры?
Что я могут узнать с помощью кластеров о моем рынке?
Чтобы ответить на этот вопрос, компания Burke обычно использует данные респонден-
1 тов, которые не были включены в процедуру кластеризации. Например, нам удалось опре-
г делить четыре кластера респондентов, исходя из их оценок преимуществ товара. Для провер-
ки нашего предположения о наличии четырех кластеров мы также собрали фактические
данные о поведении покупателей и их намерениях относительно покупок. Если кластеры не
отражают каких-либо важных для руководства значимых различий по этим показателям,
описывающим поведение при покупке товара и намерения купить его, то сложно убедить
1 руководство компании-заказчика в том, что деление клиентов на кластеры целесообразно.
\ Поскольку цель кластеризации — создание групп, очень схожих между собой, то нет гаран-
| тии, что они будут отличаться чем-либо другим, кроме внешних признаков.

Глава 20. Кластерный анализ 769
Какие переменные лежат в основе кластеризации?
Если для создания кластеров мы используем несколько переменных, то следует быть
внимательным, чтобы не создать неявно взвешенную систему. Например, в маркетинговом
исследовании в сфере автоиндустрии заказчик предложил сгруппировать респондентов в со-
ответствии с ответами на 20 вопросов, касающихся желаемых преимуществ нового автомо-
биля. Уже при первом их рассмотрении стало ясно, что семь вопросов прямо или косвенно
связаны с экономией денег, восемь — с имиджем, три — с ценой и два отражали скоростные
качества автомобиля. Можно было спрогнозировать, что вопросы, лежащие в основе класте-
ризации, скорее всего приведут руководство компании к выводу о том, что группы респон-
дентов, по-видимому, больше всего отличаются отношением к экономии денег и имиджу
автомобиля. Но когда вы вычислите евклидовы расстояния, чтобы изучить различия между
респондентами, то в формулу их расчета будет входить данные, полученные при ответах на
!5 вопросов относительно экономии и имиджа и только пять, касающиеся вопросов из об-
ласти ценовых и скоростных характеристик автомобиля. Если эти вопросы имеют сопоста-
вимые шкалы, то явно будет завышено значение данных из первых двух категорий. Разум-
нее сократить как можно больше похожих вопросов, чтобы получить в каждой категории
одинаковое число вопросов, отражающее высоко коррелированные группы вопросов. Если
этого не сделать, то число вопросов, которые вы зададите по данной проблеме, может сильно
повлиять на ваши результаты, сильнее, чем сама проблема.
Насколько отличаются кластеры?
Выше, в первом пункте, мы обсудили, насколько целесообразно выделять кластеры с точки
зрения существования различий между переменными, Нам также необходимо проверить, дейст-
вительно ли кластеры различаются с точки зрения переменных, которые лежали в основе созда-
ния кластеров. Вы можете ввести данные в алгоритм кластеризации, и если вы зададите остановку
этого процесса на двух кластерах, то получите два кластера в силу самой природы этого процесса, а
вовсе не из-за логики проблемы или структуры различий, существующих в изучаемой совокупно-
сти. Поэтому после деления на кластеры важно убедиться, что различия имеют достаточную вели-
чину и стабильность, чтобы вы были уверены в полученных результатах.
1. Маловероятно, что кластеры отличаются по всем вопросам, использованным в качестве
исходных данных для процесса кластеризации. Хотя статистические процедуры не дей-
ственны применительно к систематически создаваемым кластерам, они помогают по-
нять процесс формирования кластеров. Однофакторный дисперсионный анализ пока-
жет, различаются ли отдельные вопросы между сформированными кластерами, исходя
из значения статистики, которая больше всего подходит для вероятностной выборки
(конечно, это не то, что вы хотите... но все же лучше иметь такой "коэффициент"). При-
влекательнее использование дискриминантного анализа, поскольку он покажет, какие
из вопросов станут потенциальными дискриминаторами групп, учитывая при этом кол-
линеарность между этими предикторами.
2. Значимость различий между кластерами с точки зрения руководства — это отдельная
проблема. Предположим, ваши кластеры представляются различными по статистиче-
ским показателям (полученным в результате дисперсионного и дискриминантного ана-
лиза). Однако это вовсе не означает, что различия настолько велики, что руководство
компании-заказчика сочтет их полезными для решения своих проблем. Рассмотрим, на-
пример, такую ситуацию. Вопрос, по которому было проведено различие кластеров, от-
носился к экономии средств, и 90% ответов находилось в диапазоне от 6 до 9 по десяти-
балльной шкале.
Чтобы убедить руководство принять во внимание такое разделение между кластерами,
вам необходимо предоставить дополнительные убедительные доказательства. Дело в том,
что оценки респондентов показывают различия в степени "положительного отношения"
и ничего не говорят о величине различий в рамках одного кластера. Это трудный вопрос,
и нет рецепта для ответа на него. Конечно, было бы лучше, если бы вы могли перевести
эти численные различия в решения, имеющие смысл для высшего руководства.

770 Часть 111. Сбор, подготовка и анализ данных
РЕЗЮМЕ
Кластерный анализ используют для группирования (классификации) объектов (событиев,
случаев), а иногда и переменных в относительно однородные группы. Образование кластеров
зависит от имеющихся данных, а не определяется заранее.
Переменные, которые являются основанием для кластеризации, следует выбирать, исхо-
дя из опыта предшествующих исследований, теоретических предпосылок, проверяемых ги-
потез, а также по усмотрению исследователя. Кроме того, следует выбрать соответствующую
меру расстояния (сходства). Особенность иерархической кластеризации — разработка иерар-
хической или древовидной структуры. Иерархические методы кластеризации могут быть аг-
ломеративными или дивизивными. Агломеративные методы включают: метод одиночной
связи, метод полной связи и метод средней связи. Широко распространенным дисперсион-
ным методом является метод Барда. Неиерархические методы кластеризации часто называют
методами ^-средних. Эти методы включают последовательный пороговый метод, параллель-
ный пороговый метод и оптимизирующее распределение. Иерархические и неиерархические
методы можно применять совместно. Выбор метода кластеризации и выбор меры расстояния
взаимосвязаны.
Решение о числе кластеров принимают по теоретическим и практическим соображе-
ниям. В иерархической кластеризации важным критерием принятия решения о числе класте-
ров являются расстояния, при которых происходит объединение кластеров. Относительные
размеры кластеров должны быть такими, чтобы имело смысл сохранить данный кластер, а не
объединить его с другими. Кластеры интерпретируют с точки зрения кластерных центроидов.
Часто интерпретировать кластеры помогает их профилирование через переменные, которые не
лежали в основе кластеризации. Надежность и достоверность решений кластеризации оцени-
вают разными способами.


КЛЮЧЕВЫЕ ТЕРМИНЫ И ПОНЯТИЯ
метод оптимизирующего распределения
агломеративная кластеризация
(optimizing partitioning method)
(agglomerative clustering)
метод полной связи (complete linkage)
дивизивная кластеризация (divisive clus-
tering) метод средней связи (average linkage)
дисперсионный метод (variance methods) методы связи (linkage methods)
древовидная диаграмма (дендрограмма) неиерархическая кластеризация
(dendrogram) (nonhierarchical clustering)
евклидово расстояние (euclidean distance) параллельный пороговый метод (parallel
threshold method)
иерархическая кластеризация (hierarchical
clustering) план агломерации (allomeration schedule)
кластерные центры (cluster centers) последовательный пороговый метод
(sequential threshold method)
кластерный центроид (cluster centroid)
расстояния между центрами кластеров
матрица сходства/матрица коэффициен-
(distances between cluster centres)
тов (значений расстояний между объеди-
няемыми объектами) (similarity/distance сосульчатая диаграмма (icicle diagram)
coefficient matrix)
центроидный метод (centroid method)
метод Варда (Ward's procedure)
метод одиночной связи (single linkage)




771
Глава 20. Кластерный анализ
УПРАЖНЕНИЯ
Вопросы
1. Обсудите сходство и различие между кластерным и дискриминантным анализом.
2. Назовите примеры использования кластерного анализа в маркетинге.
3. Дайте краткие определения следующим терминам: дендрограмма, сосульчатая диаграмма,
графи к агломерации и кластерная принадлежность.
4. Что является наиболее распространенной мерой сходства в кластерном анализе?
5. Дайте классификацию процедур кластеризации,
6. Почему обычно предпочитают использовать метод средней связи, а не одиночной и пол-
ной связи?
7. Назовите два главных преимущества процедур неиерархической кластеризации.
8. Чем следует руководствоваться при принятии решения о количестве кластеров?
9. Что понимают под интерпретацией кластеров?
10. Что представляют собой дополнительные переменные, используемые для профилирования
кластеров?
П. Опишите несколько процедур для оценки качества (надежности и достоверности) кластер-
ного анализа.
12. Как кластерный анализ используют для группирования переменных?


Задачи
1. Верны ли следующие утверждения.
a) Методы иерархической и неиерархической кластеризации всегда приводят к разным
результатам.
b) Перед выполнением кластерного анализа всегда следует нормировать данные.
c) Небольшие значения расстояний между объединяемыми кластерами в плане агломера-
ции означают, что объединяются непохожие объекты.
d) He имеет значения, какая используется мера расстояния, так как итог кластеризации в
принципе одинаковый.
e) Рекомендуется один и тот же набор данных анализировать с помощью различных мето-
дов кластеризации.


УПРАЖНЕНИЯ С ИСПОЛЬЗОВАНИЕМ
INTERNET И КОМПЬЮТЕРА
1. Проанализируйте данные табл. 20.1, используя следующие методы: (а) метод одиночной
связи, (Ь) метод полной связи, и (с) центроидный метод. При этом используйте SPSS,
SAS, BMDP или Minitab. Сравните полученные результаты с результатами, приведенны-
ми в табл. 20.2.




Часть III. Сбор, подготовка и анализ данных
772
КОММЕНТАРИИ
1. Liz Stuart, "Haagen-Dazs Aims to Scoop a Larger Share", Marketing Week, February 21, 1997,
p. 26; Dwight J. Shelton, "Birds of a Geodemographic Feather Flock Together'', Marketing News,
August 28, 1987, p. 13.
2. О применении кластерного анализа см. статью Sudhir H. Kale, "Grouping Euroconsumers:
1
A Culture-Based Clustering Approach" , Journal of International Marketing, March 1995, p. 35—48.
3. Существуют также перекрывающиеся методы кластеризации, позволяющие отнести объект
к более чем одному кластеру. См. статью Anil Ciiaturvedi, J. Douglass Carroll, Paul E. Green,
John A. Rotondo, "A Feature-Based Approach to Market Segmentation via Overlapping K-
Centroids Clustering", Journal of Marketing Research, August 1997, p. 370—377.
4. Прекрасные дискуссии относительно различных аспектов кластерного анализа можно най-
ти в работах В. Everitt, Cluster Analysis, 3rd ed. (New York, NY: Halstcd Press, 1993); H. Charles
Romsturg, Cluster Analysis for Researchers (Melbourne: Krieger Publishing Company, 1990).
5. Vicki Douglas. ""Questionnaires Too Long? Try Variable Clustering", Marketing News, February 27,
1995, p. 38; Girish Punj, David Stewart, "'Cluster Analysis in Marketing Research: Review and Sug-
gestions for Application", Journal of Marketing Research, May 1983, p. 134—148.
6. Об использовании кластерного анализа для сегментации см. статьи Mark Peterson, Naresh К.
Malhotra, "'Comparative Marketing Measures of Societal Quality of Life: Substantive Dimensions in
186 Countries", Journal of Macromarketing, Spring 1997, p. 25—38; Tung-Zong Chang, Su-Jane
Chen, "Benefit Segmentation: A Useful Tool for Financial Investment Services", Journal of
Professional Services Marketing, February 1995, p. 69—80; "Using Cluster Analysis for Segmenta-
tion", Sawtooth News, Winter 1994/1995, p. 6-7.
7. Chul-Min Mo, Mark E. Havitz, Dennis R. Howard, "Segmenting Travel Markets with the Interna-
tiona! Tourism Role (ITR) Scale", Journal of Travel Research, Summer 1994, p. 24—31; George
Moschis, Daniel C. Bello, "'Decision-Making Patterns among International Vacationers; A Cross-
Cultural Perspective", Psychology & Marketing. Spring 1987, p. 75—89.
8. B. Everitt, Cluster Analysis, 3rd ed. (New York, NY: Haisted Press, 1993).
9. Более детально различные меры подобия и формулы для их вычисления обсуждаются в ра-
ботах Victor Chepoi, Feodor Dragan. "Computing a Median Point of a Simple Rectilinear
Polygon", Information Processing Letters, March 22, 1994, p. 281—285; H. Charles Romsburg, Cluster
Analysis fur Researchers (Melbourne: Krieger Publishing Company, 1990).
10. Tomio Hirata, "A Unified Linear-Time Algorithm for Computing Distance Maps", Information
Processing Letters, May 13, 1996, p. 129—133; Joseph F. Hair, Jr., Ralph E, Anderson, Ronald L.
Tatham, William C. Black, Muitivariate Data Analysis with Readings, 5th ed. (Upper Saddle River,
NJ: Prentice Hall, Inc., 1999).
11. Более подробно дискуссия по вопросам стандартизации рассматривается в работе H. Charles
Romsburg, Cluster Analysis for Researchers (Melbourne: Krieger Publishing Company, 1990).
12. Richard A. Johnson, Dean A. Wichern. Applied Muitivariate Statistical Analysis, 4th ed. (Upper Sad-
dle River, NJ: Prentice Hall, 1998); G. Milligan, "An Examination of the Effect of Six Types of Er-
ror Perturbation on Fiften Clustering Algorithms", Psychometrica, September 1980, p, 325—342.
13. B. Everitt, Cluster Analysis, 3rd ed. (New York, NY: Haisted Press, 1993); Punj Girish, David Stew-
ard, "Cluster Analysis in Marketing Research: Review and Suggestions for Application", Journal of
Marketing Research, May 1983, p. 134-138.
14. Оценку надежности, достоверности и проверку значимости в кластерном анализе см. в ра-
ботах S. Dibbs. P. Stern, "Questioning the Reliability of Market Segmentation Techniques", Omega,
December 1995, p. 625—636; G. Ray Funkhouser, "A Note on the Reliability of Certain Clustering
Algorithms", Journal of Marketing Research, February 1983, p. 92—98; SJ. Arnold, "A Test for
Clusters", Journal of Marketing Research, November 1979, p. 545—551.


Глава 20. Кластерный анализ 773
15. John Saunders, Veronica Wong, Peter Doyle, "The Congruence of Successful International Com-
petitors; A Study of the Marketing Strategies and Organisations of Japanese and U.S. Competitors in
the UK", Journal of Global Marketing, March 1994, p. 41—59; Peter Doyle, John Saunders, Veronica
Wong, ''International Marketing Strategies and Organisations: A Study of U.S., Japanese, and British
Competitors", in Paul Bloom, Russ Winer, Harold H. Kassarjian, Debra L. Scammon, Bart Weitz,
Robert E. Spekman, Vijay Mahajan, Michael Levy (eds.), Enhancing Knowledge Development in
Marketing, Series № 55 (Chicago, 1L: American Marketing Association, 1989), p. 100—104.
16. Edward J. Holohean, Jr., Steven M. Banks, Blair A. Maddy, "Sysntem Impact and Methodological
Issues in the Development of an Empirical Typology of Psychiatric Hospital Residents", Journal of
Mental Healtk Administration, Spring 1995, p. 177-188; Arch G. Woodside, Robert L. Nielsen, Fred
Walters, Gale D. Muller, ''Preference Segmentation of Health Care Services: The Old-Fashioneds,
Value Conscious, Affluents and Professional Want-It-Alls", Journal of Health Care Marketing, June
1988, p. 14-24.
17. Vicki Douglas, "Questionnaire Too Long? Try Variable Clustering", Marketing News, February 27,
1995, p.38.
18. Thorolf Helgesen, "The Power of Advertising — Myths and Realities", Marketing & Research Today,
May 1996, p. 63—71; David A. Aaker, Douglas M. Stayman, Richard Vezina, "Identifying Feelings
Elicited by Advertising", Psychology & Marketing, Spring 1988, p. 1—16.
19. Ismael Akaah, "Organizational Culture and Ethical Research Behavior", Journal of the Academy of
Marketing Science, Winter 1993, p. 59-63; R.E. Reidenbach, D. Robin, "Some Initial Steps toward
Improving the Measurement of Ethical Evaluations of Marketing Activities", Journal of Business
Ethics, )u\ymS, p. 871-879.




774 Часть III. Сбор, подготовка и анализ данных
Многомерное шкалирование
и совместный анализ
После изучения материала этой главы вы должны уметь ...
1. Обсуждать основную идею и сферу применения многомерного шкалирования (ММШ) в
маркетинговых исследованиях.
2. Описывать этапы многомерного шкалирования данных о восприятии потребителей, вклю-
чая формулирование проблемы, получение исходных данных, выбор метода ММШ, при-
нятие решения о размерности пространства, обозначение размерности и интерпретации
конфигурации точек на карте, а также оценку надежности и достоверности.
3. Объяснять многомерное шкалирование данных о предпочтении потребителей и разбирать-
ся в отличиях внутреннего анализа предпочтений от внешнего.
4. Объяснять анализ соответствий и показывать его преимущества и недостатки.
5. Понимать взаимосвязь между многомерным шкалированием, дискриминантным и фак-
торным анализом.
6. Обсуждать основные положения совместного анализа в сравнении с многомерным шкали-
рованием, а также рассматривать различные аспекты его применения.
7. Описывать процедуру выполнения совместного анализа, включая формулирование про-
блемы, конструирование объектов восприятия, принятие решения о форме входных дан-
ных, выбор метода совместного анализа, интерпретацию результатов и оценивание надеж-
ности и достоверности.
8. Давать определение гибридному совместному анализу и объяснять, каким образом он уп-
рощает сбор данных.


КРАТКИЙ ОБЗОР
В заключительной главе, посвященной анализу данных, представлены два взаимосвязанных
метода анализа восприятий и предпочтений потребителей — многомерное шкалирование
(ММШ) и совместный анализ. Мы кратко изложим и проиллюстрируем этапы выполнения мно-
гомерного шкалирования и обсудим связь между многомерным шкалированием, факторным и
дискриминантным анализом. Затем опишем совместный анализ и представим пошаговую проце-
дуру его выполнения. Кроме того, мы кратко опишем гибридный совместный анализ.
Начнем с примеров, иллюстрирующих применение многомерного шкалирования и совме-
стного анализа.

СКВОЗНОЙ ПРИМЕР, ВЫБОР УНИВЕРМАГА

Многомерное шкалирование
Маркетологи опросили посетителей универмага и получили оценку 10 различных универмагов
по каждому из восьми критериев выбора, Эти оценки затем использовались для выведения
степени сходства между магазинами. Для каждой пары магазинов вычислили евклидовы рас-
стояния. С помощью многомерного шкалирования был проведен анализ данных, в результате
которого исследователи получили пространственные карты, отображающие восприятие рес-


Глава 21. Многомерное шкалирование и совместный анализ 775
пондентами 10 магазинов. На одной из таких карт престижные магазины расположились от-
дельно от обычных, а местные универмаги — отдельно от общенациональных. Магазины, ко-
торые напрямую конкурировали между собой (например, Saks Fifth Avenue и Neiman
Marcus), были расположены близко один от другого в пространстве восприятия. Эти карты
восприятия использовали для определения конкурентных позиций десяти универмагов.



ПРИМЕР. ММШ и безалкогольные напитки
В данном маркетинговом исследовании респонденты оценили все возможные пары 10
торговых марок безалкогольных напитков с точки зрения их сходства. Эти данные затем об-
работали с помощью многомерного шкалирования. В результате получилась следующая про-
странственная картина расположения безалкогольных напитков.
0,8

Dr. Pepper
0,6


0:4


0,2
Coke Classic 7-Up
-0,0
Pepsi
Diet Slice
-0,2
Diet Pepsi

• •
-0,4 Diet7-Up
" DietCoke
Tab
-0,6


0.8
-.0 GO
05
-1,5
Исходя из данных, полученных при опросе потребителей безалкогольных напитков, го-
ризонтальную ось обозначили "Вкус колы". Респонденты считали, что напиток Tab обладает
самым сильным вкусом колы, а напиток 7-Up — самым слабым вкусом колы. Вертикальную
ось обозначили "Диетические свойства". Напиток Tab воспринимался респондентами как
самый диетический, а напиток Dr. Pepper— как самый недиетический продукт. Обратите
внимание, что напитки Pepsi и Coke Classic респонденты считали одинаковыми по вкусо-
вым качествам: точки, соответствующие этим напиткам, расположены рядом на карте вос-
приятий. Почти равными по вкусовым качествам респонденты воспринимали 7-Up и Slice,
Diet 7-Up и Diet Slice, а также Tab, Diet Coke и Diet Pepsi. Обратите внимание, что напиток
Dr. Pepper воспринимался респондентами как относительно непохожий на остальные безал-
когольные напитки. Таким образом, карты многомерного шкалирования — полезный инст-
румент для понимания конкурентной структуры рынка безалкогольных напитков [1].



ПРИМЕР. Кредитные карточки и совместный анализ
Появление Complete MasterCard (кредитная карта MasterCard, выпущенная совместно с
телефонной фирмой Ameritech — одной из семи региональных телефонных компаний фир-
мы Bell, — связано с удачным использованием результатов проведения фокус-группы и изу-
чением данных совместного анализа. Кредитная карточка Complete MasterCard недавно ста-

776 Часть III. Сбор, подготовка и анализ данных
ла доступна 10 миллионам клиентов Ameritech, проживающих в штатах Иллинойс, Мичиган,
Огайо и Висконсин.
;
'С ростом конкуренции на рынке телефонных карточек и с учетом запросов наших кли-
ентов, мы вынуждены предлагать им дополнительные услуги — многоцелевую карточку, —
заявил Рич Бялек, директор службы кредитных карточек фирмы Ameritech. — Мы хотели с
помощью исследования рынка услуг определить, какой совокупностью свойств должна об-
ладать кредитная карточка, чтобы полнее удовлетворять запросы наших клиентов".
На первом этапе маркетологи провели восемь фокус-групп. В них приняли участие
пользователи обоих видов карточек (кредитных и телефонных). Сотрудники компании,
проводившей маркетинговое исследование (Kennedy Research, Inc), обратили особое внима-
ние на то, как пользователи относятся к кредитной карточке, которая одновременно служит
и телефонной карточкой, и что они ждут от нее. Во втором раунде фокус-групп маркетологи
компании Kennedy попытались определить характеристики новой карточки для того, чтобы
затем провести совместный анализ.
В рамках проведения совместного анализа компания Kennedy пригласила 500 клиентов
компании Ameritech — примерно по 100 человек в каждом из обслуживаемых ею штатов, для
участия в компьютеризированном анкетировании, занимавшем 30 минут. В анкету включи-
ли 15 свойств кредитной и телефонной карточек: годовую плату за использование (четыре
возможности), процентную ставку (три возможности) и название карточки (семь возможно-
стей). Все вопросы позволяли респондентам выбрать один из двух предложенных ответов.
Например, "Что для вас важнее: карточка без взимания годовой платы за обслуживание или
карточка, которая предлагает плавающую процентную ставку?" Джемал Дин, проводивший
I
] совместный анализ, отметил: "После ответов примерно на половину вопросов участники ис-
; следования не были уверены, что же они хотят. Компьютерный анализ позволил определить
? относительную ценность различных свойств карточки, исходя из ответов каждого лица, а
i затем разработать одну карточку, которая, вероятнее всего, была бы наилучшим вариан-
! том для этого лица".
В результате этого исследования карточка получила название Complete Master-Card
I Ameritech. Карточка среди прочего имела следующие характеристики: отсутствие годовой
платы за обслуживание и оплачиваемую банком-эмитентом 10%-ную скидку большинства
i
; местных телефонных переговоров и междугородных звонков, проведенных с ее помощью.
! О полезности совместного анализа при разработке Complete Master-Card Ameritech свидетель-
I ствуют благодарные отклики клиентов [2].

Первые два примера показывают, как получают и используют карты восприятия, которые
являются ядром многомерного шкалирования. Пример с кредитной карточкой Complete Mas-
terCard Ameritech демонстрирует компромиссы, на которые идут респонденты при оценке вари-
антов. Метод совместного анализа как раз и опирается на такие компромиссы.




Многомерное шкалирование (ММШ) (Multidimensional Scaling — MDS) — это класс методов
для представления восприятий и предпочтений респондентов в пространстве с помощью на-
глядного изображения.

Многомерное шкалирование (ММШ) (Multidimensional Scaling — MDS)
Класс методов для представления восприятий и предпочтений респондентов в пространстве
с помощью наглядного изображения.

Воспринимаемые (психологические) взаимосвязи между объектами представляют в виде
геометрических с вязе и между точками в многомерном пространстве. Эти геометрические пред-

Глава 21, Многомерное шкалирование и совместный анализ 777
ставления часто называют пространственными картами. Оси координат на пространственной
карте соответствуют психологическим факторам поведения человека или, иначе говоря, основ-
ным размерностям, которыми пользуются респонденты для формирования восприятия и
предпочтения объектов [3]. Многомерное шкалирование используют в маркетинге, чтобы оп-
ределить следующее.
1. Количество и природу измерителей, которые используют потребители, чтобы выразить свое
отношение к торговым маркам на рынке.
2. Позиционирование имеющихся торговых марок согласно этим измерителям.
3. Позиционирование идеальных потребительских торговых марок по этим измерителям.
Информация, полученная в результате многомерного шкалирования, используется для ре-
шения разнообразных задач в маркетинге. Отметим среди них следующие.
• Измерение имиджа. Восприятие фирмы потребителями и непотребителями ее продук-
ции в сравнении с собственным восприятием фирмы самой себя.
• Сегментация рынка. Расположение в одном и том же пространстве торговых марок и потре-
бителей для выявления относительно однородных по восприятиям групп потребителей.
• Разработка нового товара. Многомерное шкалирование позволяет увидеть пробелы на
пространственной карте, которые указывают потенциальные возможности для разме-
щения новых товаров. Кроме того, этот анализ используют, чтобы с помощью тестиро-
вания оценить новый товар и существующие торговые марки и таким образом опреде-
лить, как потребители воспринимают новые идеи, заложенные в товаре. Доля предпоч-
тений для каждого нового товара служит индикатором успеха этого изделия.
Оценка эффективности рекламы. Пространственные карты можно использовать для оп-
Я
ределения эффективности рекламы с точки зрения занятия торговой маркой желаемого
положения на рынке.
• Ценовой анализ. Сравнение пространственных карт, разработанных с учетом и без учета
восприятия иены, позволяет определить влияние цены на поведение покупателей.
• Решение о числе каналов сбыта. Мнения респондентов о сопоставимости торговых марок
с различными торговыми точками могут привести к пространственным картам, полез-
ным для принятия решения о количестве каналов сбыта.
• Построение шкалы отношений. Методы многомерного шкалирования используются для
разработки соответствующей по размерности и конфигурации шкалы отношений.


СТАТИСТИКИ И ТЕРМИНЫ, ИСПОЛЬЗУЕМЫЕ
В МНОГОМЕРНОМ ШКАЛИРОВАНИИ
Ниже перечислены основные статистики, связанные с многомерным шкалированием.
• Оценка сходства (similarity judgments). Рейтинги всех возможных пар торговых марок или
других объектов, отражающие их сходство по шкале Лайкерта.
• Ранги предпочтений (preference rankings), Ранги торговых марок или других объектов в по-
рядке их уменьшения (от большего к меньшему). Обычно эти данные получают при опросе
респондентов.
• Стресс (stress). Мера соответствия подогнанной модели исходным данным: чем выше зна-
чение стресса, тем ниже качество подгонки модели.
• R-квадрат (R-square). R-квадрат— это квадрат коэффициента корреляции, который пока-
зывает долю дисперсии оптимально отображенных данных, которые могут быть учтены
ММШ. Мера соответствия подогнанной модели исходным данным.


778 Часть III. Сбор, подготовка и анализ данных
• Пространственная карта (spatial map). Воспринимаемые взаимосвязи между торговыми
марками или другими объектами, представленные в виде геометрических связей между
точками в многомерном пространстве.
• Координаты (coordinates). Указывают расположение торговых марок или объектов на про-
странственной карте.
• Развертка (unfolding). Представление торговых марок и респондентов в виде точек в одном
и том же пространстве.


ВЫПОЛНЕНИЕ МНОГОМЕРНОГО ШКАЛИРОВАНИЯ
На рис. 21.1 показаны этапы многомерного шкалирования.

Формулу




J Обозначение размерностей и интерпретация
конфигурации точек на пространственной карте



lie надежности и достоверности
.
Рис. 21.1. Многомерное шкалирование

Исследователь должен тщательно сформулировать проблему многомерного шкалирования,
поскольку можно использовать большое разнообразие исходных данных. Задача маркетолога —
определить соответствующую форму для получения данных и выбрать метод многомерного
шкалирования для их анализа. Важный аспект решения включает определение размерности
для пространственной карты. Кроме того, следует обозначить оси координат на карте и интер-
претировать выведенную на основе данных конфигурацию точек. И наконец, исследователь
должен оценить качество полученных результатов [4]. Мы опишем каждый из этих этапов, на-
чав с формулирования проблемы.

Формулирование проблемы
При формулировании проблемы исследователю необходимо конкретизировать цель ис-
пользования результатов многомерного шкалирования и выбрать торговые марки или дру-
гие объекты, которые предполагается проанализировать. Именно они определяют размер-
ность шкалирования и получаемые конфигурации. Чтобы получить хорошо определяемую
пространственную карту, следует включить как минимум восемь торговых марок или объек-
тов. Включение свыше 25 торговых марок, вероятно, будет громоздким и утомит респонден-
дов при опросе.


Глава 21. Многомерное шкалирование и совместный анализ 779
Очень внимательно надо подходить к выбору конкретных торговых марок или объек-
тов. Предположим, что исследователь заинтересован узнать восприятия покупателей ав-
томобилей. Если автомобили-люкс не включены в набор объектов, результаты могут быть
искажены. В основе выбора количества торговых марок и их конкретных наименований
должна лежать проблема, маркетингового исследования, теоретические предпосылки и
интуиция исследователя.
Многомерное шкалирование проиллюстрировано нами с позиции получения пространст-
венной карты для 10 известных марок зубной пасты: Aqua-Fresh, Crest, Colgate, Aim, Gleem,
Macleans, Ultra Brite, Close-Up, Pepsodent и Dentagard. Перед тем как начать анализ, ответим на
вопрос: как получить данные по этим маркам.

Получение исходных данных
Как показано на рис, 21.2, исходные данные, полученные от респондентов, должны быть
связаны с восприятиями или предпочтениями.

Исходные данные ММШ




Восприятия Предпочтения




Прямые подходы Непрямые подходы
(суждения респондентов о сходстве) (рейтинги характеристик)

Рис, 21.2. Исходные данные для многомерного шкалирования

Вначале мы обсудим данные, касающиеся восприятия объектов, которые могут быть пря-
мыми или непрямыми.
Восприятие объектов: прямые подходы. При использовании прямого подхода к сбору дан-
ных о восприятии респондентов просят оценить, используя их собственный критерий, на-
сколько похожи или не похожи между собой различные известные торговые марки. От респон-
дентов часто требуется оценить все возможные пары известных торговых марок, рассматривая
ш сходство по шкале Лайкерта. Эти данные связаны с оценками респондентов о сходстве това-
ров. Например, оценки сходства по всем возможным парам марок зубной пасты можно полу-
чить в таком виде.
Очень непохожи Очень положи
Crest п о сравнению с Colgate 1 2 3 4 5 6
Aqua-Fresh п о сравнению с Crest 1 2 3 4 5 6 7
Crest п о сравнению с A i m 1 2 3 4 5 6 7




Colgate п о сравнению с Aqua-Fresh 1 2 3 4 5 6 7

Число оцениваемых пар равно л.х(л — 1)/2, где п ˜ число объектов. Существуют и другие
методы сбора данных. Респондентов можно попросить проранжировать все возможные пары от
наиболее похожих к наименее похожим. В другом методе респонденты ранжируют известные


780 Часть III. Сбор, подготовка и анализ данных
торговые марки по сравнению с определенной базовой торговой маркой. Каждая торговая мар-
ка, в свою очередь, служит такой базой.
В нашем примере использовали прямой метод. Респондентов попросили высказать свое мне-
ние о сходстве для всех 45 (10 х 9/2) пар торговых марок зубной пасты, используя семибалльную
шкалу. Данные, полученные от одного из респондентов, представлены в табл. 21.1 [5].

Таблица 21.1. Рейтинги сходства известных торговых марок зубной пасты

Macleans Ultra Brite Close-Up Pepsodent Dentagard
Crest Co/gate Am G/eem

Aqua- Fresh
Crest 5
7
Colgate 6
6
Aim 6
4
2 3 4 5
Gieem
3 3 4 4 5
Macleans
;
2 3 5
2 5
Ultra Brite
?.
2 2 6
2
Close-Up 5 6
Pepsodent 2 2 2
2 6 6 7 6
1 2
2 4 4 3 3 4 3
Dentagard

Восприятие объектов: непрямые подходы. Непрямые подходы (derived approaches) к сбору
данных о восприятии основаны на характеристиках объектов и требуют, чтобы респонденты
оценивали объекты, исходя из их определенных характеристик, используя семантическую
дифференциальную шкалу или шкалу Лайкерта.

Непрямые подходы сбора данных в ММШ (derived approaches)
Методика сбора данных о восприятии в ММШ, основанная на характеристиках объектов и
требующая, чтобы респонденты оценивали объекты по определенным характеристикам с
использованием семантической дифференциальной шкалы или шкалы Лайкерта.

Например, различные марки зубной пасты можно оценить на основе следующих характе-
ристик:
Отбеливает зубы — — Не отбеливает зубы
Предотвращает кариес - — Не предотвращает раз-
витие кариеса




Приятный вкус Неприятный вкус
Иногда в набор объектов также включают идеальную торговую марку. Респондентов просят
оценить гипотетическую идеальную торговую марку по одному и тому же набору характери-
стик. Если атрибутивные рейтинги получены, то для каждой пары торговых марок выводят ме-
ру сходства (евклидово расстояние).
Прямые методы по сравнению с непрямыми методами. Прямые методы имеют то преиму-
щество, что исследователю не приходится определять набор явных характеристик. Респонденты
оценивают сходство объектов, используя собственный критерий. К недостаткам прямого под-
хода можно отнести то, что на критерий влияют рассматриваемые торговые марки. Если раз-
личные известные марки автомобилей находятся в одном псионом диапазоне, то цена не будет


Глава 21. Многомерное шкалирование и совместный анализ 781
важным фактором. Достаточно сложно определить перед началом анализа, надо ли и если надо,
то как объединять оценки респондентов. Более того, может быть затруднительно дать название
размерностям на пространственной карте.
Преимущество непрямого подхода состоит в том, что легко разделить респондентов на
однородные группы в соответствии с их отношением к объекту, т.е. исходя из оценок
свойств объекта. Также легко обозначить размерности на пространственной карте. Недос-
татком метода считается то, что исследователь должен определить все явные характери-
стики, а это непростая задача. На основе идентифицированных характеристик получают
пространственную карту.
Прямые подходы используют чаще, чем непрямые (атрибутивные). Однако лучше всего
использовать оба подхода как взаимодополняющие. Суждения респондентов о сходстве объек-
тов, полученные прямым методом, используются для получения пространственной карты, а
атрибутивные оценки — для интерпретации размерностей карты восприятий. Аналогичные
процедуры используют для данных, касающихся предпочтений респондентов.
Данные, касающиеся предпочтений респондентов. С помощью данных о предпочтениях
маркетолог-исследователь может увидеть порядок предпочтения объектов респондентами с
точки зрения какого-либо их свойства. Обычный способ получения таких данных — ранжиро-
вание предпочтений. От респондентов требуется проранжировать торговые марки в порядке
снижения их предпочтения (от наиболее предпочитаемого к наименее). Альтернативно, рес-
пондентов можно попросить выполнить попарное сравнение и указать, какую торговую марку
они предпочитают в данной паре. Другой метод сбора данных о предпочтениях — получение
оценок предпочтений для разных торговых марок. (Ранжирование, попарное сравнение и оп-
ределение рейтинга изложены в главах 8 и 9 при обсуждении методов шкалирования). Если в
основе пространственной карты лежат данные о предпочтениях, то расстояние означает разли-
чие в предпочтениях. Конфигурация, выведенная из данных о предпочтениях, может сильно
отличаться от конфигурации, полученной на основе данных сходства объектов. Две торговые
марки можно воспринимать как различные на карте восприятий, и как одинаковые на карте
предпочтений, и наоборот. Например, зубные пасты Crest и Pepsodent могут восприниматься
группой респондентов как совершенно разные, и поэтому соответствующие им точки будут да-
леко отстоять друг от друга на карте восприятий. Однако респонденты могут в равной степени
предпочитать эти две марки зубной пасты, и поэтому на карте предпочтений точки, соответст-
вующие маркам этих зубных паст, находятся недалеко одна от другой. Чтобы проиллюстриро-
вать процедуру многомерного шкалирования, мы используем данные восприятий, полученные
в примере с зубной пастой, а затем рассмотрим шкалирование данных о предпочтениях.

<<

стр. 28
(всего 35)

СОДЕРЖАНИЕ

>>