<<

стр. 27
(всего 35)

СОДЕРЖАНИЕ

>>

данной ситуации целесообразно рассмотреть два фактора.
Во второй колонке части табл. 19.3 под названием "Общности" дана информация после вы-
деления желаемого числа факторов. Общности в колонке "Выделенная" отличаются от значе-
ний в колонке "Начальная", поскольку всю дисперсию, соответствующую этим переменным,
нельзя объяснить, если не оставить в модели все факторы. В части таблицы под названием
"Сумма квадратов нагрузок выделенных факторов" даны дисперсии, соответствующие факто-


727
Глава 19. Факторный анализ
рам, которые оставили в модели. Обратите внимание, что их значения совпадают со значения-
ми дисперсий в колонке "Исходные собственные значения". Это характерно для анализа глав-
ных компонент. Процент дисперсии, объясненной фактором, определяют, разделив соответст-
вующее собственное значение на число факторов и умножив полученное значение на 100. Та-
ким образом, первый фактор объясняет (2,731/6) х 100, или 45,52%, от дисперсии,
соответствующей шести переменным. Аналогично, второй фактор объясняет (2,218/6) х 100,
или 36,969% полной дисперсии. Интерпретация решения часто становится более ясной после
вращения факторов.

Вращение факторов
Важный результат факторного анализа— матрица факторных нагрузок, также называемая
матрицей факторного отображения (factor pattern matrix). Она содержит коэффициенты, ис-
пользуемые для выражения нормированных переменных через факторы. Эти коэффициенты,
называемые факторными нагрузками, представляют корреляции между факторами и перемен-
ными. Коэффициент с высоким абсолютным значением показывает, что фактор и переменная
тесно взаимосвязаны. Коэффициенты матрицы факторных нагрузок можно использовать для
интерпретации факторов.
Несмотря на то, что матрица исходных или неповернутых факторов указывает на взаимо-
связь факторов и отдельных переменных, она редко приводит к факторам, которые можно ин-
терпретировать, поскольку факторы коррелируют со многими переменными. Например, в
табл. 19.3 фактор 1, по крайней мере, частично связан с пятью из шести переменных
(абсолютное значение факторной нагрузки больше 0,3). Как интерпретировать этот фактор? В
такой сложной матрице это трудно. Поэтому вращением матрицу факторных коэффициентов
преобразуют в более простую, которую легче интерпретировать.
При вращении факторов желательно, чтобы каждый фактор имел ненулевые или значи-
мые нагрузки (коэффициенты) только для небольшого числа переменных. Аналогично, же-
лательно, чтобы каждая переменная имела ненулевые или значимые нагрузки с небольшим
числом фактором, если можно, то с одним фактором. Если несколько факторов имеют высо-
кие значения факторных нагрузок с одной и той же переменной, то их трудно интерпретиро-
вать. Вращение не влияет на общности и процент объясненной полной дисперсии. Однако
процент дисперсии, обусловленной влиянием каждого фактора, изменяется. Это видно из
данных табл. 19.3. В результате вращения дисперсия, объясняемая каждым фактором, пере-
распределилась. Следовательно, разные методы вращения помогают интерпретировать раз-
личные факторы.
Вращение называют ортогональным вращением (orthogonal rotation), если при вращении со-
храняется прямоугольная система координат.

Ортогональное вращение (orthogonal rotation)
Вращение факторов, при котором сохраняется прямоугольная система координат.

Самый распространенный метод вращения — метод варимакс (вращение, максимизирующее
дисперсию) (varimax procedure).

Метод варимакс, или вращение, максимизирующее дисперсию) (varimax procedure)
Ортогональный метод вращения факторов, который минимизирует число переменных с вы-
сокими значениями нагрузок, усиливая тем самым интерпретируемость факторов.

Это ортогональный метод вращения, который минимизирует число переменных с высоки-
ми значениями нагрузок, усиливая тем самым интерпретируемость факторов [9]. В результате
ортогонального вращения получают некоррелированные факторы. Вращение называют косо-
угольным вращением (oblique rotation), если не сохраняется прямоугльная система координат и в
результате вращения получают коррелированные факторы.


728 Часть III. Сбор, подготовка и анализ данных
Косоугольное вращение (oblique rotation)
Вращение факторов, при котором не сохраняется прямоугольная система координат.

Иногда, допустив некоторую корреляцию между факторами, можно упростить матрицу
факторной модели. Косоугольное вращение используется тогда, когда факторы в генеральной
совокупности, вероятно, тесно взаимосвязаны.
Сравнив в табл. 19.3 матрицу факторных нагрузок, полученную после применения метода
врашения варимакс, с матрицей факторных нагрузок до вращения (часть таблицы под назва-
нием "Матрица факторных нагрузок"), мы увидим, как вращение упрощает и усиливает ин-
терпретируемость факторов. В то время как в неповернутой матрице пять переменных коррели-
руют с фактором I, после вращения с фактором 1 коррелируют только переменные Уг, V3, У5.
Остальные переменные Уъ У4 и У6 коррелируют с фактором 2. Более того, ни одна из перемен-
ных не коррелирует достаточно сильно с обоими факторами. Повернутая матрица создает осно-
ву для интерпретации факторов.
-
Интерпретация факторов
Для интерпретации факторов необходимо определить переменные, которые имеют высокие
значения нагрузок по одному и тому же фактору. А затем этот фактор следует проанализировать
с учетом этих переменных. Другое полезное средство интерпретации — графическое изображе-
ние переменных, координатами которых служат величины факторных нагрузок. Так, в конце
оси расположены переменные, которые имеют большие нагрузки только в связи с этим факто-
ром и, следовательно, характеризуют его. Переменные в начале координат имеют небольшие
нагрузки в связи с обоими факторами. Переменные, расположенные вдали от осей, связаны с
обоими факторами. Если фактор нельзя четко определить с точки зрения связи с исходными
переменными, то его следует пометить как неопределяемый или генеральный (общий для всех
переменных).




я1



-0,5'




-1.0 -0,5 0,0 0,5 1
Фам op 1

Рис, 19.3. Диаграмма факторных нагрузок

В повернутой матрице из табл. 19.3 фактор 1 имеет высокие коэффициенты для перемен-
ных Г, (предотвращение кариеса), К, (укрепление десен), и отрицательный коэффициент для
переменной К5 (предотвращение порчи зубов не считается важным при покупке зубной пасты).
Следовательно, этот фактор можно назвать фактором, укрепляющим здоровье. Обратите вни-
мание, что отрицательный коэффициент для негативной переменной К5 ведет к положитель-
ной интерпретации этого фактора, а именно, предотвращение порчи зубов будет важным при
покупке зубной пасты. Фактор 2 тесно связан с переменными К2 (белизна зубов), Vt (свежее
дыхание) и К6 (привлекательность внешнего вида зубов). Таким образом, фактор 2 можно по-


729
Глава 19. Факторный анализ
метить как фактор, отвечающий за внешний вид. Диаграмма факторных нагрузок на рис. 19.3
подтверждает эту интерпретацию факторов.
Переменные FJ, К3, Vs (обозначенные на диаграмме 1, 3 и 5 соответственно) находятся на
конце горизонтальной оси, причем точка, соответствующая К5, находится на конце, противо-
положном месту расположения точек, соответствующих V{ и У3. В то же время переменные У2,
К4 и Vb (обозначенные на диаграмме 2, 4 и 6 соответственно) расположены на конце вертикаль-
ной оси (фактор 2). Можно обобщить данные, сделав вывод, что потребители, по-видимому,
стремятся извлечь двойную пользу из зубной пасты: укрепить здоровье и приобрести хороший
внешний вид.

Вычисление значения фактора
После интерпретации факторов необходимо вычислить их значения. Факторный анализ
имеет собственную ценность. Однако если цель факторного анализа заключается в снижении
исходного числа переменных до небольшого набора составных переменных (факторов), кото-
рые в дальнейшем используются в многомерном анализе, то имеет смысл вычислить для каж-
дого респондента значение фактора. Фактор представляет собой линейную комбинацию ис-
ходных переменных. Значение для /-го фактора можно вычислить по формуле


Обозначения в этой формуле аналогичны приведенным выше.
Веса или коэффициенты значения фактора, используемые для объединения нормирован-
ных переменных, получают из матрицы коэффициентов значения фактора. Большинство ком-
пьютерных программ позволяет вычислить значения факторов. Только в анализе главных ком-
понент можно вычислить точные значения факторов.

Значение фактора (factor scores)
Суммарное значение, полученное для каждого респондента на основании всех факторов.

Более того, в анализе главных компонент эти значения не взаимосвязаны. В анализе общих
факторов оценки значений факторов получают, но нет гарантии, что факторы не будут корре-
лировать между собой. Значения факторов можно использовать вместо исходных переменных в
последующем многомерном анализе. Например, используя матрицу коэффициентов значения
фактора в табл. 19.3, можно вычислить два значения фактора для каждого респондента. Если
нормированные значения переменной умножить на соответствующий коэффициент значения
фактора, то получится значение данного фактора.

Отбор переменных-заменителей
Иногда, вместо вычисления значений факторов, исследователь может выбрать перемен-
ные-заменители. Выбор переменных-заменителей (surrogate variables), заключается в выделении
нескольких из исходных переменных для использования их в последующем анализе,

Переменные-заменители (surrogate variables)
Часть набора исходных переменных, выбранных для последующего анализа.

Это позволит выполнить последующий анализ и интерпретировать результаты с точки зре-
ния исходных переменных, а не значения факторов. Из матрицы факторных коэффициентов
можно выбрать для каждого фактора переменную с наивысшим значением нагрузки на дан-
ный фактор. Затем эту переменную используют в качестве перемен ной-заменителя для соответ-
ствующего фактора. Этот процесс протекает гладко, если одна из факторных нагрузок перемен-
ной значительно выше остальных. Однако сделать выбор не так легко, если нагрузки двух или
больше переменных одинаково высокие. В таком случае выбор осуществляют, исходя из теоре-

730 Часть III. Сбор, подготовка и анализ данных
тических предпосылок. Например, теоретически предполагают, что переменная с несколько
меньшей нагрузкой важнее, чем переменная с несколько большей нагрузкой. Аналогично, если
переменная имеет несколько меньшую, но более точно измеренную нагрузку, то в качестве пе-
ременной-имитатора следует выбрать именно ее. В табл. 19.3 переменные V}, V^ и ?s имеют вы-
сокие нагрузки в связи с фактором 1, причем достаточно близкие по величине. Переменная F,
имеет относительно самое высокое значение и поэтому должна была бы оказаться вероятным
кандидатом в переменные-имитаторы. Однако, исходя из предварительной информации, са-
мым важным при выборе зубной пасты является ее способность предотвращать порчу зубов, и
поэтому в качестве переменной-заменителя для фактора 1 должна быть выбрана переменная У5.
Осуществить выбор переменной-заменителя для фактора 2 также непросто. Переменные Уг, К,
и Vk имеют сопоставимо высокие значения нагрузок на этот фактор. Если предварительная ин-
формация свидетельствует, что привлекательность внешнего вида зубов — важнейший аспект
общего внешнего вида, то следует выбрать переменную Vb.

Определение подгонки модели
Последняя стадия факторного анализа заключается в определении соответствия модели
факторного анализа исходным данным, т.е. степени ее подгонки. Основное допущение, лежа-
щее в основе факторного анализа, состоит в том, что наблюдаемая корреляция между перемен-
ными может быть свойственна общим факторам. Следовательно, корреляции между перемен-
ными можно вывести или воспроизвести из определенных корреляций между переменными и
факторами. Изучив разности между наблюдаемыми корреляциями (данными в исходной кор-
реляционной матрице) и вычисленными корреляциями (определенными из матрицы фактор-
ных нагрузок), можно определить соответствие модели исходным данным. Эти разности назы-
вают остатками (residuals). Если много остатков с большими значениями, то факторная модель
не обеспечивает хорошее соответствие данным и требует пересмотра. Из данных табл. 19.3 вид-
но, что только значение пяти остатков превышает 0,05, свидетельствуя тем самым о приемле-
мом соответствии модели данным.
Следующий пример иллюстрирует анализ главных компонент с точки зрения продвижения
товара.

ПРИМЕР. Компоненты, влияющие на продвижение на рынок промышленных
товаров
Цель этого исследования — определить достаточно большой набор контролируемых
производителем переменных, имеющих отношение к продвижению его товаров в рознич-
ную торговую сеть, и показать, что существует связь между этими переменными и реше-
нием розничного торговца о поддержке усилий производителя по продвижению товара.
Решения о поддержке определяли по отношению розничного торговца к усилиям по про-
движению товара.
Факторный анализ выполнили по объясняющим переменным, руководствуясь главной
целью — снизить количество переменных. Методом главных компонент с использованием
метода вращения варимакс уменьшили 30 объясняющих переменных до 8 факторов с собст-
венными значениями выше 1,0. Для интерпретации каждый фактор включал в себя пере-
менные с нагрузками на этот фактор от 0,40 и выше. В двух случаях, когда переменные име-
ли нагрузки 0,40 и выше на два фактора, каждой переменной присвоили один фактор, на-
грузка на который была выше. Только одна переменная "легкость погрузочно-раэгрузочных
работ, накопление запасов в торговых точках" не имела нагрузки, по крайней мере, равной
0,4, ни на один из факторов. В целом, 8 факторов объясняли 62% суммарной дисперсии.
Интерпретация матрицы факторных нагрузок оказалась несложной. В табл. 1 перечислены
факторы в порядке их выделения.




Глава 19. Факторный анализ 731
Таблица 1. Факторы, влияющие на принятие решения о поддержке в продвижении товара
фактор Интерпретация фактора Нагрузка Переменные, включенные в фактор
(объясненный процент дисперсии)
Важность товара (16,3%) 0,77 Товар достаточно важен для того, чтобы гарантировать
его продвижение
0,75 Данная категория товара хорошо реагирует на рекламу
0,66 Вероятно, наиболее близкий конкурент занимается про-
движением данного товара
0,64 Значимость продвигаемой категории товара
0,59 Товар имеет постоянный объем продаж
0,57 Сделка соответствует требованиям обеспечения продви-
жения товара
Оценка покупателями увеличения объема продаж основа-
Эластичность продвижения товара на
на на следующем:
рынок (9,3%)
0,86 Снижение цены и демонстрация товара
0,82 Только демонстрация товара
0,80 Только снижение цены
0,70 Снижение цены, демонстрация, рекламная кампания
Поддержка торговой марки производителем в форме:
Поддержка торговой марки произво-
дителем (8,2%)
Купонов
0,В5
Радио- и телевизионной рекламы
0,81
Рекламы в газетах
0,80
Содействие продвижению товара в местах его продажи
0,75
(например, выставки)
Общая репутация производителя
О 72
Репутация производителя (7,3%)
Производитель идет навстречу пожеланиям торговли
0,72
Производитель сотрудничает с продавцом в случае экс-
0,64
тренных заказах, встречного пробега и т.д.
Качество представления продаж
0,55
Суммарное качество товара производителя
0,51
Истощение продвижения товара Чрезмерное продвижение категории
0,93
(6,4%)
Избыток конкретного товара
093
Ранг доли рынка торговой марки3
-0,81
Оборачиваемость продаж (5,4%)
Постоянный объем продаж (данного) товара3
0,69
Постоянный объем продаж (данного) товара
0,46
Рентабельность товара (4,5%) Постоянная валовая прибыль (от продажи) товара
0,79
Постоянная валовая прибыль (от продажи) товара3
0,72
Разумность требований по выполнению соглашения
0,49
Абсолютная сумма скидок по соглашениям
F, Сумма поощрения (4,2%) 0,83
Скидки по соглашениям как процент регулярной торговой
0,81
стоимости(цены)а
Абсолютная сумма скидок по соглашениям3
0,49
Приводится по объективным показателям.


Часть III. Сбор, подготовка и анализ данных
732
Для того чтобы определить, какой из восьми факторов (если такой фактор существует)
предсказывает содействие продвижению товара на рынок в статистически значимой степе-
ни, выполнен пошаговый дискриминантный анализ. Значения всех восьми факторов вы-
ступают объясняющими переменными. Зависимая переменная состоит из оценки
(рейтинга) розничным торговцем деловых отношений с производителем, которую разбива-
ют на три группы, в зависимости от степени содействия в продвижении товара (низкая,
средняя, высокая). Результаты дискриминантного анализа приведены в табл. 2.
Таблица 2. Результаты дискриминантного анализа: анализ по рейтингу
и эффективности (п = 564)
Нормированные коэффициенты дискриминантной функции

Фактор Функция 1 Функция Z

F\ Важность товара 0,861 - 0,253
FZ Эластичность продвижения товара на рынок 0,081 0,398
FS Поддержка торговой марки производителем 0,127 -0,036
Репутация производителя 0,394 0,014
Истощение продвижения товара - 0,207 0,380
| Fe Оборачиваемость продаж 0,033 - 0,665
j FT Рентабельность товара 0,614 0,357
Сумма поощрения 0,461 0,254
Коэффициент А, (для каждого фактора) — все значимы при р < 0,001
Значения F-статистик для многомерной выборки — все значимы при р < 0,001
1
Процент правильно классифицированных случаев — 65% (t = 14,4; р < 0,001)

Все восемь факторов присутствуют в дискриминантных функциях. Критерии согласия
i указали на то, что все восемь факторов дискриминировали (различали) высокий, средний и
| низкий уровни содействия продажи товара, .^-статистики для многомерной выборки, ука-
? зываюшие на степень дискриминации между каждой парой групп, были значимыми при р
I < 0,001. 65% случаев было верно отнесено к высокому, среднему и низкому уровню содейст-
| вия продвижению товаров. Использовался порядок введения в дискриминантный анализ.
I Для того чтобы определить относительную важность факторов, влияющих на содействие
i торговле, факторы в дискриминантную функцию вводили в порядке, указанном в
j табл. 3 [10],
I Таблица 3. Относительная важность факторов, влияющих на содействие торговле
i (показано с помощью порядка ввода в дискриминантный анализ)
I Анализ рейтинга

I Порядок ввода Название фактора
1 Важность товара
2 Эластичность продвижения товара на рынок
3 Поддержка торговой марки производителем
4 Репутация производителя
15 Истощение продвижения товара
о Оборачиваемость продаж
7 Рентабельность товара
Сумма поощрения

В следующем разделе описан анализ общих факторов с примерами применения этого метода.


Глава 19. Факторный анализ 733
ПРИМЕНЕНИЕ АНАЛИЗА ОБЩИХ ФАКТОРОВ
Данные табл. 19.1 можно проанализировать, используя модель анализа общих факторов.
С этой целью в диагональ матрицы вместо единиц вставили общности (относительные диспер-
сии общих факторов). Результаты, представленные в табл. 19.4, аналогичны результатам, полу-
ченным в ходе анализа главных компонент, приведенным в табл. 19.3.

Таблица 19,4. Результаты анализа общих факторов
Критерий сферичности Бартлетта
Приближенное значение статистики хи-квадрат˜ 111,314; число степеней свободы- 15; значимость —0,00000
Критерий адекватности выборки Кайзера-Мейера-Олкина — 0,660
Общности
Переменная Начальная Выделенная

V, 0,856 0,928
ъ 0,480 0,562
V, 0,814 0,836
VA 0,543 0,600
V* 0,763 0,789
V, 0,587 0,723
Исходные собственные значения

Фактор Собственное значение Процент дисперсии Кумулятивный процент

1 2,731 45,520 45,520
2 2,218 36,969 82,488
3 0,442 7,360 89,848
4 0,341 5,688 95,536
5 3,044
0,183 98,580
6 1,420
0,085 100,000
Сумма квадратов нагрузок для выделенных факторов
Фактор Собственное значение Процент дисперсии Кумулятивный процент

1 2,570 42,837 42,837
2 1,868 31,126 73,964
Матрица факторных нагрузок

Фактор 1 Фактор 2

0,168
0,949
И
Ъ - 0,206 0,720
0,914
16 0,038
-0,246 0,734
^4
V, -0,850 - 0,259
V, 0,844
-0,101
Суммы квадратов факторных нагрузок после вращения факторов

Фактор Собственное значение Процент дисперсии Кумулятивный процент

2,541 42,343 42,343
1,897 31,621 73,964


Часть III. Сбор, подготовка и анализ данных
734
Окончание табл. 19.4
Матрица факторных нагрузок после вращения факторов
Фактор 1 Фактор 2
- 0,030
V, 0,963
- 0,054
И2 0,747
-0,150
Из 0,902
0,769
И4 - 0,090
- 0,079
1/5 - 0,885
1/6 0,075 0,847
Матрица коэффициентов значения факторов
Фактор 1 Фактор 2
YI 0,628 0,101
V2 - 0,024 0,253
-0,169
Из 0,217
И* -0,023 0,271
- 0,059
1/5 -0,166
И6 0,083 0,500
Вычисленная корреляционная матрица
V3 V< VS VS
V, Уг
И, 0,928' 0,022 -0,000 0,024 -0,008 -0,042
Иг - 0,075 0,562* 0,006 -0,008 0,031 0,012
И3 0,873 -0,161 0,836' - 0,051 0,008 0,042
-0,197 0,600* -0,025 -0,004
И* -0,110 0,580
-0,786 0,019 0,789* -0,003
И5 -0,850 -0,012
-0,060 0,645 -0,133 0,723*
И6 0,046 0,629
'Нижний левый треугольник содержит вычисленную корреляционную матрицу; диагональ — общности; верхний правый тре-
угольник — остатки между наблюдаемыми и вычисленными корреляциями.
В колонке "Начальная" той части таблицы, которая озаглавлена "Общности", значения
общностей для переменных не превышают 1,0. Исходя из критерия собственного значения,
снова (как и в анализе главных компонент) выделили два фактора. Значения дисперсий после
выделения факторов отличались от их исходных собственных значений. Первый фактор объ-
ясняет 42,84% дисперсии, а второй — 31,13%, в каждом случае немного меньше, чем это на-
блюдалось в анализе главных компонент.
Значения факторных нагрузок в матрице факторной модели до вращения факторов, дан-
ные в табл. 19.4, немного отличаются от значений факторных нагрузок в табл. 19.3, хотя
структура нагрузок аналогична. Однако иногда структура нагрузок в анализе общих факто-
ров отличается от таковой в анализе главных компонент по некоторым нагрузкам перемен-
ных на различные факторы. Матрица факторной модели после вращения факторов имеет
структуру нагрузок, аналогичную структуре нагрузок в табл. 19.3, что приводит к аналогич-
ной интерпретации факторов.
Рассмотрим еще один пример анализа общих факторов в контексте восприятия потребите-
лями скидок.




Глава 19. Факторный анализ 735
ПРИМЕР. Восприятие скидок
Скидки — эффективное средство привлечения новых потребителей, переключения их на
другую торговую марку и стимул для повторных покупок. Маркетологи определили и иссле-
довали факторы, лежащие в основе восприятия потребителями скидок. Для этого разработа-
ли анкету из 24 утверждений, которые отражали потребительское восприятие. Далее респон-
дентов попросили выразить степень согласия с этими утверждениями по пятибалльной
шкале Лайкерта. Данные собрали в Мемфисе по телефону. Всего было получено 303 анкеты.
24 утверждения, измеряющие восприятие потребителями скидок, проанализировали
методом общих факторов. Первоначальный вариант полученных факторов не выявил
простой структуры латентных переменных. Поэтому переменные с низкими нагрузками
удалили из шкалы и выполнили факторный анализ по оставшимся пунктам. Это второе
решение привело к трем интерпретируемым факторам. Факторные нагрузки даны в рас-
положенной ниже таблице.
Факторный анализ восприятий скидок
Оцениваемые пункты' Факторные нагрузки
Фактор 1 Фактор 2 Фактор 3
Производители слишком усложняют процесс скидок 0,194 0.671 ˜ QJ27
Почтовые скидки не стоят хлопот, связанных с ними - 0,031 0,612 0,352
Слишком много времени занимает получение чека на скидку от производителя 0,013 Q.71B 0,051
Производители могли бы делать больше для облегчения процесса использования 0,205 (Щ6 0,173
скидок
Производители предлагают скидки, поскольку потребителям это нравится" 0,660 0,172 0,101
В настоящее время производители заинтересованы в благосостоянии потребителей" 0L5_6_9 0,203 0,334
Выгода для потребителей обычно стоит на первом месте при предложении скидок" 0,660 0,002 0,318
В целом, производители искренни в своем предложении скидок потребителям" 0,716 0,047 - 0,033
Производители предлагают скидки, чтобы побудить потребителей купить что-то, в 0,099 0,156 0.744
чем они на самом деле не нуждаются
Производители используют предложения скидок, чтобы заставить потребителей 0,090 0,027 0.702
купить неходовой товар
Предложение скидки провоцирует вас купить продукт, больше необходимого коли- 0,230 0,066 0.527
чества
!

Собственные значения 2,030 1,344 1,062
Процент объясненной дисперсии 27,500 12,2 9,700
'Категориями ответов для всех пунктов были: полностью согласен (1}, согласен (2), и не то, чтобы да, и не то, чтобы нет (3),
не согласен )4|, совсем не согласен (5), не знаю (6). Ответы "Не знаю" исключили из анализа.
"Баллы ло этим пунктам изменили на противоположные.
Три фактора включали четыре, четыре и три пункта соответственно (соответствующие фак-
торные нагрузки в таблице подчеркнуты). Фактор 1, по представлению маркетологов, воплотил
в себе потребительское восприятие усилий и трудностей, связанных со скидками (усилия).
Фактор 2 представляет потребительское доверие к системе скидок (доверие). Фактор 3 пред-
ставляет восприятие потребителями мотивов производителей для предложения скидок
(мотивы). Нагрузки пунктов на соответствующие факторы варьируют от 0,527 до 0,744 [И].

Обратите внимание, что в этом примере, когда первоначальное решение для фактора оказа-
лось неинтерпретируемым, пункты с небольшими нагрузками были исключены, и факторный
анализ выполнили по оставшимся пунктам. Если число переменных велико (больше 15), ана-
лиз главных компонент и анализ общих факторов приводят к одинаковым решениям. Однако


Часть III. Сбор, подготовка и анализ данных
736
анализ главных компонент меньше подвержен ошибочной интерпретации, и поэтому его ре-
комендуют неопытным аналитикам. Врезка 19.1 "Практика маркетинговых исследований" ил-
люстрирует применение анализа главных компонент в международных маркетинговых иссле-
дованиях [12], а врезка 19.2 "Практика маркетинговых исследований" представляет приложе-
ние факторного анализа к изучению проблем этики [13].

Врезка 19.1. Практика маркетинговых исследований

Секреты "жуков"
Со временем потребности и вкусы потребителей обычно меняются. Предпочтения по-
требителей по отношению к автомобилям следует постоянно отслеживать для определения
изменяющегося спроса и технических требований. Однако есть и одно исключение — это
"жук" фирмы Volkswagen, С момента начала их выпуска в 1938 году произведено свыше 21
миллиона этих автомобилей. В разных странах провели ряд исследований, чтобы установить
причины, почему покупают автомобили этой марки. Анализ главных компонент перемен-
ных, отражающих причины приобретения автомобиля "жук", выявил один доминирующий
фактор — фанатическое пристрастие. Водители глубоко преданы этому шумному и малень-
кому '"насекомому". В настоящее время старых "жуков" ищут повсюду. "Японцы стремятся
узнать все до болтика об этом автомобиле", — говорит Джек Финн (Jack Finn), реставратор
старых "жуков" из Западного Палм-Бич, штат Флорида. Учитывая высокую преданность
"жукам", фирма Volkswagen репозиционпровала "жука", создав новый блестящий VW Passat,
дорогой автомобиль высокого качества, который создает имидж изысканности и высокого
класса в противоположность старой модели, которая была символом дешевого автомобиля.


Врезка 19.2. Практика маркетинговых исследований

Факторы, предсказывающие неэтичное поведение при проведении маркетинговых исследовании
Чтобы выявить переменные, влияющие на неэтичную практику маркетинговых иссле-
дований, было опрошено 420 специалистов по маркетингу. Их попросили дать оценку по
нескольким шкалам ряда переменных и оценить 15 практических исследований, в которых
были выявлены этические проблемы.
Одна из этих шкал включала 11 пунктов, касающихся степени распространенности этиче-
ских проблем, которые присущи компании, и действий, которые предпринимает высшая ад-
министрация по отношению к неэтичному поведению сотрудников. Анализ главных компо-
нент с вращением факторов методом варимакс показал, что данные можно представить двумя
факторами. Затем эти два фактора использовали во множественном регрессионном анализе на-
ряду с четырьмя другими независимыми переменными. Результаты показали, что существуют
два предиктора неэтичной практики проведения маркетинговых исследований.
Факторный анализ проблем этики и оценки действий высшей администрации
Наличие этиче- Отношение ру-
ских проблем ководства ком-
внутри компании пании к этике
(фактор 1) (фактор 2)
1, Удачливые работники в моей компании подрывают 0,66
авторитет соперников в глазах влиятельных лиц моей
компании
2. Работники одного со мной круга часто ведут себя не- 0,68
этично



737
Глава 19. Факторный анализ
3. Существует много возможностей для рядовых работ- 0,43
ников в моей компании вести себя неэтично
4. Удачливые работники в моей компании воплощают в 0,81
жизнь чужие идеи
5. Чтобы преуспеть в моей компании, часто необходимо 0,64
идти на компромисс в вопросах этики
6. Преуспевающие работники в моей компании обычно 0,64
отличаются менее этичным поведением, чем непреус-
певающие
7. Преуспевающие работники в моей компании ищут 0,78
"козла отпущения", если они чувствуют, что их могут в
чем-либо обвинить (в плане работы)
8. Удачливые работники в моей компании скрывают 0,68
информацию, если она может навредить их личным
интересам
9. Высшая администрация в моей компании недву- 0,73
смысленно дает понять, что неэтичное поведение недо-
пустимо
10. Если обнаружат, что работник в моей компании за- 0,80
мешан в неэтичном поведении, которое выразилось,
главным образом, в получении личной прибыли (а не
корпоративной), то на него сразу же наложат дисцип-
линарное взыскание
11.Если обнаружат, что работник в моей компании за- 0,78
мешан в неэтичном поведении, которое выразилось,
главным образом, в получении корпоративной прибы-
ли, то на него сразу же наложат дисциплинарное взы-
скание
Собственное значение 5,06 1,17
Процент объясненной дисперсии 46% 11%
Коэффициент альфа 0,87 0,75
Для упрощения таблицы приведены только факторные нагрузки, полученные после вра-
щения факторов, которые равны 0,40 и больше этого значения. Каждое утверждение оценива-
ли по пятибалльной шкале в диапазоне от 1 — полностью согласен до 5 — совсем несогласен.



В центре внимания Burke

Подход специалистов Burke к цели факторного анализа можно выразить одним словом —
упрощение! Как правило, интервьюеры компании Burke задают респондентам много вопро-
сов, часть из которых высоко коррелированы между собой. Независимо от того, используется
факторный анализ для уточнения того, какие из вопросов служат для измерения одних и тех
же базовых понятий, или же с его помощью формируются предикторы для последующего
регрессионного анализа, маркетологи Burke всегда осторожно подходят к интерпретации
результатов.
В качестве примера рассмотрим один из недавних проектов, осуществленный компанией
Burke, в котором использовались 16 вопросов (т.е. 16 переменных). На основании корреля-
ционной матрицы проведен анализ главных компонент, в результате которого маркетологи
выделили пять факторов или компонент. Дальнейшее вращение факторов методом вари-
макс показало, что компонент 5 представляет собой, по сути, компонент "одного вопроса1'


Часть III. Сбор, подготовка и анализ данных
738
(чтобы прояснить картину, мы опустили нагрузки, значения которых меньше 0,40). Обрати-
те внимание на вопросы, которые дают нагрузку на первый повернутый компонент.
Матрица повернутых компонентов'
Компонент
1 2 3 4 5
1/01 -0,649
1/02 0,460 0,720
V03 0,873
V04 0,553 0,675
У 05 0,840
1/06 0,683
У 07 0,857
V 08 0,881
1/09 0,898
/10 0,472
1/11 0,697
V12 0,826
V13 0,764
1/14 0,701
1/15 0,860
1/16 0,578 0,617
Метод выделения факторов: анализ главных компонент.
Метод вращения факторов: варимакс с нормированием Кайзера.
'Вращение проведено за 6 итераций.
Отбрасываем компонент "одного вопроса", и оставляем решение с четырьмя компонен-
тами. Обратите внимание, что теперь вопрос К10 отчасти связан с переменными 2, 8 и 14, хо-
тя раньше он был частично связан с вопросами компонента 1. Вопрос К14 теперь меньше
связан с компонентом 1, чем в первом решении с пятью компонентами. Структура факторов
2 и 3 остается стабильной для двух решений.
Матрица повернутых компонент*
Компонент
1 2 3 4
1/01
1/02 0,813
I/03
1/04 0,516 0,662
1/05 0,837
1/06 0,672
1/07 0,843
1/08 0,817
V09 0,870
V10 0,436




Глава 19. Факторный анализ 739
V11 0,679
1/12 0,734
1/13 0,810
1/14 0,589 0,438
V15 0,860
1/16 0,550 0,604

Метод выделения факторов: анализ главных компонент.
Метод вращения факторов: варимакс с нормированием Кайзера.
'Вращение проведено за 5 итераций.
Изложенное выше позволяет высказать некоторые соображения в плане выполнения
анализа.
1. Не все вопросы обязательно коррелируются с другими вопросами в такой степени,
чтобы образовать самостоятельный компонент. Очень часто причина этого заключа-
ется в двусмысленности вопроса или же все респонденты ответят на него очень схо-
жим образом. Обратите внимание на такой вопрос и проверьте, правильно ли он
сформулирован.
2. Величины факторных нагрузок могут измениться, если вы вращаете разное число ком-
понент. Посмотрите на самые стабильные вопросы (по нагрузкам) для интерпретации
результатов. Даже высокая нагрузка на компонент не означает, что существует взаимо-
связь, которая сохранится в условиях вращения разного числа факторов (посмотрите на
вопрос 14 при первом пятикомпонентном решении).
3. И последнее замечание. Величины факторных нагрузок переменных, входящих в
структуру фактора, свидетельствует об относительном, а не абсолютном, значениях
корреляций между вопросами. Можно разделить все корреляции в этой матрице на 10
и те же вопросы будут нагружать те же компоненты после вращения компонент ...
только факторные нагрузки будут меньше. Нельзя считать, что если факторные на-
грузки вопросов входят в структуру одного и тотго же компонента, то они сильно
взаимосвязаны. Сила связи определяется долей дисперсии в исходной переменной,
которая улавливается фактором.



ИСПОЛЬЗОВАНИЕ INTERNET И КОМПЬЮТЕРА
Существуют компьютерные программы для выполнения обоих подходов к проведению
факторного анализа — методом анализа главных компонент и анализа общих факторов. В про-
граммном пакете SPSS можно использовать программу FACTOR для анализа главных компо-
нент, так же как и для анализа общих факторов. Доступны и другие методы факторного ана-
лиза и вычисления значения фактора.
В пакете SAS с помощью программы PRINCOMP выполняют анализ главных компонент и
вычисляют их значения. Для выполнения анализа общих факторов можно использовать про-
грамму FACTOR. Программа FACTOR также выполняет анализ главных компонент. В пакете
BMDP можно выполнить анализ главных компонент и анализ общих факторов с помощью
программы 4М [14].
В программе Minitab можно выполнить факторный анализ с помощью опции Multivari-
ate>Factor analysis, используя главные компоненты или метод максимума правдоподобия для
исходного выделения факторов. При использовании метода максимума правдоподобия опре-
делите количество выделяемых факторов. Если количество не установлено при выделении
главных компонент, то программа установит количество, равное количеству переменных в на-
боре данных. Выполнение факторного анализа недоступно в Excel (версия 7.0 для PC).



740 Часть III. Сбор, подготовка и анализ данных
РЕЗЮМЕ
Факторный анализ — это общее название для класса методов, используемых, главным об-
разом, для сокращения числа переменных и их обобщения. Каждую переменную выражают как
линейную комбинацию латентных факторов. Аналогично, сами факторы можно выразить как
линейную комбинацию наблюдаемых переменных. Факторы выделяют таким образом, что
первый фактор объясняет самую высокую долю дисперсии, второй — следующую по величине
долю дисперсии и т.д. Кроме того, можно выделить факторы так, что они будут некоррелиро-
ванными, как это и делают в анализе главных компонент.
При формулировании проблемы факторного анализа переменные, включаемые в фактор-
ный анализ, задаются, исходя из прошлых исследований, теоретических выкладок и по усмот-
рению исследователя. Эти переменные измеряются в интервальной или относительной шкале.
В основе факторного анализа лежит матрица корреляций между переменными. Приемлемость
корреляционной матрицы для факторного анализа определяется статистической проверкой.
Существует два основных метода проведения факторного анализа — анализ главных ком-
понент и анализ общих факторов. В анализе главных компонент учитывается полная диспер-
сия. Анализ главных компонент рекомендуется, если основная задача исследователя — опреде-
ление минимального числа факторов, которые вносят максимальный вклад в дисперсию, что-
бы в последующем использовать их во многомерном анализе. В анализе общих факторов
факторы оценивают только по общей (для всех факторов) дисперсии. Этот метод подходит, ес-
ли основная задача — определение факторов, лежащих в основе изучаемой переменной, и об-
щей дисперсии. Этот метод также известен как разложение матрицы.
Число выделяемых факторов определяется, исходя из предварительной информации; соб-
ственных значений факторов; критерия ''каменистой осыпи"; процента объясненной диспер-
сии; метода расщепления; критериев значимости. Несмотря на то, что матрица исходных или
неповернутых факторов указывает на взаимосвязь факторов и отдельных переменных, она ред-
ко приводит к факторам, которые можно интерпретировать, поскольку факторы коррелируют
со многими переменными. Поэтому вращением матрицу факторных коэффициентов преоб-
разуют в более простую, которую легче интерпретировать. Самый распространенный метод
вращения матрицы — метод варимакс (вращение, максимизирующее дисперсию), который
приводит к ортогональным факторам. Если факторы в совокупности высоко коррелированны,
то можно использовать косоугольное вращение. Матрица повернутых факторов создает основу
для интерпретации факторов.
Для каждого респондента можно вычислить значение фактора. Альтернативно, можно вы-
брать переменные-заменители, изучив матрицу факторных нагрузок и выбрав для каждого
фактора переменную с наивысшим (или ближайшим к наивысшему) значением факторной
нагрузки. Разницу между наблюдаемыми корреляциями и вычисленными, которую оценива-
ют исходя из матрицы факторных нагрузок, используют для определения степени подгонки
эмпирической модели.


ОСНОВНЫЕ ТЕРМИНЫ И ПОНЯТИЯ
• анализ главных компонент (principal com- • корреляционная матрица (correlation ma-
ponents analysis) trix)
• анализ общих факторов (common factor • косоугольное вращение (oblique rotation)
• критерий адекватности выборки Кайзе-
• график "каменистой осыпи" (scree plot) pa— Мейера—Олкина (Kaiser— Meyer— Olkin
<KMO> measure of sampling adequacy)
• диаграмма факторных нагрузок (factor
loading plot) • критерий сферичности Бартлетта
. значение фактора (factor scores) (Bartlett's test of sphericity)



Глава 19. Факторный анализ 741
• матрица факторных нагрузок (factor ma- • остатки (residuals)
• про цент дисперсии (percentage of variance)
• метод варимакс (вращение, максимизи- . собственное значение (eigenvalue)
рующее дисперсию) (varimax procedure)
• фактор (factor)
• метод взаимозависимости (interdependence
techinque) " факторные нагрузки (factor loadings)
• общность (communality) * факторный анализ (factor analysis)
• ортогональное вращение (orthogonal rota-
tion)


УПРАЖНЕНИЯ
Вопросы
1. Чем отличается факторный анализ от множественной регрессии и дискриминантного
анализа?
2. В чем главная цель факторного анализа?
3. Опишите модель факторного анализа.
4. Какую гипотезу проверяют критерием сферичности Бартлетта? С какой целью его ис-
- пользуют?
5. Что означает термин "общность переменной"?
6. Дайте краткие определения следующим понятиям: собственное значение, нагрузки факто-
ров, матрица факторных нагрузок и значение фактора.
7. Для какой цели используют критерий адекватности выборки Кайзера-Мейера-Олкина?
8. Назовите главное отличие между анализом главных компонент и анализом общих факторов.
9. Объясните, как используют собственные значения для определения числа факторов.
10. Что такое график "каменистой осыпи"? С какой целью его используют?
11. Почему полезно вращение факторов? Назовите наиболее распространенные методы вращения.
12. Какими принципами следует руководствоваться при интерпретации факторов?
13. Когда полезно вычислять значение фактора?
14. Что такое переменные-заменители? Как их определяют?
15. Как проверяют подгонку модели факторного анализа?

Задачи
1. Закончите пустую колонку в таблице, демонстрирующей результаты анализа главных ком-
понент:
Собственное значение Процент дисперсии
Переменная Общность Фактор
f, 1,01 1 3,25
1/2 1,02 2 1,78
l/з 1,03 3 1,23
^4 1,04 4 0,78
1/5 1,05 5 0,35
I/6 1,06 6 0,30



742 Часть III. Сбор, подготовка и анализ данных
1/7 1,07 7 0,19
l/e 1,08 8 0,12

2. Начертите диаграмму "каменистой осыпи", исходя из данных задачи 1.
3. Сколько факторов следует выделить в задаче 1? Обоснуйте ваш ответ.


УПРАЖНЕНИЯ С ИСПОЛЬЗОВАНИЕМ INTERNET
И КОМПЬЮТЕРА
1. В исследовании взаимосвязи между поведением в семье и поведением при покупке полу-
чены данные по семибалльной шкале (1 — не согласен, 7 — согласен) по следующим заяв-
лениям о стиле жизни:
Я лучше спокойно провел бы вечер дома, чем пошел на вечеринку
У}
Я всегда проверяю цены, даже на товар с маленькой ценой
Уг
Магазины меня интересуют больше, чем кинофильмы
Уг
Я не покупаю товары, которые рекламируют на бигбордах
Ул
Я — домосед
У$
Я экономлю, используя купоны для покупки товаров
У6
Компании зря тратят большие деньги на рекламу
У7
Данные, полученные из выборки 25 респондентов, приведены в следующей таблице.
Номер V, Vfl Vr Номер Иг Vi Vj V» Vs Ve
V3 Vs Ъ
ft V4

5 3
5 7 2
2 5 3 5 14 6 3
1
6 6

2
3 2 3 5
4 6
7 5 6 6 15
4
5
2 6

1 2
7 2 4 5
5 7 5
3 4 6 6 16
3 5
6
3 7 2 4
3 2 17 2 2
2 2 Ь 1 3
4
1 3
6 4 7 3
4 5
? 3 2 2 3 18
4
Ь
i
5 2
7 7 2 6 2 5
2 G 2 4 3 19
6
7 20 5 3
5 6 6 3 4
3 3 6 2 5
7 1
6
6 21 2
3 3 2 1
4 2 5 2
8 3 5 1
6
22 4 4
5 4 2 1 3
7 3 5 ? 3
9 3
G 5
3 23 2 3
4 4 6 Ь 3 2 1
3
10 6
7
5 2
4 6
7 5 7 4
2 6 4 24
11 6 6
6
1 Б 4 5 3
5
? 2 7 6 25 (i
7
12 3
6 I
7 2 2
13 5 6
a) Проанализируйте эти данные, используя анализ главных компонент с методом враще-
ния варимакс.
b) Интерпретируйте выделенные факторы.
c) Вычислите значение факторов для каждого респондента.
d) Если надо выбрать переменные-заменители, то какие вы выбрали бы?
e) Проверьте подгонку модели.
f) Проанализируйте данные, используя анализ общих факторов, и ответьте на вопрос Ь)
после ответа на вопрос е),




Глава 19. Факторный анализ 743
ПРИЛОЖЕНИЕ 19А
Фундаментальные уравнения факторного анализа
В модели факторного анализа выводят гипотетические компоненты, которые объясняют
линейную зависимость между наблюдаемыми переменными 1 . Модель факторного анализа
требует, чтобы зависимость между переменными была линейной, а переменные имели не-
нулевые корреляции между собой. Выводимые гипотетические компоненты обладают сле-
дующими свойствами.
1. Они образуют линейно независимый набор переменных. Ни один из гипотетических ком-
понент не выводится из других гипотетических компонент, как их линейная комбинация.
2. Переменные, являющиеся гипотетическими компонентами, можно разделить на два ос-
новных вида — общие факторы и характерные факторы. Они отличаются структурой весов в
линейном уравнении, которое выводит значение наблюдаемой переменной из гипотетиче-
ских компонент. Общий фактор имеет несколько переменных с ненулевым весом или фак-
торной нагрузкой, соответствующей этому фактору. (Фактор называется общим, если хотя
бы две его нагрузки значительно отличаются от нуля.) Характерный фактор имеет только
одну переменную с ненулевым весом. Следовательно, только одна переменная зависит от
характерного фактора.
3. Всегда принимают, что общие факторы не коррелируют с характерным фактором. Также
обычно принимают, что характерные факторы взаимно некоррелированы, но общие факто-
ры могут или не могут коррелировать между собой.
4. Обычно принимают, что число общих факторов немного меньше, чем число наблюдаемых
переменных. Однако число характерных факторов обычно принимают равным числу на-
блюдаемых переменных.
Используют следующие условные обозначения:
Х= п х 1 — случайный вектор наблюдаемых случайных переменных Xlt X2, Х3, ... Хп.
Принимают, что
Е(Х) = 0 и
Е(ХХ) = АИ — корреляционная матрица с единицами на главной диагонали.
F= т х 1 — вектор т общих факторов /",, F2t ... Fm.
Принимают, что
E(F) = 0 и
?(FF) = Rff— корреляционная матрица.
U— я х 1 — случайный вектор л характерных факторов переменных t/,, U2, ... Un,
Принимают, что



Характерные факторы нормированы с единичными дисперсиями и взаимно некорре-
лированы.
А = п х т — матрица коэффициентов, называемая матрицей факторных нагрузок (матрицей
факторной модели).
V— п х п — диагональная матрица коэффициентов для характерных факторов.




' Приложение подготовлено на основании Stanley A. Muiiak. The Foudations of Factor Analysis (New york:
McGraw-Hill, 1972).


744 Часть III. Сбор, подготовка и анализ данных
Наблюдаемые переменные, которые являются координатами X, представляют собой взве-
шенные комбинации общих факторов и характерных факторов. Основное уравнение фактор-
ного анализа можно записать так:
X=AF+VU
Корреляции между переменными, выраженные факторами, можно вывести следующим
образом;
ЛЛ = Е(ХХ') = Е{(АР + УЦ) (AF + VU)1} =

= E(AFF'A'+AFU'V' + VUF'A') = VUU'V') =
V1.
Задав, что общие факторы не коррелировали с характерными факторами, получим: R^ = R^' = 0.
Следовательно, R^. — AR^A' + V1 .
Предположим, что мы вычли матрицу дисперсии характерного фактора И из обеих частей
уравнения. В результате получим:


RX, зависит только от переменных общего фактора, и корреляции между переменными свя-
заны только с общим фактором. Пусть Rc =Rat— У1' вычисленная корреляционная матрица.
Мы уже определили матрицу факторной модели А. Коэффициенты матрицы модели фак-
торов представляют собой веса, присвоенные общим факторам, когда наблюдаемые перемен-
ные выражены линейными комбинациями общего и характерного факторов. Теперь мы опре-
делим матрицу факторной структуры. Коэффициенты матрицы факторной структуры пред-
ставляют собой ковариации между наблюдаемыми переменными и факторами. Матрица
факторной структуры полезна при интерпретации факторов, так как она показывает, какие пе-
ременные аналогичны по отношению к переменной общего фактора. Матрицу факторной
структуры А. определяют по формуле:
А, = E(XF') = Е[ (AF + W)F'} = ARff + VR,f ˜ ARff
Таким образом, матрица факторной структуры эквивалентна матрице модели факторов А,
умноженной на матрицу ковариаций между факторами Rff Заменив Arff на А, получим вычис-
ленную (редуцированную) матрицу как произведение матрицы факторной структуры на мат-
рицу модели факторов.

= АА


КОММЕНТАРИИ
1. Gerhard Mels, Christo Boshoff, Deon Nel, "The Dimensions of Service Quality: The Original Euro-
pean Perspective Revisited", Service Industries Journal, January 1997, p. 173—189; James M. Sinu-
kula, Leanna Lawtor, "Positioning in the Financial Services Industry: A Look at the Decomposition
of Image", in Jon M. Hawes, George B. Glisan (eds.), Developments in Marketing Science, vol. 10
(Akron, OH: Academy of Marketing Science, 1987), p. 439-442.
2. Более подробно о факторном анализе см. работы Jacques Tacq, Multivariate Analysis Techniques
in Social Science Research (Thousand Oaks, CA: Sage Publications, 1996); George H. Dunteman,
Principal Components Analysis (Newbury Park, CA: Sage Publications, 1989). О современном при-
менении факторного анализа см. статью Jennifer L. Aaker, ''Dimensions of Btand Personality",
Journal of Marketing Research, August 1997, p. 347-356.
3. См., например, статьи Shirely Bo Edvardsson, Gerry Larsson, Sven Setterlind, "Internal Service
Quality and the Psychosocial Work Environment: An Empirical Analysis of Conseptual Interrelated-
ness", Service Industries Journal, April 1997, p. 252—263; Shirley Taylor, "Waiting for Service: The Re-
lationship between Delays and Evaluations of Service", Journal of Marketing, April 1994, p. 56—69.


Глава 19. Факторный анализ 745
4. См. работы Janjay Gaur, "Adelman and Morris Factor Analysis of Developing Countries", Journal
of Policy Modeling, August 1997, p. 407-415; John L. Lastovicka, Kanchana Thamodaran,
"Common Factor Score Estimates in Multiple Regression Problems", Journal of Marketing Research,
February 1991, p. 105-112; W.R. Dillon, M. Goldstein, Muitivariate Analysis: Methods and
Applications (New York, NY: John Wiley, 1984), p. 23-99.
5. О современном применении факторного анализа см. статью Christopher D. Ittner, David F.
Larker, "Product Development Cycle Time and Organizational Performance", Journal of Marketing
Research, February 1997, p. 13-23.
6. Alexander Basilevsky, Statistical Factor Analysis & Related Methods: Theory & Applications (New York:
John Wiley, 1994); Joseph F. Hair, Jr., Ralph E. Andersom, Ronald L. Tatham, William C. Black,
Muitivariate Data Analysis with Readings, 5th ed. (Upper Saddle River, NJ: Prentice Hall, Inc., 1999).
7. На факторный анализ оказывает большее влияние относительная, а не абсолютная величи-
на коэффициентов корреляций.
8. См. работы James A. Roberts, Donald R. Beacon, "Exploring the Subtle Relationships between En-
vironmental Concern and Ecologically Conscious Behavior", Journal of Business Research, September
1997, p. 79—89; Sangit Chatterjee, Linda Jamieson, Frederick Wiseman, "Identifying Most Influen-
tial Observations in Factor Analysis", Marketing Science, Spring 1991, p. 145—160; Frank Acito,
Ronald D. Anderson, "A Monte Carlo Comparison of Factor Analytic Methods", Journal of
Marketing Research, May 1980, p. 228-236.
9. Существуют и другие методы ортогонального вращения, Метод квартимакс минимизирует
число факторов, необходимых для объяснения переменной. Метод эквимакс представляет
собой комбинацию методов варимакс и квартимакс.
10. James E. Zemanek, Jr., "Manufacturer Influence versus Manufacturer Salesperson Influence over the
Industrial Distributor"', Industrial Marketing Management, January 1997, p. 59—66; Ronald C. Cur-
ban, Robert J. Kopp,''Obtaining Retailer Support for Trade Deals: Key Success Factor", Journal of
Advertising Research, December 1987—January 1988, p. 51—60.
11. William M. Bulkeley, "Rebates' Secret Appeal to Manufacturers: Few Consumers Actually Redeem
Them", Wall Street Journal, February 10, 1998, p. B1-B2; Donald R. Lichtenstein, Nancy M.
Ridgway, Richard G. Netemeyer, ''Price Perceptions and Consumer Shopping Behavior: A Field
Study", Journal of Marketing Research, May 1993, p. 234—245; Peter Tat, William A. Cunningham
III, Emin Babakus, "Consumer Perceptions of Rebates", Journal of Advertising Research, August-
September 1988, p. 45-50.
12. "Return of the Beetle", The Economist, January 10, 1998, p. 54.
13. William J, Bigoness, Gerald L. Blakely, "A Cross-National Study of Managerial Values", Journal of
Internationa! Business Studies, Fourth Quarter 1996, p. 739—752; Ishmael Akaah, Edward A. Rior-
dan, "The Incidence of Unethical Practices in Marketing Research: An Imperical Investigation",
Journal of the Academy of Marketing Science 18(1990),p. 143—152.
14. Eric L. Einspruch, An Introductory Guide to SPSS for Windows (Thousand Oaks, CA: Sage Publica-
tions, 1998); Paul E. Specter, SAS Programming for Researchers and Social Scientists (Thousand Oaks,
CA: Sage Publications, 1993); Mohamed Afzal Norat, "Software Reviews", Economic Journal: The
Journal of the Royal Economic Society, May 1997, p. 857-882; Seiter Charles, "The Statistical Differ-
ence", Macworld, October 1993, p. 116-121.




746 Часть III. Сбор, подготовка и анализ данных
Глава 2О
Кластерный анализ
После изучения материала этой главы вы должны уметь ...
1. Описывать основную идею, область применения кластерного анализа и его важность в мар-
кетинговых исследованиях.
2. Анализировать статистики, используемые в ходе кластерного анализа.
3. Объяснять ход выполнения кластерного анализа, включая формулирование проблемы, вы-
бор способа измерения расстояния, выбор метода кластеризации, принятие решения о чис-
ле кластеров, интерпретацию и профилирование кластеров.
4. Описывать цель и методы оценивания качества результатов кластеризации.
5. Рассматривать надежность и достоверность результатов кластеризации.
6. Обсуждать применение неиерархической кластеризации и кластеризации переменных.


КРАТКИЙ ОБЗОР
С помощью кластерного анализа, как и рассмотренного ранее факторного (глава 19), марке-
тологи проверяют весь набор взаимозависимых связей. В кластерном анализе не проводят раз-
личия между зависимыми и независимыми переменными. Более того, проверяются взаимоза-
висимые связи всего набора переменных. Цель кластерного анализа— классификация объек-
тов на относительно гомогенные (однородные) группы, исходя из рассматриваемого набора
переменных. Объекты в группе относительно схожи с точки зрения этих переменных и отли-
чаются от объектов в других группах. Если кластерный анализ использовать именно таким об-
разом, то он становится составной частью факторного анализа, так как снижает число объектов,
а не число переменных, сгруппировывая их в меньшее число кластеров.
В этой главе описана основная идея кластерного анализа. Этапы кластерного анализа
рассматриваются и иллюстрируются в контексте иерархической группировки с помощью
статистического программного пакета. Далее представлено применение не иерархи чес кой
кластеризации, которое следует за обсуждением разбиения переменных на кластеры. Начнем
с двух примеров.

СКВОЗНОЙ ПРИМЕР. ВЫБОР УНИВЕРМАГА

Кластерный анализ
Маркетологи разделили респондентов на группы (кластеры), исходя из оценок важности,
которую они присвоили каждому критерию выбора универмага. Результаты кластеризации
показали, что респондентов можно разбить на четыре сегмента. Различия между сегментами
были подвергуты статистической проверке. Маркетологи обнаружили, что в каждый сег-
мент входили респонденты, относительно однородные по критерию выбора магазина. Затем
отдельно для каждого сегмента разработали модель выбора магазина. В результате маркето-
j логи получили модели выбора магазина, достаточно хорошо показывающих то, как проис-
1 ходит выбор респондентами магазинов в конкретных сегментах.




Глава 20. Кластерный анализ 747
ПРИМЕР. Любители мороженого
Руководство компании ffaagen-Dazs Shoppe, которая имеет около 300 магазинов по про-
даже мороженого на всей территории Соединенных Штатов Америки, искало возможности
привлечения новых покупателей. С этой целью было решено провести маркетинговое ис-
следование для определения новых сегментов потенциальных потребителей, за счет которых
можно было бы увеличить объемы продаж. Для решения этой задачи применили геодемо-
графию, т.е. метод кластеризации потребителей, основанный на географических, демогра-
фических характеристиках, а также характеристиках образа жизни. Первоначально провели
исследование для разработки демографических и психографических профилей покупателей
продукции фирмы ffaagen-Dazs, включая частоту покупок, время, дни недели и другие пе-
ременные, связанные с использованием товара. Кроме того, маркетологи получили адреса и
почтовые индексы респондентов. Затем, исходя из метода кластеризации, разработанного
Claritas, респондентов распределили по 40 геодемографических кластерам. Используя эту
| информацию, компания ffaagen-Da& определила несколько потенциальных групп потреби-
I телей, которые могли увеличить объем продаж [1].

Пример компании Haagen-Dazs иллюстрирует использование кластерного анализа для по-
лучения однородных сегментов с целью формулирования конкретных маркетинговых страте-
гий. В примере с универмагами метод кластеризации использовался для разбивки респонден-
тов на группы для последующего выполнения многомерного анализа.


СУЩНОСТЬ КЛАСТЕРНОГО АНАЛИЗА
Кластерный анализ представляет собой класс методов, используемых для классификации
объектов или событий в относительно однородные группы, которые называют мастерами
(clusters). Объекты в каждом кластере должны быть похожи между собой и отличаться от объек-
тов в других кластерах. Кластерный анализ также называют классификационным анализом
(classification analysis) или численной таксономией (систематикой) (numerical taxonomy) [2]. Мы
рассмотрим процедуры кластеризации, которые относят каждый объект к одному и только од-
ному кластеру [3]. На рис. 20.1 показана идеальная ситуация кластеризации, когда кластеры
четко отделены друг от друга на основании различий двух переменных: ориентация на качество
(переменная 1), и чувствительность к цене (переменная 2),




Переменная 2
Рис. 20,1. Идеальная ситуация
кластеризации

Следует отметить, что каждый потребитель попадает в один из кластеров, и перекрываю-
щихся областей нет. С другой стороны, на рис. 20.2 представлена ситуация кластеризации, ко-
торая чаще всего встречается на практике.




748 Часть III. Сбор, подготовка и анализ данных
•••
•.•
..v •%"•«
.•*.*

Переменная 2
Рис. 20.2. Реальная ситуация кластеризации

На рис. 20.2 границы некоторых кластеров очерчены нечетко, и отнесение некоторых по-
требителей к конкретному кластеру не очевидно, поскольку многие из них нельзя сгруппиро-
вать в тот или иной кластер.
Кластерный анализ, как и дискриминантный, предназначен для классификации перемен-
ных. Однако в дискриминантном анализе необходима предварительная информация о кла-
стерной (групповой) принадлежности каждого рассматриваемого объекта или события для то-
го, чтобы разработать правило классификации. В отличие от этого, в кластерном анализе нет
необходимости в предварительной информации о кластерной принадлежности любого из объ-
ектов. Группы, или кластеры, определяют с помощью собранных данных, а не заранее [4].
Кластерный анализ используют в маркетинге для различных целей [5].
• Сегментация рынка. Например, потребителей можно разбить на кластеры на основе
выгод, которые они ожидают получить от покупки данного товара. Каждый кластер
может состоять из потребителей, которые ищут схожие выгоды [6]. Этот метод назы-
вают сегментаций преимуществ (benefit segmentation). Мы проиллюстрируем его на
следующем примере.

ПРИМЕР. Отпускники бывают разными
В исследовании, посвященном моделям принятия решений людьми, проводящими
свой отпуск за рубежом, маркетологи получили от 260 респондентов информацию, ка-
сающуюся шести психографических направлений: психологического, образовательного,
социального, релаксационного, физиологического и эстетического. Для разбивки рес-
пондентов на психографические сегменты использовали кластерный анализ. Первый
сегмент (53%) состоял из людей с высоким (или близким к нему) уровнем жизни. Эту
группу назвали "требовательными". Во вторую группу (20%) входили лица с высоким об-
разовательным уровнем, ее назвали "интеллектуалы". Лица, входящие в последнюю груп-
пу (26%), оказались большими любителями релаксации (развлечений). Они получили
низкую оценку по социальной шкале, и были названы "беглецами" (от действительно-
сти). Чтобы привлечь отпускников в каждый из сегментов, разработали специальные
маркетинговые стратегии [7].



Глава 20. Кластерный анализ 749
• Понимание поведения покупателей. Кластерный анализ используется для идентифика-
ции однородных групп покупателей. Затем поведение каждой группы при покупке то-
вара изучается отдельно, как, например, в проекте "Выбор универмага". В этом случае
респондентов разбили на группы, исходя из оценок важности, которую они присвоили
каждому критерию, используемому для выбора универмага. Кластерный анализ также
использовали, чтобы определить виды стратегий, применяемых покупателями автомо-
билей для получения внешней информации.
• Определение возможностей нового товара. Кластеризацией торговых марок и товаров
можно определить конкурентоспособные наборы в пределах данного рынка. Торговые
марки в одном и том же кластере конкурируют более жестхо между собой, чем с марка-
ми других кластеров. Фирма может изучить свои текущие предложения в сравнении с
предложениями своих конкурентов, чтобы определить потенциальные возможности
новых товаров.
• Выбор тестовых рынков. Группировкой городов в однородные кластеры можно подоб-
рать сравнимые города для проверки различных маркетинговых стратегий,
• Сокращение размерности данных. Кластерный анализ можно использовать как основной
инструмент сокращения размерности данных при создании кластеров или подгрупп
данных, более удобных для анализа, чем отдельные наблюдения. Последующий много-
мерный анализ выполняют над кластерами, а не над отдельными наблюдениями. На-
пример, чтобы описать отличия в поведении потребителей по отношению к товарам, их
вначале разбивают на группы. Затем различия между группами проверяют с помощью
множественного дискриминантаого анализа.


СТАТИСТИКИ, СВЯЗАННЫЕ С КЛАСТЕРНЫМ
АНАЛИЗОМ
Прежде чем начать разговор о статистиках, соответствующих кластерному анализу, следует
упомянуть о том, что большинство методов кластеризации — относительно простые процеду-
ры, не требующие изощренных статистических расчетов. Можно даже сказать, что методы кла-
стеризации представляют собой эвристические методы, основанные на определенных алгорит-
мах действий исследователя. Тем самым кластерный анализ резко отличается от дисперсионно-
го, регрессионного, дискриминантного и факторного, которые базируются на обширных
статистических расчетах. Хотя многие методы кластеризации обладают важными статистиче-
скими свойствами, необходимо признать фундаментальную простоту этих методов [8]. Сле-
дующие статистики и понятия связаны с кластерным анализом.
• План агломерации, объединения (agglomeration schedule). Дает информацию об объектах
(событиях, случаях), которые должны быть объединены на каждой стадии процесса иерар-
хической кластеризации.
• Кластерный центроид (cluster centroid). Среднее значение переменных для всех случаев или
объектов в конкретном кластере,
• Кластерные центры (cluster centers). Исходные начальные точки в неиерархической класте-
ризации. Кластеры строят вокруг этих центров, или зерен кластеризации.
Принадлежность кластеру (cluster membership). Указывает кластер, которому принадлежит

каждый случай или объект.
• Древовидная диаграмма (дендрограмма) (dendrogram). Ее также называют древовидный
граф— графическое средство для показа результатов кластеризации. Вертикальные линии
представляют объединяемые кластеры. Положение вертикальной линии на шкале расстоя-
ния (горизонтальная ось) показывает расстояния, при которых объединяли кластеры. Дре-
вовидную диаграмму (рис, 20.8) читают слева направо.


750 Часть III. Сбор, подготовка и анализ данных
Расстояния между кластерными центрами (distances between cluster centres). Указывают, на-
сколько разнесены отдельные пары кластеров, Кластеры, которые разнесены широко, ясно
выражены и поэтому желательны.
Сосульчатая диаграмма (icicle diagram), Это графическое отображение результатов класте-
ризации. Она названа так потому, что имеет сходство с рядом сосулек, свисающих с крыши
дома. Сосульчатую диаграмму (рис. 20.7) читают сверху вниз.
Матрица сходства/матрица расстояний между объединяемыми объектами (similarity/distance
coefficient matrix). Матрица сходства (расстояний) — это нижняя треугольная матрица, со-
держащая значения расстояния между парами объектов или случаев.



ВЫПОЛНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА
Этапы выполнения кластерного анализа представлены на рис. 20.3.




терпретация и профилирование кластеров




Рис. 20.3. Выполнение кластерного
анализа

Первый этап — формулировка проблемы кластеризации путем определения переменных,
на базе которых она будет проводиться, Затем выбирается соответствующий способ измерения
расстояния. Мера расстояния показывает, насколько объекты, подвергнутые кластеризации,
схожи или не схожи между собой. Разработано несколько методов кластеризации, и исследова-
телю необходимо выбрать наиболее подходящий для решения данной проблемы. Решение о
числе кластеров также принимает исследователь. Сформированные кластеры нужно анализи-
ровать с точки зрения переменных, использованных для их получения, а также для профили-
рования кластеров можно использовать дополнительные явно выраженные переменные. И на-
конец, исследователь должен оценить достоверность (качество) процесса кластеризации.

Формулировка проблемы
Возможно, самая важная часть формулирования проблемы кластеризации — это выбор пере-
менных, на основе которых проводят кластеризацию. Включение даже одной или двух посторон-
них (не имеющих отношение к группированию) переменных может исказить результаты класте-
ризации. Задача состоит в том, чтобы выбранный набор переменных смог описать сходство между
объектами с точки зрения признаков, имеющих отношение к данной проблеме маркетингового
исследования. Переменные следует выбирать, исходя из опыта прошлых исследований, теории
или тестируемой гипотезы. Экспериментатор должен обладать интуицией и уметь делать выводы.


Глава 20. Кластерный анализ 751
Для иллюстрации сказанного рассмотрим кластеризацию потребителей на основе их отно-
шения к посещению магазинов для покупки товаров. Опираясь на прошлый опыт, маркетоло-
ги определили шесть переменных. Потребителей попросили выразить их степень согласия со
следующими утверждениями по семибалльной шкале (1 — не согласен, 7 — согласен):
V\ Посещение магазинов для покупки товаров — приятный процесс.
1/2 Посещение магазинов для покупки товаров плохо сказывается на вашем бюджете,
^з Я совмещаю посещение магазинов для покупки товаров с питанием вне дома.
1/4 Я стараюсь сделать лучшие покупки при посещении магазинов.
/5 Мне не нравится посещение магазинов для покупки товаров.
VG Вы можете сэкономить много денег, сравнивая цены в разных магазинах,
Данные, полученные от 20 респондентов, приведены в табл. 20.1.

I Таблица 20.1. Данные для кластеризации
Номер п/п V, V2 Уз V4 Vs Ve
1 6 7 3 3
4 2
/ 2 1
3 1
".
«
:
:
3 7 6 4 1
.•' 6
.' 4 3 1
5
5 1 3 2 h
2 i
1 В 4 3 3 4
6
5 3 -•:
7 3 3
6
: •1
7 4
8 3 7
•;
6
4
9 3 Э
2
6
10 5 6
3 3 4
1
11 3 2 5
3
л
12 5 5 4 2 4
13 2 1 5
2 4
*
14 •!
л G 6 7
4
15 6 5 1
4 2 4
16 3 5 7
4 4
6
17 ! 2
4 4 7 5
3 7 2 1
18 4 3
19 6 3 7 7
2
4

20 3 2 4
2 7 2

На практике кластеризацию выполняют для значительно больших по размеру выборок, со-
стоящих из 100 и больше респондентов. Мы взяли небольшую выборку для иллюстрации про-
цесса кластеризации.

Выбор способа измерения расстояния или меры сходства
Цель кластеризация — группирование схожих объектов. Поэтому для того чтобы оценить,
насколько они похожи или непохожи, необходимо использовать некую единицу измерения.
Наиболее распространенный метод заключается в том, чтобы в качестве такой меры использо-
вать расстояния между двумя объектами. Объекты с меньшими расстояниями между собой
больше похожи, чем объекты с большими расстояниями. Существует несколько способов вы-
числения расстояния между двумя объектами [9].

752 Часть III. Сбор, подготовка и анализ данных
Наиболее часто используемая мера сходства— евклидово расстояние или его квадрат [10].
Евклидово расстояние (геометрическое расстояние в многомерном пространстве) равно квад-
ратному корню из суммы квадратов разностей значений для каждой переменной.

Евклидово расстояние (euclidean distance)
Квадратный корень из суммы квадратов разностей в значениях для каждой переменной

Существуют и другие способы измерения расстояния. Расстояние городских кварталов)
(city-block, или манхэттенское расстояние (Manhattan distance) между двумя объектами — это
сумма абсолютных разностей в значениях для каждой переменной. Расстояние Чебышева
(Chebychev distance) между двумя объектами — это максимальная абсолютная разность в значе-
ниях для любой переменной. Для нашего примера используем квадрат евклидова расстояния.
Если переменные измерены в различных единицах, то единица измерения влияет на реше-
ние кластеризации. В исследовании, посвященном посещению супермаркетов для покупки то-
варов, переменные, выражающие отношение к посещению магазина, можно измерить по шка-
ле Лайкерта; патронаж (постоянство в посещении магазина) можно выразить через частоту по-
сещений магазина в месяц и через сумму, потраченную на покупки; лояльность к торговой
марке — через процент средств, потраченных на покупку товаров в любимом супермаркете.
В этих случаях перед кластеризацией респондентов мы должны нормализовать данные, изме-
нив шкалу измерения каждой переменной таким образом, чтобы среднее равнялось нулю, а
стандартное отклонение — единице. Хотя нормализация может исключить влияние единицы
измерения, она также уменьшает различия между группами по переменным, которые наилуч-
шим образом дискриминируют (отличают) группы или кластеры. Кроме того, желательно уда-
лить выбросы (т.е. случаи с нетипичными значениями) [111.
Использование различных способов измерения расстояния ведет к разным результатам кла-
стеризации. Следовательно, целесообразно использовать различные меры сходства и затем
сравнить результаты. Выбрав меру сходства, затем можно выбрать метод кластеризации.

Выбор метода кластеризации
На рис. 20.4 приведена классификация методов кластеризации.
Методы кластеризации могут быть иерархическими и неиерархическими. Иерархическая
кластеризация (hierarchical clustering) характеризуется построением иерархической, или древо-
видной, структуры.

Иерархическая кластеризация (hierarchical clustering)
Метод кластеризации, характеризующийся построением иерархической, или древовидной,
структуры.

Иерархические методы могут быть агломеративными (объединительными) и дивизивны-
ми. Агломеративная кластеризация (agglomerative clustering) начинается с каждого объекта в от-
дельном кластере. Кластеры объединяют, группируя объекты каждый раз во все более и более
крупные кластеры. Этот процесс продолжают до тех пор, пока все объекты не станут членами
одного единственного кластера.

Агломеративная, или объединительная, кластеризация (agglomerative clustering)
Иерархический метод кластеризации, при которой каждый объект первоначально находится
в отдельном кластере. Кластеры формируют, группируя объекты каждый раз во все более и
более крупные кластеры.

Разделяющая, или дивизивная, кластеризация (divisive clustering) начинается со всех объек-
тов, сгруппированных в единственном кластере. Кластеры делят (расщепляют) до тех пор, пока
каждый объект не окажется в отдельном кластере.


Глава 20. Кластерный анализ 753
Методы кластеризации




Рис, 20.4. Классификация методов кластеризации


Разделяющая, или дивизивная, кластеризация (divisive clustering)
Иерархический метод кластеризации, при котором все объекты первоначально находятся е
одном большом кластере. Кластеры формируют делением этого большого кластера на бо-
лее мелкие.

Обычно в маркетинговых исследованиях используют агломеративные методы, например
методы связи, дисперсионные и центроидные методы. Методы связи (linkage methods) вклю-
чают метол одиночной связи, метод полной связи и метод средней связи.

Методы связи (linkage methods)
Агломеративные методы иерархической кластеризации, которые объединяют объекты в
кластер, исходя из вычисленного расстояния между ними.



<<

стр. 27
(всего 35)

СОДЕРЖАНИЕ

>>