<<

стр. 25
(всего 35)

СОДЕРЖАНИЕ

>>

полиномиальный и множественный анализ. Результат включает линейное уравнение рег-
рессии, таблицу коэффициентов R2, скорректированный Л2, таблицу ANOVA, таблицу соот-
ветствий и остатков, которые дали необычные наблюдения. Другие доступные характери-
стики включают: ступенчатую регрессию, наилучшие подмножества, график подогнанной
линии регрессии и диаграммы остатков.
Excel
Регрессию можно вычислить с помощью меню Tools>Data analysis. В зависимости от вы-
бранных характеристик можно получить таблицу выходных данных, включая таблицу
ANOVA, стандартной ошибки у, коэффициенты регрессии, стандартную ошибку коэффи-
циентов, значения Л-' и количество наблюдений. Также с помощью данной функции вы-
числяют таблицу выходных данных остаточных членов, строят график остатков, аппрокси-
мированную прямую линейной зависимости, график нормального распределения вероятно-
сти и таблицу выходных данных, состоящую из двух колонок значений вероятностей.

Как описано во "Вставке 17.1", компьютерные программы содержат несколько программ
для выполнения регрессионного анализа, вычисления соответствующих статистик, выпол-
нения проверок значимости и построения графиков остаточных членов. В SPSS главная про-
грамма— REGRESSION. В SAS наиболее часто используемая программа— REG. Также
доступны и другие специализированные программы, такие как RSREG, ORTHOREG, GLM


Глава 17. Корреляция и регрессия 675
и NLIN, но читателям, не знакомым со сложными аспектами регрессионного анализа, мы
советуем обращаться к программе REG только при использовании SAS. В BMDP основная
программа для выполнения двумерной и множественной регрессии — PI R, a P2R — для сту-
пенчатой регрессии. Программы P9R и P4R более специализированные. В Minibab с помо-
щью функции Stats>Regression можно выполнить дисперсионный анализ, как простой, так и
полиномиальный и множественный. В Excel регрессионный анализ можно выполнить с по-
мощью меню Tools>Data analysis [36].

В центре внимания Burke

Мы часто сталкиваемся с ситуацией, когда одновременно необходимо анализировать
фиктивные и интервальные переменные. Проиллюстрируем подобную ситуацию на приме-
ре маркетингового исследования, проведенного компанией Burke, но с упрощенным набо-
ром данных. Респондентам был задан вопрос, сколько они имели в своем распоряжении
кредитных карточек на момент интервью и попросили проранжировать "ценность кредита"
по отношению к их образу жизни (по шкале рангов, начинающейся с предметов, крайне не-
обходимых для поддержания их образа жизни, и до предметов, необязательных для поддер-
жания принятого ими образа жизни). Фиктивная переменная d, указывает место жительства
респондентов: 1 — в сельской местности, 0 -— в городе.
Число кредитных карточек Рейтинг ценности кредита Место жительства респондента

У XI
2
'
4 2
6 3
4 4
ь 5
6 6
2 1
3 2
4 3
5 4
6 5
6
Построена регрессионная модель и в качестве критерия для включения переменной вы-
бран 90%-ный доверительный уровень. Отдельные результаты множественного регрессион-
ного анализа приведены ниже.
0
Модели
Статистики изменения

Скоррек- Стандартная Измене- F-сгатис- Степени Степени Значимость
Модель R me ft2
тирован- ошибка тика изме- свободы F-статистики
свободы
оценивания нения 1 2 изменения
ныйй*

I
0,872Э 10
0,737 0,9131 31,876
0,761 0,761 0,000
Ь
0,915 0,837 07964, 9
0,800 0,075 4,146 0,072
3
Предикторы: (константа), ЦЕННОСТЬ КРЕДИТА
в
Предикторы: (константа), ЦЕННОСТЬ КРЕДИТА, МЕСТО ЖИТЕЛЬСТВА
с
Зависимая переменная: КАРТОЧКИ (количество кредитных карточек)




Часть III. Сбор, подготовка и анализ данных
676
3
Коэффициенты
Нормированные ?™*°?т. Корреляции
Недатированные р
коэффициенты коэффициенты гервал для В


Модель В Стандартная ft t Значи Нижний Верхний Нулевого Част- Частич-
ошибка мость порядок ная пая
1.(Констанга) 1,533 0,601 2,551 0,029 0,194 2,873
ЦЕННОСТЬ 0,871 0,154 0,872 5,646 0,000 0,528 1,215 0,872 0,872 0,872
2.(КонСтанта) -1,208 1,445 -0,836 -4,477 2,060
0,425
ЦЕННОСТЬ 1,375 0,282 1,377 4,883 0,001 0,738 2,012 0,872 0,852 0,658
МЕСТО 0,962 0,574 2,036 0,072 -0,217 4,134 -0,635 0,562 0,274
1,958
ЖИТЕЛЬСТВА
а. Зависимая переменная: КАРТОЧКИ (количество кредитных карточек)
Исключенные переменные"
Частная корреляция Коллинеарность
Значимость
Модель Бега t
Допустимое отклонение статистик
0,574а
1 МЕСТО 2,036 0,072 0,562 0,229
ЖИТЕЛЬСТВА
а Предикторы в модели: (Константа]. ЦЕННОСТЬ (кредита)
b Зависимая переменная: КАРТОЧКИ (количество кредитных карточек)
В предыдущей модели мы определили следующее уравнение регрессии:
Y= - 1,2083 + 1,375 (X,) + 1,9583 (D,)
Вспомните, что D; — просто или нуль, или 1, причем если D[ = 0, то респонденты живут
в городе. Если D, = 1, то респонденты живут в сельской местности. Можно описать модель
как две модели. Для респондентов, живущих в городе, получим следующее уравнение рег-
рессии, в котором Кне зависит от фиктивной переменной — кода местности.
Городская модель Y = - 1,2083 + 1,375 (X,)
Для каждого респондента, живущего в сельской местности, вклад переменной — место
жительства в зависимую переменную Y(ненормированный коэффициент) равен 1,9583. По-
этому для таких респондентов это постоянное значение, и мы может добавить его к констан-
те общей модели (например, — 1,2083 + 1,9583 = 0,75). Теперь мы имеем отдельную регрес-
сионную модель для респондентов, живущих в сельской местности.
Сельская модель Y = 0,7500 + 1,375 (Xj)
Это единственный способ увидеть различие между этими двумя постоянными членами
(различие состоит, конечно, в коэффициенте регрессии для DJ), который отражает среднее
различие между городскими и сельскими респондентами при постоянном значении рей-
тинга ценности кредита.
Как все это применить на практике? Создавая модели с фиктивной переменной, как бы-
ло проиллюстрировано, мы допускали, что зависимость количества кредитных карточек от
рейтинга ценности кредита является постоянной, т.е. не зависит от того, живут респонденты
в городе или в сельской местности. Это можно проверить, установив связь между рейтингом
ценности кредита и количеством кредитных карточек в зависимости от типа респондента.
Затем можно проверить две модели с разными угловыми коэффициентами. Если угловые
коэффициенты не отличаются, то можно использовать одну общую модель:
Y - - 1,2083 + 1,375 (X,) + 1,9583 (D,)
Если угловые коэффициенты разные, то следует построить различные модели для рес-
пондентов из города и сельской местности.


Глава 17. Корреляция и регрессия 677
РЕЗЮМЕ
Парный коэффициент корреляции г является мерой линейной связи между двумя метри-
ческими (измеренными интервальной или относительной шкалой) переменными. Его квадрат
г2 измеряет долю вариации одной из переменных, обусловленную вариацией другой. Частный
коэффициент корреляции — мера зависимости между двумя переменными после исключения
эффекта от влияния одной или нескольких дополнительных переменных. Порядок частной
корреляции указывает на количество переменных, на которые необходимо внести поправку
или которые следует исключить. Коэффициенты частной корреляции могут оказаться полез-
ными для выявления ложных связей.
С помощью парной регрессии устанавливается математическая зависимость (в виде урав-
нения) между метрической зависимой (критериальной) переменной и метрической независи-
мой переменной (предиктором). Уравнение описывает прямую линиию, и для его вывода ис-
пользуют метод наименьших квадратов. В случае построения регрессии с нормированными
данными отрезок, отсекаемый на оси OY, принимает значение, равное 0, и коэффициенты рег-
рессии называют взвешенными "бета"-коэффициентами. Силу тесноты связи измеряют ко-
эффициентом детерминации г, который получают, вычисляя отношение SSpeefW к SSr Стан-
дартную ошибку уравнения регрессии используют для оценки точности предсказания, и ее
можно интерпретировать как род средней ошибки, сделанной при теоретическом предсказании
Y, исходя из уравнения регрессии.
Множественная регрессия включает одну зависимую и две (или больше) независимых пе-
ременных. Частный коэффициент регрессии Ь, представляет ожидаемое изменение Y, когда X,
меняется на одну единицу, а переменные от Х2 до Xk остаются постоянными. Силу тесноты
связи измеряют коэффициентом множественной детерминации R2. Значимость общего урав-
нения регрессии проверяется общим F-критерием. Отдельные частные коэффициенты регрес-
сии можно проверить на значимость, используя F-критерий приращений. Диаграммы рассея-
ния остаточных членов, когда их значения представлены графически в зависимости от пред-
сказанных теоретических значений К ; , времени или предикторов, полезны для проверки
соответствия основным допущениям и подобранной регрессионной модели.
При пошаговой регрессии предикторы вводят или выводят из уравнения регрессии один за
другим с целью выбора меньшего их числа, которые объясняют большую часть вариации кри-
териальной переменной. Мул ьти колли неарность или очень высокая взаимная корреляция ме-
жду предикторами может вызвать некоторые проблемы. Из-за того, что предикторы взаимо-
связаны (коррелируют), регрессионный анализ не обеспечивает однозначного свидетельства об
относительной важности предикторов. Перекрестная проверка может установить, верна ли рег-
рессионная модель для сопоставимых данных, не использованных при ее вычислении. Она яв-
ляется полезным методом при оценке регрессионной модели.
Можно использовать категориальные переменные как предикторы путем их кодирования
как фиктивных переменных. Множественная регрессия с фиктивными переменными предос-
тавляет общий метод для выполнения дисперсионного и ковариационного анализа.


ОСНОВНЫЕ ТЕРМИНЫ И ПОНЯТИЯ
• F-критерий (F-test) • коэффициент детерминации (coefficient of
• ^-статистика (/-statistic) determination)
• вычисленное, предсказанное, теоретиче- * коэффициент множественной детерми-
нации
ское значение (estimated, predicted value) (coefficient of multiple determination)
• двойная перекрестная проверка (double * коэффициент регрессии (regression
cross-validation) coefficient)
метод
• ковариация (covariance) * наименьших квадратов (least-
squares procedure)


678 Часть III. Сбор, подготовка и анализ данных
множественная регрессия (multiple поле корреляции (scattergram)
regression) пошаговая регрессия (stepwise regression)
модель множественной регрессии регрессионный анализ (regression analysis)
(multiple regression model)
скорректированный /^(adjusted R2)
мудьтиколлинеарность(тиШсоШпеапЧу)
стандартная ошибка (standard error)
неметрическая корреляция (nonmetric
стандартная ошибка уравнения регрессии
correlation)
(standard error of estimate)
нормированный коэффициент регрессии
сумма квадратов ошибок (sum of squared
(standardized regression coefficient)
errors)
остаточный член, остаток (residual)
частичный коэффициент корреляции
парная регрессионная модель (bivariate (part correlation coefficient)
regression model)
частный F-критерий (partial f-test)
парная регрессия (bivariate regression)
частный коэффициент корреляции
парный коэффициент корреляции г (partial correlation coefficient)
(product moment correlation, r)
частный коэффициент регрессии (partial
перекрестная проверка (cross-validation) regression coefficient)


УПРАЖНЕНИЯ
Вопросы
1. Что такое парный коэффициент корреляции? Указывает ли его значение, равное 0, что пе-
ременные не связаны между собой?
2. Что такое частный коэффициент корреляции?
3. В чем закглючается основное применение регрессионного анализа?
4. Что такое метод наименьших квадратов?
5. Объясните значение нормированных коэффициентов регрессии.
6. Как измеряют тесноту связи при парной регрессии? А при множественной?
7. Что означает точность предсказания?
8. Что такое стандартная ошибка уравнения регрессии?
9. Какие допущения лежат в основе парной регрессии?
10. Что такое множественная регрессия?
11. Объясните, что такое частный коэффициент регрессии. Почему он так назван?
12. Сформулируйте нулевую гипотезу при проверке значимости общего уравнения множест-
венной регрессии. Как проверяют данную нулевую гипотезу?
13. Для чего нужен анализ остаточных членов?
14. Объясните, что такое метод пошаговой регрессии. Какова его цель?
15. Что такое мультиколлинеарность? Какие проблемы могут возникнуть из-за мультиколли-
неарности?
16. Какие показатели используют для оценки относительной важности предикторов при мно-
жественной регрессии?
17. Опишите метод перекрестной проверки. Опишите метод двойной перекрестной проверки.
18. Продемонстрируйте эквивалентность регрессии с фиктивными переменными и однофак-
торного дисперсионного анализа (ANOVA).


679
Глава 17. Корреляция и регрессия
Задачи
1. Руководство сети универмагов хочет определить, как влияют расходы на продвижение това-
ров, на конкурентоспособность сети. Из 15 штатов получены данные о расходах на продви-
жение относительно главного конкурента (расходы конкурента приняли за 100) и об объеме
продаж относительно этого же конкурента (объем продаж конкурента принят за 100).
Перед вами поставлена задача — доложить руководству, существует ли какая-либо связь
между относительными затратами на продвижение и относительным объемом продаж.
a) Постройте график зависимости относительных объемов продаж (по оси Y) от относи-
тельных расходов на продвижение (ось X) и поясните полученный график.
b) Какой показатель использовать для установления связи между двумя переменными?
Почему?
c) Выполните парный регрессионный анализ объемов продаж от относительных расходов
на продвижение.
d) Поясните коэффициенты регрессии.
e) Значима ли регрессионная связь?
f) Если наша сеть имеет одинаковые расходы на продвижение со своим конкурентом (если
относительные расходы на продвижение составили 100), то какими должны быть у нее
объемы продаж?
2
g) Интерпретируйте полученное значение г .
Номер штата Относительные расходы на продвижение Относительные объемы продаж
1 95 98
2 92 94
3 103 110
4 115 125
5 77 82
6 79 84
7 105 112
8 94 99
3 85 93
10 101 107
И 106 114
12 120 132
13 118 129
14 75 79
15 99 105
2. Чтобы понять роль влияния качества и цены товаров на количество постоянных посетите-
лей магазинов, маркетологи собрали оценки 14 ведущих магазинов с точки зрения: пред-
почтения магазина, качества товара и приемлемости иен. Магазины оценивали по 11-
балльной шкале, — чем больше балл, тем выше оценка.
Предпочтение Качество Цена
Номер магазина
1 6 5 3
2 9 6 11
3 8 6 4
3 2 1


680 Часть III. Сбор, подготовка и анализ данных
5 10 6 11
6 4 3 1
7 5 4 7
8 2 1 4
9 11 9 8
10 9 5 10
11 10 8 8
12 2 1 5
13 9 8 5
14 5 3 2
a) Выполните множественный регрессионный анализ, объясняющий предпочтения в от-
ношении магазинов с точки зрения качества товара и цены.
b) Объясните частные коэффициенты регрессии.
c) Определите значимость всей регрессии.
d) Определите значимость частных коэффициентов регрессии.
e) Как вы считаете, является ли мул ьтиколл и неарность проблемой в данном случае? По-
чему да или почему нет?
3. Вы прочли в журнале статью, в которой говорится, что между ежегодными затратами на го-
товые обеды (PD) и годовым доходом (1NC) существует следующая связь:
PD = 23,4 + 0,003 xINC
Коэффициент при переменной INC считается значимым.
a) Правдоподобна ли эта связь? Может ли коэффициент регрессии, небольшой по вели-
чине, быть значимым?
b) Можете ли вы, исходя из предоставленной информации, сказать, хорошо ли разработа-
на модель?
c) Чему равны ожидаемые затраты на готовые обеды для семьи, зарабатывающей 30 тысяч
долларов в год?
d) Если семья, зарабатывающая 40 тысяч долларов в год, тратит 130 долларов на готовые
обеды, то чему равен остаточный член?
e) В чем значение отрицательного остаточного члена?


УПРАЖНЕНИЯ С ИСПОЛЬЗОВАНИЕМ INTERNET
И КОМПЬЮТЕРА
1. Используйте соответствующие компьютерные программы (SPSS, SAS, BMDP, Minitab или
Excel) для анализа данных из;
a) задачи 1
b) задачи 2.


КОММЕНТАРИИ
1. Jennifer Zajac, "Avon's Finally Glowing Thanks to Global Sales— and New Lip-Shtic", Money,
September 1997, p. 60; Cyndee Miller, "Computer Modelling Rings the Right Bell for Avon",
Marketing News, May 9, 1988, p. 14.

Глава 17. Корреляция и регрессия 681
2. Lauren Freedman, "Brand Names Will Bring New Velocity to Qn-Line Sales", Discount Store News,
August 18, 1997, p, 12; Pradeep K. Korgaonkar, Allen E, Smith, "Shopping Orientation, Demo-
1
graphic and Media Preference Correlates of Electronic Shopping' , in Kenneth D. Bahn (ed.),
Development in Marketing Science, vol. 11 (Blacksburg, VA: Academy of Marketing Science, 1988),
p. 52-5.
3. N.R. Draper, H. Smith, Applied Regression Analysis, 3rd ed. (New York, NY: John Wiley, 1988);
Michael E. Doherty, James A. Sullivan, "rho = p". Organisational Behavior & Human Decision
Processes, February 1989, p. 136—144; W.S. Martin, "Effects of Scaling on the Correlation Coeffi-
cient: Additional Considerations", Journal of Marketing Research, May 1978, p. 304—308; K.A. Bo]-
len, K.H. Barb, "Pearson's R and Coarsely Categorized Measures", American Sociological Review 46
(1981), p. 232-239.
4. Jacques Tacq, Multivariate Analysis Techniques in Social Science Research (Thousand Oaks, CA: Sage
Publications, 1997); John Neter, William Wasserman, Michael J. Kutner, Applied Linear Statistical
Methods, 3rded. (Burr Ridge, IL: Richard D. Irwin, 1990), p. 501-503.
5. Хотя эта тема здесь и не обсуждается, частные коэффициенты корреляции могут оказаться
полезными при размещении промежуточных переменных и разработке определенных ти-
пов каузальных статистических выводов.
6. "Bates Saatchi & Saatchi, Budapest: Accounting for Change", Accountancy, August 1995, p. 31; Ken
Kasriel, "Hungary's Million-Dollar Slap", Advertising Age, June 8, 1992.
7. Другим преимуществом т является то, что его можно обобщить до частного коэффициента
корреляции. См. работы Marjorie A. Pett, Nonparametric Statistics for Health Care Research
(Thousand Oaks, CA: Sage Publications, 1997); Sidney Siegel, N.J. Castellan, Nonparametric
Statistics, 2nded. (New York: McGraw-Hill, 1988).
8. В строгом смысле регрессионная модель требует, чтобы ошибки измерения были связаны
только с критериальной переменной и чтобы предикторы были измерены без ошибок. Что
касается сериально коррелированных ошибок, см. статью Eugene Canjels, Mark W. Watson,
"Estimating Deterministic Trends in the Presence of Serially Correlated Errors", Review of Economics
and Statistics, May 1997, p. 184-200.
9. См. любую книгу по регрессии, например, N.R. Draper, H. Smith, Applied Regression Analysis,
3rd ed. (New York, NY: Jonh Wiley, 1998); John Neter, William Wasserman, Michael H. Kutner,
Applied Linear Regression Models, 3rd ed. (Burr Ridge, IL: Richard D, Irwin, 1990).
10. Формально числитель равен b-{3 . Однако, поскольку выдвинута гипотеза, что fi =0,0,
его можно не включать в формулу.
П. Чем больше SEE , тем меньше подходит регрессия.
12. Допущение о фиксированных уровнях предикторов допускается в "классической" регрес-
сионной модели. Это возможно в случае соблюдения определенных условий, когда предик-
торы являются случайными переменными. Однако нельзя, чтобы их распределение зависе-
ло от параметров регрессионного уравнения. См. монографию N.R. Draper, H. Smith, Applied
Regression Analysis, 3rd. ed. (New York, NY: John Wiley, 1998).
13. Относительно метода обработки нарушений таких допущений см. работы Gary S. Dispensa,
"Use Logistic Regression with Customer Satisfaction Data", Marketing News, January 6, 1997, p. 13;
S.K. Reddy, Susan L. Holak, Subodh Bhat, "To Extend of Not to Extend: Success Determinants of
Line Extensions", Journal of Marketing Research, May 1994, p. 243-262.
14. Jon Rees, "Tight Ship Keeps Coke on Top of the World", Marketing Week, May 8, 1997, p. 28-29;
Nancy Giges, "Europeans Buy Outside Goods, but Like Local Ads", Advertising Age, April 27, 1992,
p. 11-126.
15. Относительно других применений множественной регрессии см. работы Abbie Griffin, "The
Effect of Project and Process Characteristics on Product Development Cycle Time", Journal of
Marketing Research, February 1997, p. 24-35; Hubert Gatignon, Jean-Mark Xuereb, "Strategic Ori-


Часть III. Сбор, подготовка и анализ данных
662
71
entationofthe Firm and New Product Performance , Journal of Marketing Research, February 1997,
p. 77-90; Nirmalya Kumar, Lisa K. Scheer, Jan-Benedict E.M. Steenkamp, "The Effects of Sup-
plier Fairness on Vulnerable Resellers", Journal of Marketing Research, February 1995, p, 54—65.
2
16. Другой причиной применения скорректированного R служит то, что благодаря оптимизи-
рующим свойствам метод наименьших квадратов максимален. Поэтому до некоторой сте-
пени R- всегда переоценивает величину связи. Относительно современного применения
2
скорректированного R см. работы "Ethics and Target Marketing: The Role of Product Harm and
Consumer Vulnerability", Journal of Marketing, January 1997, p. 1-20; Morris A. Cohen, Jehoshua
Eliashberg, Teck H. Ho, "An Anatomy and Launching Line Extensions", Journal of Marketing
Research, February 1997, p. 117-129.
17. Если ЙЧыборт равен 0, то обычный R˜ отражает только ошибку выборки и F коэффициент
будет стремиться к единице.
18. Другим подходом является иерархический метод, при котором переменные добавляют к
уравнению регрессии в порядке, установленном исследователем.
19. А.С. Atkinson, S.J. Koopman, N. Shepard, "Detecting Shocks: Outliers and Breaks in Time Series",
Journal of Econometrics, October 1997, p. 387—422; George C.S. Wang, Charles K. Akaby,
"Autocorrelation: Problems and Solutions in Regression Modelling", Journal of Business Forecasting
Methods & Systems, Winter 1994/1995, p. 18—26; David Balseley, Conditioning Diagnostics:
Collinearity and Weak Data in Regression (New York, NY: John Wiley, 1980); David Balseley, Edwin
Kuh, Roy E. Walsh, Regression Diagnostics (New York, NY: John Wiley, 1980).
20. Критерий Дурбина—Уотсона обсуждается практически в каждом учебнике по регрессии.
См., например, работы: Hiroyuki Hisamatsu, Koichi Maekawa, "The Distribution of the Durbin—
Watson Statistic in Integrated and Near-Integrated Models", Journal of Econometrics, April 1994,
p. 367—382; N.R. Draper, H. Smith, Applied Regression Analysis, 3rd ed. (New York, NY: John
Wiley, 1998).
21. Helen Berman, "Selling the Advertising Дгж1е Show Partnership", Folio: The Magazine for
Magazine Management (Special Sourcebook Issue for 1997 Supplement), p. 214-215; Lawrence
Sotey, R. Krishnan, "Does Advertising Subsidize Consumer Magazine Prices?", Journal of
Advertising, Spring 1987, p. 4-9.
22. John Fox, Applied Regression Analysis, Linear Models and Related Methods (Thousand Oaks, CA: Sage
Publications, 1997); Shelby H, Mclntyre, David B. Montgomery, V. Srinivasan, Barton A. Weitz,
"Evaluating the Statistical Significance of Models Developed by Stepwise Regression", Journal of
Marketing Research, February 1983, p. 1-11,
23. Относительно современного применения ступенчатой регрессии см. работы Christopher D.
Ittner, David F. Larcker, "Product Development Cycle Time and Organisational Performance",
Journal of Marketing Research, February 1997, p. 13-23; Michael Laroche, Robert Sadokierski,
"Role of Confidence in a Multi-Brand Model of Intentions for a High-Involvement Service", Journal
of Business Research, January 1994, p. 1-12.
24. Diane Crispell, "Hispanics at the Mall", American Demographics, October 1997, p, 35-36; Glen R.
Jarboe, Carl D. McDaniel, "A Profile of Browsers in Regional Shopping Malls", Journal of the
Academy of Marketing Science, Spring 1987, p. 46—53.
25. Edward Greenberg, Robert Parks, "A Predictive Approach to Model Selection and Multicollinear-
ity", Journal of Applied Econometrics, January-February 1997, p. 67—75; Chezy Ofir, Andre Khuri,
"Multicollinearity in Marketing Models: Diagnostics and Remedial Measures", International Journal
of Research in Marketing, March 1986, p. 181-205.
26. Возможные процедуры приведены в работах George C.S. Wang, "How to Handle MuHicolline-
arity in Regression Modelling", Journal of Business Forecasting Methods & Systems, Spring 1996,
p. 23—27; Charlotte H. Mason, William D. Perreault, Jr., "Collinearity, Power, and Interpretation of
Multiple Regression Analysis", Journal of Marketing Research, August 1991, p. 268-280; R.R.



Глава 17, Корреляция и регрессия 683
Hocking, ''Developments in Linear Regression Methodology: 1959-1982", Technometrics, August
1983, p. 219-230; Ronald D. Snee, "Discussion", Technometrics, August 1983, p. 230-237.
27. R. James Holzworth, "Policy Capturing with Ridge Regression", Organizational Behavior and Human
Decision Processes, November 1996, p. 171—179; Albert R. Wildt, "Equity Estimation and Assessing
Market Response", Journal of Marketing Research, February 1994, p. 437—451; Subhash Sharma,
William L. James, "Latent Root Regression: An Alternative Procedure for Estimating Parameters in
the Presence of М\\\\\со\\теш\у'\ Journal of Marketing Research, May 1981, p. 154—161.
28. Можно определить только относительную важность, поскольку важность независимой пе-
ременной зависит от всех независимых переменных в регрессионной модели.
29. Robert Rugimbana, "Predicting Automated Teller Machine Usage: The Relative Importance of Per-
ceptual and Demographic Factors", International Journal of Bank Marketing, April 1995, p. 26—32;
Paul E. Green, J. Douglas Carroll, Wayne S, DeSarbo, ''A New Measure of Predictor Variable Im-
portance in Multiple Regression", Journal of Marketing Research, August 1978, p. 356—360; Barbara
Bund Jackson, "Comment on 'A New Measure of Predictor Variable Importance in Multiple Regres-
sion'", Journal of Marketing Research, February 1980, p. 116—118.
30. При маловероятном событии, когда все предикторы не связаны, простые линейные корре-
ляции равны частным корреляциям, частичным корреляциям и коэффициенту "бета". По-
этому квадраты этих величин будут иметь тот же ранговый порядок относительной важно-
сти переменных.
31. Чтобы узнать больше о перекрестной проверке, см. работы Mark S. Litwin, How to Measure
Survey Reliability and Validity (Thousand Oaks, CA: Sage Publications 1997); X. Michael Song, Mark
E. Perry, "The Determinants of Japanese New Product Success", Journal of Marketing Research,
February 1997, p. 64—76; Bruce Cooil, Russell S. Winner, David L. Rados, "Cross-Validation for
Prediction", Journal of 'Marketing Research, August 1987, p. 271—279.
32. Относительно современного применения регрессии с фиктивными переменными см, рабо-
ты U. Yavas, "Demand Forecasting in a Service Setting", Journal of International Marketing and
Marketing Research, February 1996, p. 3—11; Jacob Cohen, Patricia Cohen, Applied Multiple
Regression Correlation Analysis for the Behavioural Sciences, 2nd ed. (Hikksdale, NJ: Lawrence Erl-
baum Associates, 1983), p, 181-222.
33. John Fox, Applied Regression Analysis, Linear Models, and Related Methods (Thousand Oaks, CA:
Sage Publication 1997). О применении регрессионного анализа для ковариационного анализа
см. статью Peter A. Dancin, Daniel С. Smith, "The Effect of Brand Portfolio Characteristics on
Consumer Evaluations of Brand Extensions", Journal of Marketing Research, May 1994, p. 229—241.
34. Jeoffrey I. Crouch, "Demand Elasticities in International Marketing: A Meta-Analytical Application
to Tourism", Journal of Business Research, June 1996, p. 117—136; Andrew Geddes, "Asian Airlines
Try Loyalty Offers", Advertising Age, December 14,1992, p. 10.
35. Lynne M. Andersson, Thomas S. Bateman, "Cynicism in the Workplace: Some Causes and Effects",
Journal of Organizational Behavior, September 1997, p. 449—469; I. Akaah, E.A. Riordan, "The Inci-
dence of Unethical Practices in Marketing Research: An Empirical Investigation", Journal of the
Academy of Marketing Science IS (1990), p. 143—152.
36. Eric L. Einspruch, An Introductory Guide to SPSS for Windows (Thousand Oaks, CA: Sage Publica-
tions, 1998); Paul E. Specto, SAS Programming for Researchers and Social Scientists (Thousand
Oaks, CA: Sage Publications, 1993); Mohamed Afzal Norat, "Software Reviews", Economic Journal:
The Journal of the Royal Economic Society, May 1997, p. 857-882; Seiter Charles, "The Statistical
Difference", Macworld, October 1993, p. 116-121.




Часть III. Сбор, подготовка и анализ данных
€84
Глава 18
Дискриминантный анализ
После изучения материала этой главы вы должны уметь...
1. Излагать концепцию дискриминантного анализа, его цели и применение в маркетинговых
исследованиях.
2. Обрисовывать процедуру выполнения дискриминантного анализа, включая формулирова-
ние проблемы, определение коэффициентов дискриминантной функции и значимости,
интерпретацию и проверку достоверности.
3. Обсуждать множественный дискриминантный анализ и различие между дискриминант-
ным анализом для двух групп и множественным дискриминантным анализом.
4. Объяснять пошаговый дискриминантый анализ и описывать метод Махаланобиса.


КРАТКИЙ ОБЗОР
Эта глава посвящена дискриминантному анализу. В начале главы мы установим его связь с
регрессионным (глава 17) и дисперсионным (глава 18) анализом. Опишем модель и общую про-
цедуру выполнения дискриминантного анализа, отметив такие стадии: формулировка проблемы,
вычисление коэффициентов дискриминантной функции, определение значимости, интерпрета-
ция и проверка результатов. Данная процедура проиллюстрирована на примере дискриминанто-
ного анализа для двух групп. Рассмотрен пример множественного дискриминантного анализа
(для трех групп). Кроме того, мы изучим пошаговый дискриминантный анализ.
Начнем с примеров, иллюстрирующих применение дискриминантного анализа для двух
групп и множественного дискриминантного анализа.

ПРИМЕР. Покупка товаров со скидкой
Для того чтобы определить корреляцию характеристик покупателей с их предрасполо-
женностью к покупке товаров со скидками, был проведен опрос 294 потребителей, которые
благосклонно относятся к рекламе таких товаров. Предикторами являлись четыре фактора,
связанные с отношением покупателей к процессу покупки товаров и их поведением, а также
избранные демографические характеристики (пол, возраст и доход).
Зависимой переменной выбрали степень предрасположенности респондентов к скидкам.
При этом определены три ее уровня. Респонденты, заявившие, что в течение последних 12
месяцев ни разу не купили товар со скидками, были отнесены к категории "не потребите-
ли"; респонденты, заявившие, что они сделали за этот период одну-две таких покупки, бы-
ли отнесены к редким покупателям; респонденты, сделавшие больше двух покупок, были
классифицированы как частые покупатели товаров со скидками. Для изучения данных мар-
кетологи применили множественный дискриминантный анализ.
Установлено два главных факта. Во-первых, восприятие потребителями соотношения
"усилия, необходимые для получения скидки/ размер скидки", было наиболее эффективной пе-
ременной для выведения различия (дискриминации) между частыми, редкими покупателями и
лицами, не являющимися потребителями предлагаемого товара со скидкой. Маркетологи выяс-
нилим, что чувствительные к скидкам покупатели согласны на относительно меньший размер
скидки по сравнению с другими покупателями. Во-вторых, потребители, которые были хорошо
осведомлены о постоянных ценах на товары и поэтому легко узнавали товары со скидками, веро-
ятно, чаще других, откликаются на предложение товаров по сниженным ценам [1].


Глава 18. Дискриминантный анализ 685
ИНОЙ ПРИМЕР. ВЫБОР УНИВЕРМАГА

Дискриминантный анализ для двух групп
В маркетинговом исследовании "Выбор универмага", маркетологи использовали дискри- 1
минантный анализ для двух групп, чтобы выяснить, отличаются ли значения, которые при- I
сваивают восьми факторам выбора универмага респонденты, которым известны универмаги I
от тех значений, которые выставляют респонденты, которым универмаги не известны.
Зависимой переменной были две группы респондентов — владеющие и не владеющие ин- !
формацией об универмагах, а независимыми переменными — важность (значение) восьми
факторов критерия выбора. Общая дискриминантная функция была значимой, что указы- |
вало на существенное различие между двумя группами. Результаты показали, что по срав- I
нению с респондентами, ничего не знающими о данных универмагах, респонденты, хорошо !
осведомленные о них, придавали большее относительное значение качеству товаров, уело- I
виям возврата товаров, услугам продавцов, а также условиям кредитования и расчета с по-
купателями.
—- „тчннн-- . „ „ - — . -,
. „ , - .. TT-T.IIIJ ".•••"•"U-J.




В указанном примере с универмагом задействованы две группы респондентов (знакомые и
не знакомые с универмагом), в то время как в примере с предрасположенностью к покупкам
товаров со скидками проверяли три группы (лица, не являющиеся покупателями товаров со
скидкой; редкие покупатели и частые). В данных исследованиях обнаружены существенные
межгрупповые различия при использовании многих предикторов (независимых переменных),
Исследование различий между группами — основа концепции дискриминантного анализа.


ОСНОВЫ ДИСКРИМИНАНТНОГО АНАЛИЗА
Дискриминантный анализ (discriminant analysis) используется для анализа данных в том слу-
чае, когда зависимая переменная категориальная, а предикторы (независимые переменные)
интервальные [2].

Дискриминантный анализ (discriminant analysis)
Метод для анализа данных маркетинговых исследований в том случае, когда зависимая пе-
ременная категориальная, а предикторы (независимые переменные) интервальные.

Например, зависимая переменная может быть выбором торговой марки персонального
компьютера (торговые марки А, В или С), а независимыми переменными могут быть рейтинги
свойств персональных компьютеров, измеренные по семибалльной шкале Лайкерта. Дискри-
минантный анализ преследует такие цели.
1. Определение дискриминантных функций (discriminant functions) или линейных комбинаций
независимых переменных, которые наилучшим образом различают (дискриминируют) ка-
тегории (группы) зависимой переменной.
2. Проверка существования между группами значимых различий с точки зрения независимых
переменных.
3. Определение предикторов, вносящих наибольший вклад в межгрупповые различия.
4. Отнесение случаев к одной из групп (классификация), исходя из значений предикторов.
5. Оценка точности классификации данных на группы.

Дискриминантная функция (discriminant functions)
Выведенная посредством дискриминантного анализа линейная комбинация независимых
переменных, с помощью которой можно наилучшим образом различить (дискриминиро-
вать) категории зависимой переменной.


686 Часть III. Сбор, подготовка и анализ данных
Метод дискриминантного анализа описывается числом категорий, имеющихся у зависи-
мой переменной. Если она имеет две категории, то метод называют дискрииинантным анализом
для двух групп (two-group discriminant analsysis).

Дискриминантный анализ для двух групп (two-group discriminant analsysis)
Метод дискриминантного анализа, когда зависимая переменная имеет две категории.

Если анализируют три или больше категорий, то метод называют множественным дискри
минантным анализом (multiple descriminant analysis).

J Множественный Дискриминантный анализ (multiple descriminant analysis)
Метод дискриминантного анализа, когда у зависимой переменной имеется три или больше
категорий.

Главное отличие между ними заключается в том, что при наличии двух групп возможно
вывести только одну дискриминантную функцию. Используя множественный Дискрими-
нантный анализ, можно вычислить несколько функций [3].
В маркетинговых исследованиях можно привести массу примеров применения дискри-
минантного анализа. Так, с помощью этого метода можно получить ответы на следующие
вопросы [4].
• Чем, с точки зрения демографических характеристик, отличаются приверженцы данно-
го магазина от тех, у кого эта приверженность отсутствует?
• Отличаются ли в потреблении замороженных продуктов покупатели, которые пьют без-
алкогольные напитки мало, умеренно и много?
• Какие психографические характеристики помогают провести различия между воспри-
имчивыми и не восприимчивыми к цене покупателями бакалейных товаров?
• Различаются ли между собой различные сегменты рынка по своим предпочтениям к
средствам массовой информации?
• Какие существуют различия между постоянными покупателями местных универсаль-
ных магазинов и постоянными покупателями общенациональных сетей универмагов с
точки зрения стиля жизни?
• Какими отличительными характеристиками обладают потребители, реагирующие на
прямую почтовую рекламу?


СВЯЗЬ С РЕГРЕССИОННЫМ И ДИСПЕРСИОННЫМ
АНАЛИЗОМ
Связь между дискриминантным, дисперсионным и регрессионным анализом показана в
табл. 18.1.
Мы обьясним эту связь на примере, в котором исследователь пытается установить зависи-
мость величины суммы, на которую заключается договор страхования жизни, от возраста и до-
хода. Все три метода включают единственную зависимую переменную и несколько предикто-
ров или независимых переменных. Однако природа этих переменных различна. В случае дис-
персионного и регрессионного анализа зависимая переменная метрическая или интервальная
(страховая премия выражена в долларах), в то время как в дискриминантном анализе зависи-
мая переменная категориальная (страховая премия классифицируется как высокая, средняя
или низкая). Независимые переменные являются категориальными в дисперсионном анализе
(возраст и доход классифицируют как старый (высокий), средний и молодой (низкий)), но вы-


Глава 18. Дискриминантный анализ 687
ступают метрическими в регрессионном и дискриминантном анализе (возраст в годах и доход в
долларах, т.е. оба измерены с помощью относительной шкалы).

Таблица 18.1. Сходства и отличия между дисперсионным, регрессионным и дискрими-
1
нантным анализом
Дисперсионный анализ Регрессионный анализ Дискритнантный анализ

Сходства

Число зависимых переменных Одна
Одна Одна
Число независимых переменных Несколько Несколько Несколько
Отличия
Метрическая
Природа зависимой переменной Метрическая Категориальная
Природа независимой переменной Категориальная Метрическая Метрическая

Д искри минантный анализ для двух групп, когда зависимая переменная имеет только две ка-
тегории, тесно связан со множественным регрессионным анализом. В этом случае множествен-
ный регрессионный анализ, в котором зависимую переменную кодируют как фиктивную пере-
менную, имеющую значение 0 или 1, приводит к частным коэффициентам регрессии, которые
пропорциональны коэффициентам д искри минантной функции (см. следующий раздел).


МОДЕЛЬ ДИСКРИМИНАНТНОГО АНАЛИЗА
Модель дискриминантного анализа (discriminant analysis model) имеет следующий вид:
}

где/) — д искрим инантны и показатель (дискриминант), Ь — дискри минантный коэффици-
ент или вес, Х˜ предиктор или независимая переменная.

Модель дискриминантного анализа (discriminant analysis model)
Статистическая модель, лежащая в основе дискриминантного анализа.

Коэффициенты или веса (Ь) определяют таким образом, чтобы группы максимально воз-
можно отличались значениями дискриминантной функции. Это происходит тогда, когда от-
ношение межгрупповой суммы квадратов к внутри групповой сумме квадратов для дискрими-
нантных показателей максимально. Любая другая линейная комбинация предикторов приво-
дит к меньшему значению этого отношения. Технические детали вычисления описаны в
приложении 18А. С дискриминантным анализом связан ряд статистик.


СТАТИСТИКИ, СВЯЗАННЫЕ
С ДИСКРИМИНАНТНЫМ АНАЛИЗОМ
Ниже приведены основные статистики, связанные с дискриминантным анализом.
Каноническая корреляция (canonical correlation). Измеряет степень связи между дискрими-
наитными показателями и группами. Это мера связи между единственной дискриминирую-
щей функцией и набором фиктивных переменных, которые определяют принадлежность к
данной группе.
Центроид (средняя точка) (centroid). Центроид — это средние значения для дискриминант-
ных показателей конкретной группы. Центроидов столько, сколько групп, т.е. один центроид
для каждой группы. Средние группы для всех функций — это групповые центроиды.


688 Часть III. Сбор, подготовка и анализ данных
Классификационная матрица (classification matrix). Иногда ее называют смешанной матрицей,
или матрицей предсказания. Классификационная матрица содержит ряд правильно классифи-
цированных и ошибочно классифицированных случаев. Верно классифицированные случаи
лежат на диагонали матрицы, поскольку предсказанные и фактические группы одни и те же.
Элементы, не лежащие по диагонали матрицы, представляют случаи, классифицированные
ошибочно. Сумма элементов, лежащих на диагонали, деленная на общее количество случаев,
дает коэффициент результативности.
Коэффициенты дискриминантной функции (discriminant function coefficients). Коэффициен-
ты д искри ми нантной функции (ненормированные) — это коэффициенты переменных, когда
они измерены в первоначальных единицах.
Дискриминантные показатели (discriminant scores). Сумма произведений ненормированных
коэффициентов дискриминантной функции на значения переменных, добавленная к посто-
янному члену.
Собственное (характеристическое) значение (eigenvalue). Для каждой дискриминантной
функции собственное значение — это отношение межгрупповой суммы квадратов к внутри-
групповой сумме квадратов. Большие собственные значения указывают на функции более вы-
сокого порядка.
f-статистика и ее значимость (F values and their significance). Значения /"-статистики вычис-
ляют однофакторный дисперсионный анализ, разбивая на группы независимую переменную.
Каждый предиктор, в свою очередь, служит в ANOVA метрической зависимой переменной.
Средние группы и групповые стандартные отклонения (group means and group standard devia-
tions). Эти показатели вычисляют для каждого предиктора каждой группы.
Объединенная межгрупповая корреляционная матрица (pooled within-group correlation matrix).
Объединенную межгрупповую корреляционную матрицу вычисляют усреднением отдельных
ковариационных матриц для всех групп.
Нормированные коэффициенты дискриминантных функций (standardized discriminant function
coefficients). Коэффициенты дискриминантных функций используют как множители для нор-
мированных переменных, т.е. переменных с нулевым средним и дисперсией, равной 1.
Структурные коэффициенты корреляции (structure correlations). Также известны как дискри-
минантные нагрузки, представляют собой линейные коэффициенты корреляции между предик-
торами и дискриминантной функцией.
Общая корреляционная матрица (total correlation matrix). Если при вычислении корреляций
наблюдения обрабатывают так, как будто они взяты из одной выборки, то в результате получа-
ют общую корреляционную матрицу.
Коэффициент л Уилкса (Wilks's А). Иногда называемый f-статисшкой, коэффициент X
Уилкса для каждого предиктора — это отношение внутригрупповой суммы квадратов к общей
сумме квадратов. Его значение варьирует от 0 до 1. Большое значение X (около 1) указывает на
то, что средние групп не должны различаться. Малые значения Я (около 0) указывают на то, что
средние групп различаются.
В дискриминантном анализе существуют такие допущения: каждая группа является вы-
боркой из многомерной нормально распределенной совокупности; все совокупности имеют
одну и ту же ковариационную матрицу. Чтобы лучше понять роль допущений и описанных
выше статистик, следует изучить методы выполнения д искри минантного анализа.


ВЫПОЛНЕНИЕ ДИСКРИМИНАНТНОГО АНАЛИЗА
Выполнение дискриминантного анализа включает следующие стадии: формулирование
проблемы, вычисление коэффициентов дискриминантной функции, определение значимо-
сти, интерпретация и проверка достоверности (рис 18.1).
Эти стадии обсуждаются и иллюстрируются для дискриминантного анализа двух групп.
Множественный дискриминантный анализ рассматривается в этой главе ниже.




Глава 18. Дискриминантный анализ 689
Определение зкачи
дискриминантной фунщии




Сленга достоверности
дискриминантного анализа

Рис. 18.1. Выполнение дискриминантного анализа


Формулирование проблемы
Первый шаг дискриминантного анализа — формулирование проблемы путем определе-
ния целей, зависимой переменой и независимых переменных. Зависимая переменная долж-
на состоять из двух или больше взаимоисключающих и взаимно исчерпывающих категорий.
Если зависимая переменная измерена с помощью интервальной или относительной шкалы,
то ее следует, в первую очередь, перевести в статус категориальной. Например, отношение к
торговой марке, измеренное по семибалльной шкале, можно категоризировать как неблаго-
приятное (1, 2, 3), нейтральное (4) и благоприятное (5, 6, 7). Можно поступить иначе. Для
этого следует построить график распределения значений зависимой переменной и сформи-
ровать группы равного размера с помощью точек отсечения. Предикторы следует выбирать,
исходя из теоретической модели или ранее проведенного исследования, или, в случае поис-
кового исследования, из интуиции и опыта исследователя.
Следующий шаг — разделение выборки на две части. Одна из них — анализируемая выбор-
ка (analysis sample) — используется для вычисления дискриминантной функции.

Анализируемая выборка (analysis sample)
Часть общей выборки, которую используют для вычисления дискриминантной функции.

Другая часть — проверочная выборка (validation sample) — предназначена для проверки дис-
криминантной функции.
Когда выборка достаточно большая, ее можно разбить на две равные части. Одна служит
анализируемой выборкой, а другую используют для проверки. Затем роль этих половинок вза-


690 Часть III. Сбор, подготовка и анализ данных
имно меняют и повторяют анализ. Это называется двойной перекрестной проверкой, и она
аналогична методу, рассмотренному в регрессионном анализе (глава 17).
i
Проверочная выборка (validation sample)
Часть общей выборки, которую используют для проверки результатов расчета на основании
анализируемой выборки.

Часто распределение количества случаев в анализируемой и проверочной выборки явствует из
распределения в обшей выборке. Например, если общая выборка содержит 50% лояльно и 50% нело-
яльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая содер-
жать 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 25%
лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки
таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).
И наконец, проверку достоверности дискриминантной функции предлагают выполнять не-
однократно. Каждый раз выборку следует разбивать на две части: для анализа и проверки. Вычис-
ляют дискриминантную функцию и выполняют анализ достверности модели. Таким образом,
оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы [5].
Чтобы лучше проиллюстрировать дискриминантный анализ для двух групп, обратимся к
примеру. Предположим, что мы хотим определить главные характеристики семей, которые от-
дыхали на курорте в последние два года, Данные получены на основании выборки, включаю-
щей 42 семьи. Из них 30 включены (как показано в табл. 18.2) в анализируемую выборку, а ос-
тавшиеся 12 (как показано в табл. 18.3) стали частью проверочной выборки.

Таблица 18.2. Информация об отдыхе на курорте: анализируемая выборка
Номер Посещение Ежегодный Отношение Размер Возраст
Значение, Сумма,
курорта доход семьи к путешествию придаваемое семьи главы семьи потраченная
fa тысячах семейному семьей на отдых
долларов) отдыху
1 3
1 5 43
8 С (2)
50,2
4 61 Б(3)
2 i 1
70,3 '.;
52
3 i Б2.9 5 6 5(3)
1
•'- 5 5 36
i 46,5 М(1)
i
Б(3)
1 52,7 6 55
5 6 Л

75.;) 68 5(3]
1 •
6 i 8
3 62 С (2)
7 1 5 3
46,2
6 51 С (2)
1 57,0 2
В 4
5 57 Б(3)
4
9 1 7
64,1
10 6 5 45 Б(3)
1 68,1 /
44
И 1 73,4 6 7 'I Б(3)
64
4
1
12 5 8 5(3)
71,9
13 1 8 54 С (2)
i 6
56,2
14 3
1 2 56 Б(3)
•1
49,3
2
15 1 62,0 5 58 Б(3)
6
3
2 32,1 5
1G 4 58 М(1)
36,2 2
2 М(1)
17 4 3 55
2 С (2)
43,2 57
18 2 2 5
!)U t-
19 2 4 37
2 5 С (2)
2
20 6 3 42
6
44,1 С (2)



691
Глава 18. Дискриминантный анализ
Окончание табл. 18.2

Номер Посещение Ежегодный Отношение Размер Возраст Сумма,
Значение,
придаваемое семьи главы семьи потраченная
курорта доход семьи к путешествию
(в тысячах семейному семьей на отдых
долларов) отдыху
МП)
6 2
6
21 38,3 45
2
'•:/ 3
1 57 С (2)
55,0 2
2
5
2 3 М(1)
23 46,1 3 51
24 2 6
35,0 4 5 64 МО)
25 2 2 54
37,3 М(1)
7 4
26 2 5 3 56
41,8 С (2)
|
;
27 8 2 36 С (2)
57,0 3
,•
28 33,4 6 8 2 50 МО)
2 3
29 37,5 2 3 48 МО)
МП)
2 3 2
30 41,3 3 42

Таблшр 18.3, Информа!
Номер Посещение Ежегодный Отношение Значение, Размер Возраст Сумма,
курорта доход семьи к путешествию придаваемое семьи главы семьи потраченная
(в тысячах семейному семьей на отдых
долларов) отдыху
1 4 45 С (2)
1 50,8 7 3
г 7
63,6 7 55 Б(3)
1 4
3 6 4 С (2)
54,0 7 58
'
•'< г
45,0 . 3 С (2)
1 1 60
6 Б(3)
68,0 В 6
5 1 46
э
5 Б(3)
6
1
6 62,1 56
f. МП)
35,0 3
7 2 4 54
м(1)
2 49,6 3 5 39
Б i'>
,
9 44
3 Б(3)
2 39,4 6
мп)
6
10 2 2 5 51
37,0
.- 7 3 3 37
!! С (2)
54,5
MJ1)
2
38,2 2 3 49
12 2

Семьям, которые отдыхали на курорте в последние два года, присвоен код I; тем же, кото-
рые не посетили курорт за указанный период времени, присвоен код 2. Обе выборки (как ана-
лизируемая, так и проверочная) сбалансированы с точки зрения посещаемости курорта. Как
видно, анализируемая выборка содержит 15 семей каждой категории, а проверочная — по 6 се-
мей каждой категории, Кроме того, получены данные о ежегодном доходе каждой семьи
(доход), отношении к путешествию (путешествие, оценивали по девятибалльной шкале), зна-
чении, придаваемом семейному отдыху (отдых, оценивали по девятибалльной шкале), размеру
семьи (размер семьи) и возрасту главы семьи (возраст).

Определение коэффициентов дискриминантной функции
После определения анализируемой выборки (табл. 18.2) мы можем вычислить коэффици-
енты дискриминантной функции, используя два метода. Прямой метод (direct method) — вы-
числение дискриминантной функции при одновременном введении всех предикторов.

Часть III. Сбор, подготовка и анализ данных
692
Прямой метод (direct method)
Метод дискриминантного анализа, в котором дискриминантную функцию вычисляют при
одновременном введении всех предикторов.


В этом случае учитывается каждая независимая переменная. При этом ее дискриминирую-
щая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда анали-
тик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы
в основе различения лежали все предикторы. Альтернативным методом является пошаговый
метод. При пошаговом дискриминантом анализе (stepwise discriminant analysis) предикторы вво-
дят последовательно, исходя из их способности различить (дискриминировать) группы.

Пошаговый дискриминантный анализ (stepwise discriminant analysis)
Дискриминантный анализ, при котором предикторы вводятся последовательно, в зависимо-
сти от их способности различить группы.


Этот метод лучше применять в ситуации, когда исследователь хочет отобрать подмножество
предикторов для включения их в дискриминатную функцию.
Результаты выполнения дискриминантного анализа для двух групп данных из табл. 18.2 с
использованием SPSS представлены в табл. 18.4.

Таблица 18.4. Результаты дискриминантного анализа для двух групп
Средние значения внутри групп
Размер семьи Возраст
Посещение Доход Путешествие Отдых

1 4,33333 53,73333
60,52000 5,80000
5,40000
4,06667 2,80000
2 41,91333 4,33333 50,13333
4,93333 3,56667 51,93333
В целом 51,21667 4,86667

Стандартные отклонения в группах
1,85052 1,23443 8,77062
1 9,83065 1,91982
0,94112
2,05171 8,27101
2 1,95180
7,55115
1,33089 8,57395
В целом 2,09981
1,97804
12,79523
Объединенная внутригрупповая корреляционная матрица
Размер семьи Возраст
Доход Путешествие Отдых

Доход 1,00000
Путешествие 1 ,00000
0,19745
0,08434
Отдых 1,00000
0,91148
Размер семьи 0,08887 -0,01681 0,07046 1,00000
-0,19709 - 0,04301
Возраст 0,01742 ), 00000
-0,01431

Коеффициент л (U -статистика) и F-критерий для одномерной выборки с одной и 28 степенями свободы
Значимость
Переменная Коеффициент Я Уилкса Значение F
0,0000
33,80
Доход 0,45310
Путешествие 2,277 0,1425
0,92479
0,0209
Отдых 0,82377 5,990
0,0007
14,64
Размер семьи 0,65672
0,2572
Возраст 0,95441 1,338



693
Глава 18. Дискриминантный анализ
Продолжение табл. 18.4

Канонические дискрнминантные функции
Собствен- Процент Кумуля- Значи-
Функция Каноничес- Коэф- Хи-квадрат Степени
После
вариация тивный мость
кая корре- функ- фициент свободы
ное зна-
Уилкса
ции
чение процент ляция
О 0,3589 26,130 5 0,0001
Г 1,7862 100,0 100,0 0,8007

* обозначает каноническую дискриминантную функцию, оставшуюся в анализе.

Коэффициенты канонической дискриминацией функции
Функция 1

Доход 0,74301
Путешествие 0,09611
Отдых 0,23329
Размер семьи 0,46911
Возраст 0,20922
Структурная матрица:
Объединенная корреляционная матрица между дискриминирующими переменными и каноническими дискриминант-
ными функциями (переменные расположены в соответствии с размером корреляции внутри функции)
Функция 1
Доход 0,82202
Размер семьи 0,54096
Отдых 0,34607
Путешествие 0,21337
Возраст 0,20922
Ненормированные коэффициенты канонической дискриминацией функции
Функция 1
Доход 0,847671 ОЕ-01
Путешествие 0,4964455Е-01
Отдых 0,1202813
Размер семьи 0,4273893
Возраст 0,2454380Е-01
(Константа) -7,975476
Канонические дискрнминантные функции, оцененные по групповым средним (центроидам групп)
Группа Функция 1
Т˜ 1,29118
2 -1,29118
Результаты классификации для случав, отобранных для анализа
Фактическая группа Число случаев Предсказанная группа - 1 Принадлежность к группе 2
Группа 1 15 12 3
80% 20%
Группа 2 D
IS 15
0% 100%
Процент правильно классифицированных по группам случаев; 90%


694 Часть III. Сбор, подготовка и анализ данных
Окончание табл. 18.4

Результаты -классификации для случав, не отобранных для анализа
Фактическая группа Число случаев Предсказанная Принадлежность к
группа — 1 группе 2
Группа 1 6 4 2
33,3%
66,7%
Группа 2 6 0 6
0% 100%
Процент правильно шссифицированных по группам случаев 83,33%
Некоторые результаты можно получить, изучив групповые средние и стандартные отклоне-
ния. Маркетологи обнаружили, что в деление совокупности на две группы самый большой
вклад внесла переменная "доход". Кроме того, оказалось, что переменная "значение, прида-
ваемое семейному отдыху'1, важнее для различения групп, чем переменная "отношение к пу-
тешествию". По возрасту главы семьи две группы различаются мало, а стандартное отклонение
этой переменной большое.
Объединенная внутригрупповая корреляционная матрица указывает на низкие коэффи-
циенты корреляции между предикторами. Маловероятно, что возникнет проблема мульти-
кол л и неарности. Значимость одномерных /^-статистик (отношений внутри групповых сумм
квадратов к обшей сумме квадратов) указывает, что когда предикторы рассматриваются по
отдельности, то только доход; значение, придаваемое семейному отдыху; и размер семьи
значимо различаются между семьями, которые посетили курорт, и между теми, кто не отды-
хал на курорте.
Поскольку имеется две группы, то оценивается только одна дискриминантная функция,
Собственное значение, соответствующее этой функции, равно 1,7862. Каноническая корреля-
ция, соответствующая этой функции, равна 0,8007. Квадрат корреляции, равный (0,8007)2 =
0,64, показывает, что 64% дисперсии зависимой переменной (посещение курорта) объясняется
этой моделью. Следующая стадия дискриминантного анализа включает определение значимо-
сти д искри ми нантной функции.

Определение значимости дискриминантной функции
Бессмысленно интерпретировать результаты анализа, если определенные дискрими-
нантные функции не являются статистически значимыми. Поэтому следует выполнить
статистическую проверку нулевой гипотезы о равенстве средних всех дискриминантных
функций во всех группах генеральной совокупности. В программе SPSS эта проверка ба-
зируется на коэффициенте лямбда (X) Уилкса. Если одновременно проверяют несколько
функций, как в случае множественного дискриминантного анализа, то коэффициент X
является суммой одномерных X для каждой функции. Уровень значимости оценивают,
исходя из преобразования Х-статистики в статистику хи-квадрат (исходя из распределе-
ния хи-кеадрат, которому подчиняется Х-статистика). При проверке значимости в приме-
ре с посещением курорта (табл. 18.4) можно отметить, что Я, равная 0,3589, преобразуется
в хи-квадрат статитстику, равную 26,13 с пятью степенями свободы. Она значима при
уровне, превышающем 0,05. В программе SAS вычисляют приближенную F-статистику,
основанную на апроксимации к распределению отношения правдоподобия. В программе
BMDP проверка нулевой гипотезы базируется на преобразовании Х- статистики Уилкса в
F-статистику. В Minitab нельзя выполнить проверку значимости. Если нулевую гипотезу
отклоняют, что указывает на значимую дискриминацию, то можно продолжать интерпре-
тировать результаты [6].




Глава 18. Дискриминантный анализ 695
Интерпретация результатов
Интерпретация дискриминантных весов аналогична интерпретации во множественном
регрессионном анализе. Значение коэффициента для конкретного предиктора зависит от дру-
гих предикторов, включенных в дискриминантную функцию. Знаки коэффициентов условны,
но они указывают, какие значения переменной приводят к большим и маленьким значениям
.функции и связывают их с конкретными группами.
При наличии мультиколлинеарности между независимыми переменными не существует
однозначной меры относительной важности предикторов для дискриминации между группа-
ми [7]. Помня об этом предостережении, можно получить некоторое представление об относи-
тельной важности переменных, изучив абсолютные значения нормированных коэффициентов
дискриминантной функции. Как правило, предикторы с относительно большими нормиро-
ванными коэффициентами вносят больший вклад в дискриминирующую мощность функции
по сравнению с предикторами, имеющими меньшие коэффициенты.
Некоторое представление об относительной важности предикторов можно также получить,
изучив структурные коэффициенты корреляции, которые также называют каноническими или
дискриминантными нагрузками. Эти линейные коэффициенты корреляции между каждым из
предикторов и дискриминантной функцией представляют дисперсию, которую предиктор де-
лит вместе с функцией. Как и нормированные коэффициенты, эти коэффициенты корреля-
ции следует использовать осторожно.
Полезно исследовать нормированные коэффициенты дискриминантной функции в при-
мере с отпуском на курорте. С данными низкими коэффициентами корреляциями между пре-
дикторами можно использовать значения нормированных коэффициентов, чтобы предполо-
жить, что доход — наиболее важный предиктор при дискриминации между группами, а за ним
следуют размер семьи и значение, придаваемое семейному отдыху. Аналогичное наблюдение
получено из проверки структурных корреляций. Эти коэффициенты линейной корреляции
между предикторами и дискриминантной функцией перечислены в порядке их убывания.
Также даны и ненормированные коэффициенты дискриминантной функции. Для класси-
фикации данных их можно применить к необработанным значениям переменных в провероч-
ной выборке. Кроме того, показаны групповые центроиды, дающие значения дискриминант-
ной функции, оцененные по групповым средним. Центроид группы 1 (семьи, отдыхающие на
курорте) имеет положительное значение, а центроид группы 2 — равное ему, но отрицательное.
Знаки коэффициентов соответствующих предикторов положительны. Это означает, что чем
выше доход семьи; ее размер; значение, придаваемое семейному отдыху; отношение к путеше-
ствию и возраст, тем выше вероятность семейной поездки на курорт. Разумно создать профиль
двух групп с точки зрения трех предикторов, которые кажутся наиболее важными: доход, раз-
мер семьи и значение, придаваемое семейному отдыху. Значения этих трех переменных для
двух групп приведены в табл. 18.4.
Относительную важность предикторов иллюстрирует следующий пример.

ПРИМЕР. Удовлетворенные сотрудники остаются
Чтобы определить, какие факторы объясняют различия между торговыми работниками,
уволившимися из крупной компании по производству компьютеров, и теми, кто остался,
использовали дискриминантный анализ. Независимыми служили следующие переменные:
рейтинг компании, безопасные условия труда, удовлетворение работой по семибалльной
шкале, наличие конфликтных ситуаций по четырехбалльной шкале, наличие неопределен-
ности по четырехбалльной шкале и объем продаж по девятибалльной шкале. Зависимой пе-
ременной было разделение между теми торговыми работниками, кто остался работать в дан-
ной компании, и теми, кто уволился. Каноническая корреляция, измеряемая коэффициен-
том дискриминации R = 0,4572, оказалась значимой (Л Уилкса = 0,7909; F (26,173) = 1,7588;
р = 0,0180).
Результаты, полученные при одновременном введении всех переменных в дискрими-
нантный анализ, даны в следующей таблице.


696 Часть III. Сбор, подготовка и анализ данных
Результаты дискриминантного анализа
Канонические
Переменная Коэффициенты Нормированные
нагрузки
коэффициенты

Работа3 0,0903 0,3910 0,5446
Продвижение по службе3 0,0288 0,1515 0,5044
Безопасные условия труда 0,1384
0,1567 0,4958
Вэаимотношения с покупателями13 0,0086 0,1751 0,4906
Рейтинг компании 0,3240 0,4824
0,4059
Работа с другими15 0,0018 0,0365 0,4651
Интенсивность трудаь - 0,3252
-0,0148 0,4518
Менеджмент (управление) временем-территорией11 0,0126 0,2899 0,4496
Продажи0 0,1404 0,4484
0,0059
Мастерство презентации" 0,2526 0,4387
0,0118
Техническая информация6 0,0065
0,0003 0,4173
0,1843
3
Выплата пособий 0,0600 0,3788
Достигнутая норма выработки11 0,0035 0,2915 0,3780
3
Менеджмент 0,0014 0,0138 0,3571
Сбор информации11 - 0,3327
-0,0146 0,3326
Семьяс - 0,0684 - 0,3408 - 0,3221
Менеджер по продажам3 -0,0121 -0,1102 0,2909
Сослуживец3 0,0225 0,0893 0,2671
Покупателе - 0,2797
- 0,0625 -0,2602
Семья11 0,1970
0,0473 0,2180
Работа11 0,5312
0,1378 0,2119
Работа0 0,0410 0,5475 -0,1029
Покупатель11 - 0,0060 -0,0255 0,1004
Менеджер по продажам' - 0,0365 - 0,0499
-0,2406
Менеджер по продажам11 0,0467
- 0,0606 - 0,3333
3
Покупатель - 0,0338 -0,1488 0,0192

Замечание. Ранговый порядок важности переменной присвоен в соответствии с величиной канонической нагрузки.
'Примечание. Удовлетворение
ь
Эффективность работы
с
Неопределенность
a
Конфликт

Ранговый порядок важности переменной в соответствии с относительной величи-
ной канонических нагрузок представлен в первой колонке. Удовлетворение работой и
возможность продвижения по службе самые важные дискриминаторы, за которыми
следовали условия безопасной работы. Продавцы, оставшиеся работать в компании, в
отличие от уволившихся, считали свою работу увлекательной, интересной и принося-
щей удовлетворение [8].

Обратите внимание, что в этом примере, исходя из канонических нагрузок, продвижение
по службе идентифицировали как вторую наиболее важную переменную. Однако продвижение
по службе не является второй наиболее важной переменной, если исходить из абсолютной ве-
личины нормированных коэффициентов дискриминантной функции. Эта аномалия — ре-
зультат мультиколлинеарности.


697
Глава 18. Дискриминантный анализ
При интерпретации результатов дискриминантного анализа также может помочь разработ-
ка характеристической структуры (characteristic profile) для каждой группы посредством описа-
ния каждой группы через групповые средние для предикторов.

Характеристическая структура (characteristic profile)
Средство интерпретации результатов дискриминантного анализа описанием каждой группы
через групповые средние для предикторов.

Если важные предикторы установлены, то сравнение групповых средних по этим перемен-
ным может помочь понять межгрупповые различия. Однако прежде чем интерпретировать ка-
кие-либо факты, необходимо убедиться в достоверности результатов.

Оценка достоверности дискриминантного анализа
Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализи-
руемую часть выборки используют для вычисления д искри ми нантной функции, а провероч-
ную— для построения классификационной матрицы. Д искри ми нантные веса, определенные
анализируемой выборкой, умножают на значения независимых переменных в проверочной
выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем слу-
и
аи распределяют по группам, исходя из д искрим и нантных показателей и соответствующего
правила принятия решения. Например, при дискриминантном анализе двух групп случай мо-
жет быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элемен-
ты, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случа-
ев, можно определить коэффициент результативности (hit ratio) или процент верно классифи-
цированных случаев [9].

Коэффициент результативности (hit ratio)
Процент случаев, верно классифицированных с помощью дискриминантного анализа.

Полезно сравнить процент случаев, верно классифицированных с помощью дискрими-
нантного анализа, с процентом случаев, который можно получить случайным образом. Для
равных по размеру групп процент случайной классификации равен частному от деления еди-
ницы на количество групп. Превысит ли и насколько количество верно классифицированных
случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые авторы
считают, что точность классификации, достигнутая с помощью дискриминантного анализа,
должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случай-
ным образом [10].
Большинство программ для выполнения дискриминантного анализа также определяют
классификационную матрицу, исходя из анализируемой выборки. Поскольку программы учи-
тывают даже случайные вариации в данных, то полученные результаты всегда точнее, чем клас-
сификация данных на основе проверочной выборки [11].
В табл. 18.4 (пример семейного отдыха на курорте) также показаны результаты классифика-
ции, полученные на основе анализируемой выборки. Коэффициент результативности или
процент верно классифицированных случаев равен (12 + 15)/30 = 0,90 или 90%. Могут воз-
никнуть сомнения, что этот коэффициент результативности искусственно завышен, поскольку
данные, использованные для вычисления, использовались и для проверки. Выполнение клас-
сификационного анализа по независимому набору данных приводит к классификационной
матрице с немного меньшим коэффициентом результативности (4 + 6)/12 = 0,833 или 83,3%
(табл. 18.4). Задав случайным образом две группы равного размера, можно ожидать, что коэф-
фициент результативности равен 1/2 = 0,50 или 50%. Однако превышение точности классифи-
кации над случайной классификацией составляет свыше 25%, и поэтому достоверность дис-
криминантного анализа оценивают как удовлетворительную.
Следующий пример иллюстрирует иное применение дискриминантного анализа двух групп.


698 Часть III. Сбор, подготовка и анализ данных
ПРИМЕР. Домоседы
Маркетологи использовали д искрим и нантный анализ для двух групп, чтобы оценить
силу каждого из пяти факторов, использованных при делении людей на тех, кто смотрит те-
левизор, и тех, кто не смотрит. Данный метод хорошо подходил для этой цели вследствие
природы предопределенных категориальных групп (телезрители и нетелезрители) и интер-
вальных шкал, использованных для получения отдельных значений факторов.
Отобраны две группы по 185 взрослых зрителей (телезрителей и нетелезрителей) с общим
размером выборки « = 370. Дискриминантное уравнение для анализа вычислено с помощью
подвыборки, состоящей из 142 респондентов, взятых из выборки в 370 человек. Оставшиеся
198 респондентов служили как проверочная подвыборка в перекрестной проверке уравнения.
30 респондентов исключили из анализа из-за отсутствия дискриминантных значений.
Каноническая корреляция для дискриминантной функции, равная 0,4291, являлась
значимой при/» < 0,0001 уровне. Собственное значение равнялось 0,2257. В таблице приве-
дены нормированные канонические дискриминантные коэффициенты. Значительная часть
дисперсии объясняется дискриминантной функцией. Кроме того, как показано в таблице,
фактор "ориентация на дом" внес наибольшой вклад в классификацию индивидуумов на
телезрителей и нетелезрителей. Также свой вклад внесли мораль, безопасность и здоровье,
уважение. Как оказалось, социальный фактор играл небольшую роль.
Результаты дискриминактного анализа
Стандартные коэффициенты канонической дискриминантной функции

Мораль 0,27798
Безопасность и здоровье 0,39850
Ориентация на дом 0,77496
! Уважение 0,32069
Социальный фактор - 0,01996
Классификация результатов для случаев, отобранных для использования в анализе
Предсказанная групповая принадлежность
Фактическая группа Число случаев

Телезрители Нетелезрители

Телезрители 77 56 21
72,7% 27,3%
Нетелезрители 65 24 41
36,9% 63,1%
Процент верно классифицированных случаев 68,31%
Классификация результатов для случаев, использованных для перекрестной проверки
Фактическая группа Количество случаев Предсказанная групповая принадлежность
Активные телезрители Пассивные телезрители
Телезрители 108 85 23
78,7% 21,3%
Нетелезрители 90 25 65
27,8% 72,2%
Процент верно классифицированных случаев 75,76%

Метод перекрестной проверки, использующий д искрим и нантную функцию из анали-
зируемой выборки, подтвердил точку зрения, что выбранный фактор помог исследователям
разделить людей на телезрителей и нетелезрителей. Как показано в таблице, применение


699
Глава 18. Дискриминантный анализ
дискриминантноЙ функции удачно при зачислении к определенной группе 75,76% случаев.
Это означает, что рассмотрение существенных факторов поможет специалистам по марке-
тингу понять потребности пожилых людей [12],



МНОЖЕСТВЕННЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗ
Формулирование проблемы
Данные табл. 18.2 и 18.3 можно использовать для иллюстрации дискриминантного анализа
для трех групп. В последней колонке этих таблиц домашние хозяйства классифицируют по
трем категориям, исходя из суммы, потраченной на семейный отдых (Б — большая, С — сред-
няя и М — маленькая). Десять домашних хозяйств попали в каждую из категорий. Интересно
выяснить, действительно ли семьи, которые потратили большую, среднюю или маленькую
сумму на отдых (сумма), различаются с точки зрения семейного дохода (доход), отношения к
путешествию (путешествие), значения, придаваемого семейному отдыху (отдых), размера се-
мьи (размер семьи) и возраста главы семьи (возраст) [13].

Определение коэффициентов дискриминантноЙ функции
В табл. 18.5 представлены результаты, полученные с помощью дискриминантного анализа
трех групп. Изучение групповых средних показало, что переменная "доход" разделяет группы
более широко, чем любая другая переменная. Существует некоторое разделение по переменным
"путешествие" и "отдых". А вот с точки зрения размера семьи и возраста главы семьи группы 1
и 2 почти не различаются.

Таблица 18.5. Результаты дискриминантного анализа трех груш
Групповые средине
Путешествие Отдых
Группы Доход Размер семьи Возраст

1 4,70000 50,30000
38,57000 4,50000 3,10000
2 50,11000 4,00000 4,20000 49,50000
3,40000
3 64,97000 6,10000 5,90000 56,00000
4,20000
В целом 51,21667 4,86667 4,93333 3,56667 51,93333
Групповые стандартные отклонения

1 5,2971В 1,71594 1,88856 1,19722 9,09732
2 6,00231 2,35702 2,48551 1,50555 9,25263
3 3,61434 1,19722 1,66333 1,13529 7,601 17
В целом 1,97804
12,79523 2,09981 1,33089 8,57395
Объединенная межгрупповая корреляционная матрица
Доход Возраст
Путешествие Размер семьи
Отдых

<<

стр. 25
(всего 35)

СОДЕРЖАНИЕ

>>