<<

стр. 21
(всего 35)

СОДЕРЖАНИЕ

>>

30
п \
Выборочную статистику z можно вычислить по формуле:
р-я- 0,567-0.40 _
;=
0,089


Этап 5. Определение критического значения z-статистики
Используя таблицы нормального распределения (табл. 2 Приложения), можно вычислить
вероятность получения значения z, равного 1,88 (рис. 15.5).




Закрашенная область
Незакрашенная область
= 0,9699
= 0,0301




Рис. 15.5. Вероятность получения значения г при использо-
вании одностороннего критерия

Площадь закрашенной области между -°° и 1,88 равна 0,9699. Следовательно, площадь
незакрашенной области справа от 2=1,88 равна 1,0000— 0,9699 = 0,0301. Альтернативно, кри-
тическое значение г, которое отсекает область, имеющую площадь а = 0,05 и расположенную
справа от критического значения, находится между 1,64 и 1,65 и равно 1,645. Обратите внима-
ние, что при определении критического значения выборочной статистики область вправо от
критического значения критерия равна либо а либо а/2. Это значение равно а для односто-
роннего критерия и а/2 — для двустороннего.

Этапы 6 и 7. Сравнение выборочного
значения z-статистики с критическим значением
и принятие решения
Итак, маркетологи выяснили, что вероятность того, что вычисленная ими выборочная ста-
тистика больше 1,88, равна 0,0301. Это вероятность получения значения р, равного 0,567 при
р -0,40 . Это число меньше выбранного уровня значимости, равного 0,05. Следовательно, ну-
левая гипотеза отклоняется. Альтернативно исследователи могут поступить следующим обра-
зом. Они видят, что полученное значение z-статистики = 1,88 лежит в области отклонения ну-
левой гипотезы (в критической области), справа от значения 1,645. Поэтому снова можно сде-
лать такой же вывод, т.е. отклонить нулевую гипотезу. Обратите внимание, что два способа
проверки нулевой гипотезы эквивалентны по выводу, но математически отличаются направле-
нием сравнения. Если вероятность получения вычисленного значения выборочной статистики


Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 567
( TSC-AL), меньше, чем уровень значимости (а), то нулевую гипотезу отклоняют. Справедливо и
следующее утверждение: если вычисленное значение выборочной статистики больше, чем ее
критическое значение (TS C K ), то нулевую гипотезу также отклоняют. Причина этой перемены
знаков в том, что чем больше значение TSCAL , тем меньше вероятность получения высокого
значения выборочной статистики при условии выполнения нулевой гипотезы. Запишем этот в
следующем виде:
если вероятность TSCAI < уровня значимости (а), то нулевую гипотезу Нй отклоняют,
или
если Т5СЛ1> Г5СЛ , то нулевую гипотезу отклоняют.

Этап 8. Вывод с точки зрения маркетингового
исследования
На основании результатов проверки статистической гипотезы следует сделать заключение с
точки зрения стоящей перед нами проблемы маркетингового исследования. В нашем примере
мы заключаем, что существует статистически значимое доказательство того, что доля пользова-
телей Internet, которые приобретают товары через Internet, выше, чем 0,40. Следовательно, уни-
вермагу можно порекомендовать вводить новую услугу — приобретение товаров через Internet.
Как видно из рис. 15.6, маркетологи используют проверку статистической гипотезы как для
проверки наличия связей между переменными, так и для проверки различий между парамет-
рами генеральной совокупности.

Типы
проверки
гипотезы
1
Г 1
Проверка ПроЕ ерка
связи раапичий .
^

1
Медианы/Ранги:
Распределения Средние Доли
дщСж; ^ ^ | L
^ ^
Рис. 15.6, Общая классификация типов проверки гипотезы

Проверка различий может относиться к распределениям, средним, долям, медианам или
рангам. Сначала мы обсудим гипотезы, относящиеся к проверке связей с точки зрения
кросс-табуляции.


ПОСТРОЕНИЕ ТАБЛИЦ СОПРЯЖЕННОСТИ
ПРИЗНАКОВ
Помимо ответов на вопросы, относящихся к анализу одной переменной, маркетологов час-
то интересуют дополнительные вопросы о связи этой переменной с другими переменными.
• Как много мужчин среди приверженцев данной торговой марки?


Часть III. Сбор, подготовка и анализ данных
568
•Связано ли использование товара (потребление его в больших, средних, малых коли-
чествах и не потребление) с отдыхом на открытом воздухе (высокая, средняя и низкая
активность)?
• Связана ли осведомленность о новом товаре с возрастом и уровнем образования?
• Связана ли покупка товара с доходом человека (высокий, средний или низкий доход)?
На эти и подобные вопросы можно ответить с помощью таблицы сопряженности призна-
ков. В то время как вариационный ряд характеризует одну переменную, построение таблиц со-
пряженности признаков (кросс-табуляция) (cross-tabulation) помогает увидеть одновременно
значения двух или больше переменных.

Построение таблиц сопряженности признаков, кросс-табуляция (cross-tabulation)
Статистический метод, который одновременно характеризует две или больше переменных и
заключается в создании таблиц сопряженности признаков, отражающих совместное распре-
деление двух или больше переменных с ограниченным числом категорий или определен-
ными значениями.

Кросс-табуляция представляет собой процесс объединения распределений частот значений
двух или больше переменных в одну таблицу. Она объясняет, как одна переменная, например
лояльность торговой марке, связана с другой переменной, такой как пол. В таблицах сопря-
женности признаков показывается совместное распределение значений двух или больше пере-
менных, обладающих ограниченным числом категорий или принимающих определенные зна-
чения. Категории одной переменной помешают в таблицу так, чтобы они размещались в ней
(сопрягались) в соответствии с категориями другой или другими несколькими переменными.
Таким образом, распределение частот одной переменной подразделяется на группы в зависи-
мости от категорий других переменных.
Предположим, нас интересует, действительно ли использование Internet связано с полом.
Чтобы построить таблицу сопряженности признаков, респондентов разделили в зависимости
от того, сколько времени они пользуются сетью. Пользующихся Internet пять часов и меньше
отнесли к мало пользующимся, а остальных — ко много, Итог процедуры кросс-табуляции
приведен в табл. 15.3.
1
Таблица 15.3, Пол и использование Internet
Пол
Мужчины Женщины Итого
Использование Internet

5 10 15
Мало(1)
10 5 15
Много (2)
15 15
Итого

Кросс-табуляция предусматривает создание ячейки для каждой комбинации категорий
двух переменных. Число в каждой ячейке показывает количество респондентов, давших эту
комбинацию ответов. В табл. 15.3 видим, что 10 респондентов, ответивших, что они мало ис-
пользуют Internet — женщины. Итоговые значения таблицы показывают, что из 30 респонден-
тов с достоверными ответами по обеим переменным 15 человек ответили, что они мало ис-
пользуют Internet, a 15 — много. Что касается пола, то 15 респондентов оказались женщинами,
а 15 — мужчинами. Обратите внимание, что эту информацию можно было бы получить из от-
дельного распределения частот для каждой переменной. Таблицы кросс-табуляции также на-
зывают таблицами сопряженности признаков (contingency tables).

Таблицы сопряженности признаков (contingency tables)
Таблица кросс-табуляции состоит из ячеек, в которых приведены комбинации категорий
двух переменных.


Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 569
Рассматриваемые данные должны быть качественными или категориальными, по-
скольку предполагается, что каждая переменная должна измеряться только по номиналь-
ной шкале [7].
Таблицами сопряженности широко пользуются при проведении прикладных маркетинго-
вых исследований, поскольку
• менеджеры, которые недостаточно владеют статистическими методами, легко интерпре-
тируют и понимают процедуру кросс-табуляции и ее результаты;
• очевидность трактовки результатов анализа ясно свидетельствует о возможных управ-
ленческих действиях;
• ряд операций кросс-табуляции позволяет лучше понять сложное явление, чем это сде-
лал бы один многовариантный анализ;
• кросс-табуляция облегчает проблему разбросанных ячеек, которая затрудняет дискрет-
ный много вариантный анализ;
• анализ методом кросс-табуляции прост для выполнения и поэтому обращен к исследо-
вателям, менее искушенным в вопросах статистики [8].
Мы рассмотрим построение таблиц сопряженности для двух и трех переменных.

Две переменные
Кросс-табуляцию с двумя переменными можно рассматривать как двумерную. Сначала
рассмотрим кросс-табуляцию данных, касающихся пола и использования Internet, представ-
ленную в табл. 15.3. Связано ли использование Internet с полом? Это можно выяснить из
табл. 15.3. Мы видим, что непропорционально большое количество респондентов, проводя-
ших много времени в Internet, — мужчины. Лучше понять этот вопрос поможет процентное
вычисление.
Исходя из того, что обе переменные подвергаются процедуре кросс-табуляции, мы можем
посчитать проценты применительно к колонке (табл. 15.4) либо к строке (табл, 15.5).

Таблица 15.4. Использование Internet в зависимости от пола
Пол
Женщины
Использование Internet Мужчины
Мало 33,3% 66,7%
Много 66,7% 33,3%
Итого 100,0% 100,0%


• Таблица 15.5. Пол человека в зависимости от использования Internet
Использование Internet

Поп Мало Много Итого

Мужчины 33,3% 66,7% 100,0%
Женщины 66,6% 33,3% 100,0%

Какая из этих двух таблиц полезнее? Ответ на данный вопрос зависит от того, какая пере-
менная рассматривается как независимая, а какая как зависимая [9]. Общее правило, которое
необходимо соблюдать, гласит —проценты необходимо вычислять для каждой категории неза-
висимой переменной (так, чтобы суммарное значение категорий зависимой переменной при-
менительно к каждой категории независимой переменной давало 100%). В нашем анализе пол
можно рассматривать как независимую переменную, использование Internet — как зависимую,


570 Часть III. Сбор, подготовка и анализ данных
а правильный способ вычисления процентов показан в табл. 15.4. Заметим, что мужчины
больше используют Internet, чем женщины. Это видно из того, что 66,7%, активно пользую-
щихся Internet, составляют мужчины, тогда как на долю женщин в этой категории приходится
всего лишь 33,3%.
Вычисление процентов в направлении зависимой переменной через независимую, как по-
казано в табл. 15.5, бессмысленно. Табл. 15.5 подразумевает, что интенсивное пользование
Internet — причина того, что такими людьми являются мужчины. Это последнее утверждение
неправдоподобно. Однако, возможно, что связь между пользованием Internet и полом человека
опосредована третьей переменной, например возрастом или доходом. Поэтому необходимо
проверить влияние третьей переменной.

Три переменные
Часто введение третьей переменной позволяет маркетологу четче уяснить природу исходной
связи между двумя переменными. Как показано на рис. 15.7, третья переменная может привес-
ти к четырем возможностям.
1. Уточнить связь, наблюдаемую между двумя исходными переменными.
2. Указать на отсутствие связи между двумя переменными, хотя первоначально связь наблю-
далась, Другими словами, третья переменная покажет, что исходная связь между двумя пе-
ременными была ложной.
3. Показать некоторую связь между двумя переменными, хотя первоначально она не наблю-
далась. В этом случае третья переменная показывает скрытую связь между первыми двумя
переменными.
4. Не показать никаких изменений в первоначальной связи [10].


Две исходные переменные




Отсутствие связи




\ \
Уточненная Отсутствие связи между
Исходная структура
связь между двумя



Рис. 15.7. Введение третьей переменной в кросс-табуляцию

Эти возможности объясняются на примерах, в основе которых лежит выборка в тысячу рес-
пондентов.
Уточнение исходной связи. В результате изучения связи между покупкой модной одежды и
семейным положением получены данные, приведенные в табл. 15.6.




Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 571
Таблица 15.6. Покупка модной одежды в зависимости от семейного положения
Семейное положение
Покупка модной одежды Женат (замужем) Не женат (не замужем)
52%
31%
Много
69% 48%
Мало
100%
Итого 100%
Число респондентов 300
700

Респондентов поделили на две категории покупателей модной одежды: много покупающие
и мало покупающие. Семейное положение тоже имело две категории: женат (замужем) либо не
женат (не замужем). Как видно из табл. 15.6, в категорию лиц, покупающих много модной
одежды, попали 52% несемейных респондентов и только 31% семейных. Перед тем как заклю-
чить, что респонденты, не имеющие семьи, покупают больше модной одежды, чем имеющие
семью, в анализ была введена третья переменная — пол.

Таблица 15.7. Связь ••• ••• •семейным положениемН
'^ покупки модной одежды с ••••••^
^• ••^ ••^ •••••••
^^
^ • •

Пол
Женский
Мужской
Не женат Замужем Не замужем
Женат
Покупка модной одежды

Много 40% 25% 60%
35%
Мало 60% 75% 40%
65%
Итого 100% !00% 100% 100%
300
Число респондентов 400 180
120

Пол респондентов вводился в качестве третьей переменной на основании результатов
предшествующего маркетингового исследования. Связь между покупкой модной одежды и се-
мейным положением пересмотрена в свете третьей переменной, как показано в табл. 15.7. Что
касается женщин, то из них 60% незамужних попали в категорию покупающих больше модной
одежды по сравнению с 25% замужних женщин, С другой стороны, для мужчин эта разница в
процентах не так велика: 40% холостых и 35% женатых попали в категорию покупателей, при-
обретающих много модной одежды. Следовательно, третья переменная, уточнила связь между
семейным положением и покупкой модной одежды (начальными переменными). Вероятность
попадания в категорию покупателей, приобретающих много модной одежды, выше для несе-
мейных респондентов по сравнению с семейными, причем она выше для женщин.
Исходная связь между двумя переменными ложна. Маркетолог проводит исследование для
рекламного агентства, разрабатывающего рекламу для автомобилей стоимостью свыше 30 тысяч
долларов. Он попытался проанализировать факторы, влияющие на владение дорогими автомо-
билями (табл. 15.8).

Таблица 15.8. Зависимость владения дорогами автомобилями от образовательного уровня
Образование
Выпускник колледжа
Наличие дорогого автомобиля Без степени колледжа

32% 21%
Да
Нет 68% 79%
Итого 100% 100%
Число респондентов 250


Часть 111. Сбор, подготовка и анализ данных
572
Из таблицы видно, что 32% выпускников колледжа имеют дорогой автомобиль, в то время
как среди не окончивших колледж дорогим автомобилем владеют только 21%. Исследователь
убежден, что уровень образования влияет на приобретение дорогого автомобиля. Решив, что на
его покупку влияет и доход, исследователь перепроверил связь между образованием и наличи-
ем дорогого автомобиля в свете уровня доходов. Результаты приведены в табл. 15.9.

„Таблица 15.9 Влияние образования и уровня дохода на наличие дорогого автомобиля
Доход
Низкий Высокий
Наличие дорогого автомобиля Образование Образованно
Колледж Нет Колледж Нет
Да 20% 20% 40%
4D:-b
Нет 80% 80% 60%
60%
Итого: 100% 100% 100% 100%
100 700 50
150
Число респондентов

Заметим, что процент тех, кто имеют дорогой автомобиль, среди окончивших колледж или
не окончивших его одинаков для каждой из групп, разбитых по доходу. Если данные по груп-
пам с высокими и низкими доходами проверить отдельно, то связь между образованием и на-
личием дорогого автомобиля исчезает, а это значит, что первоначально наблюдаемая связь ме-
жду этими двумя переменными была ложной.
Третья переменная показывает подавленную связь между первыми двумя переменными.
Маркетолог, исследуюший сферу туристических поездок за границу, предположил, что на же-
лание путешествовать влияет возраст. Однако таблица сопряженности двух переменных
(табл. 15.10) не выявила никакой связи. Когда в качестве третьей переменной ввели пол, полу-
чили данные, представленные втабл. 15.11.

I Таблица 15,10. Зависимость желания совершить туристическую поездку за границу от ;
возраста
Возраст
Желание совершить туристическую поездку за границу До 45 лет 45 и старше

Да 50% 50%
Нет . 50% 50%
Итого 100% 100%
Число респондентов 500 500


| Таблица 15.11. Связь между желанием совершить туристическую поездку за границу,
| возрастом и полом
Пол
Желание совершить путешествие за границу Мужчины Женщины
До 45 лет 45 и старше До 45 лет 45 и старше

Да 60% 65%
35%
40%
Нет 40% 35%
60% 65%
100% 100% 100%
100%
Итого
300 300 200
200
Число респондентов



Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 573
Среди мужчин до 45 лет 60% изъявили желание отправиться в турпоездку заграницу, а по-
сле 45 лет — всего лишь 40%. Обратная ситуация наблюдалась для женщин: в возрасте до 45 лет
желающих отправиться посмотреть мир оказалось 35%, а после 45 лет — 65%. Поскольку связь
между желанием путешествовать и возрастом различна для мужчин и женшин и с противопо-
ложной направленностью, связь между этими двумя переменными была скрыта, пока данные
не учитывали переменную "пол", как это сделано в табл. 15.10. Но при проверке влияния пола,
как показано в табл. 15.11, проигнорированная связь между желанием путешествовать и воз-
растом была обнаружена для отдельных категорий: мужчин и женшин.
Никаких изменении в первоначальной связи. В некоторых случаях третья переменная не из-
меняет первоначально наблюдаемую связь, независимо от того, были ли исходные переменные
взаимосвязаны. Это означает, что третья переменная никак не влияет на связь между двумя
первыми переменными. Рассмотрим кросс-табуляцию двух переменных: размер семьи и часто-
ту посещения ресторанов быстрого питания, представленную в табл. 15.12.

Таблица 15.12. Связь частоты посещения ресторанов быстрого питания с размером
семьи
Размер семьи
Частота посещения ресторана быстрого питания Большая
Небольшая
65% 65%
Большая
Маленькая 35% 35%
100% 100%
Итого
Число респондентов 500
500

Респондентов разделили (используя медиану) на две равные по размеру категории по 500
респондентов в каждой: небольшая и большая семья, Не наблюдалось никакой связи, Затем по
этому же принципу респондентов разделили на категории: семьи с большим и малым доходом.
При введении в анализ третьей переменной получили табл. 15,13. И снова не наблюдалось ни-
какой связи.

Таблица 15.13. Связь частоты посещения ресторанов быстрого питания с размером
семьи и уровнем дохода
Доход

Семьи с низким доходом Семьи с высоким доходом
Частота посещения ресторанов быстрого питания Малая Большая Малая Большая
65%
65% 65% 65%
Большая
35%
35% 35% 35%
Маленькая
100% 100%
Итого 100% 100%
250 250 250
250
Число респондентов


Общие комментарии по поводу кросс-табуляции
Можно построить таблицу сопряженности больше, чем для трех переменных, но интер-
претация полученных результатов достаточно сложная. Кроме того, поскольку число ячеек
многократно увеличится, проблематично оставить необходимое количество респондентов
или случаев в каждой ячейке. Как правило, чтобы вычислить статистику в каждой ячейке,
должно быть, по крайней мере, пять наблюдений. Таким образом, кросс-табуляция — не-
эффективный способ проверки связей для ситуаций с несколькими переменными, она рас-


574 Часть III. Сбор, подготовка и анализ данных
сматривает просто связь между переменными, а не причинность. Чтобы изучить причинно-
следственную связь, необходимо провести соответствующее причинно-следственное иссле-
дование (см. главу 7).


СТАТИСТИКИ ТАБЛИЦ СОПРЯЖЕННОСТИ
ПРИЗНАКОВ
Мы рассмотрим статистики, обычно используемые для оценки статистической значимости
и тесноты связи переменных, содержащихся в таблице сопряженности. Статистическая значи-
мость наблюдаемой связи обычно измеряется критерием хи-квадрат. Теснота связи важна с
практической точки зрения. Обычно она имеет значение, если связь статистически значимая.
Тесноту связи можно измерить коэффициентом корреляции фи, коэффициентом сопряжен-
ности признаков, У-коэффициентом Крамера и коэффициентом "лямбда". Эти статистики
ниже описаны детальнее.

Критерий хи-квадрат
!
Критерий хи-квадрат (chi-square statistic, x ) используют для проверки статистической зна-
чимости наблюдаемой связи в таблице сопряженности признаков.

Критерий хи-квадрат (chi-square statistic, %2)
Критерий, используемый для проверки статистической значимости наблюдаемых связей в
таблицах сопряженности признаков. Он помогает определить наличие или отсутствие сис-
тематической связи между двумя переменными.

Он помогает определить наличие или отсутствие систематической связи между двумя пере-
менными. В данном случае нулевая гипотеза Яп утверждает, что между двумя переменными не
существует никакой связи. Проверка нулевой гипотезы выполняется вычислением частот рас-
пределения признаков анализируемых переменных в ячейках таблицы, которые можно было
бы ожидать, если бы не существовало зависимости между переменными, и при данных итого-
вых числах в каждом ряду и колонке. Затем для вычисления значения х: эти ожидаемые часто-
ты, обозначаемые /е, сравнивают с фактически наблюдаемыми частотами распределения при-
знаков/о, соответствующими ячейкам таблицы. Чем больше разница между ожидаемыми и
фактическими частотами, тем выше значение статистики. Предположим, что таблица сопря-
женности имеет г рядов и с колонок, а случайная выборка состоит из п наблюдений. Тогда
ожидаемую частоту для каждой ячейки вычислим по следующей формуле:
п
гпс
е =
-'
J,
Л
где п, — итоговое число в ряду, пг — итоговое число в колонке, л — полный размер выборки.
Для данных табл. 15.3 ожидаемая частота распределения признаков для ячеек, расположен-
ных слева направо и сверху вниз, выглядит так:

ч- . , -*

30 30
= 7,50; 15X15.7.50.
30 30
Тогда значение %˜ вычисляют следующим образом:




Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 575
2
Для данных табл. 15.3 значение # вычислили по формуле:
(5-7,5)' ; (10-7,5)* t (10-7,5)г | (5-7.5)2
,
7,5 7,5 7,5 7,5
= 0,833 + 0,833+0,833 + 0,833
= 3,333
Чтобы определить, существует ли между переменными систематическая связь, определяют
вероятность получения значения х2, равного или большего, чем рассчитанное из таблицы со-
2
пряженности. Важной характеристикой критерия % является число степеней свободы (df). Б
обшем случае оно равно числу наблюдений за вычетом числа ограничений, необходимых для
вычисления статистического показателя. Для критерия хи-квадрат таблицы сопряженности
число степеней свободы равно произведению количества рядов ( г ) минус единица на количе-
ство колонок ( с ) минус единица, т.е. df =(г-1)х(с-1) [11]. Нулевая гипотеза (Я0) об отсутст-
вии зависимости между двумя переменными должна быть отклонена только тогда, когда полу-
2 2
ченное значение х больше, чем критическое значение х распределения с соответствующим
числом степеней свободы, как это показано на рис. 15.8.




Не отклонять нулевую;
гипотезу Н0
Отклонить нулевую
гипотезу Н0



'1,
Критическое значение
Рис. 15.8. Проверка зависимости между переменными
с помощью критерия у}

Распределение х2 (chi-square distribution) представляет собой асимметричное распределение,
форма которого зависит исключительно от числа степеней свободы [12]. С ростом числа степе-
ней свободы распределение хи-квадрат становится более симметричным. Данные табл. 3 в Ста-
тистическом приложении дают представление о величине хг Для различных степеней свободы.
В этой таблице значение вверху каждой колонки указывает область в верхней части (правая
сторона на рис. 15,8) распределения хи-квадрат. Например, для одной степени свободы и
а = 0,05 значение х2 равно 3,841. Это означает, что для одной степени свободы вероятность пре-
вышения значения хд, равного 3,841, составляет 0,05. Другими словами, при уровне значимо-
сти, равном 0,05, и числе степеней свободы, равном единице, критическое значение статисти-
ки х2 равно 3,841.

Распределение х2 (Chi-square distribution)
Асимметричное распределение, форма которого зависит исключительно от числа степеней
свободы. С ростом числа степеней свободы хи-квадрат распределение более симметрично,

Для таблицы сопряженности (табл. 15.3) число степеней свободы равно (2 — 1) х (2 — 1) = 1.
2
Вычисленное значение х — 3,333. Так как оно меньше критического значения, равного 3,841,
нулевую гипотезу об отсутствии связей между переменными нельзя отклонить. Это означает,
что связь между переменными не является статистически значимой при уровне значимости,
равном 0,05.


576 Часть lit. Сбор, подготовка и анализ данных
Статистику хи-квадрат также можно использовать в проверках степени согласия, чтобы оп-
ределить, согласуется ли определенная модель с наблюдаемыми данными. Эти проверки вы-
полняют вычислением значимости (уровня статистической значимости) выборочных отклоне-
ний от предполагаемых теоретических (ожидаемых) распределений, а также можно выполнить
как на основе таблиц сопряженности, так и на основе таблиц распределения частот
(одномерная табуляция). Расчет %2 и определение ее уровня статистической значимости вы-
полняется изложенным выше способом.
Значение •? следует вычислять только для числовых данных. Если данные представлены в
виде процентов, то сначала их необходимо перевести в абсолютные единицы или числа. Кроме
того, допущение, лежащее в основе проверки с помощью критерия у?, заключается в том, что
наблюдения проведены независимо. В качестве общего правила стоит запомнить, что проверку
по критерию хи-квадрат нельзя выполнять, если ожидаемые или теоретические частоты в лю-
бой из ячеек меньше пяти. Если число наблюдений в любой ячейке меньше десяти, или если
таблица имеет два рядка и две колонки (таблица 2 х 2), то необходимо использовать поправоч-
ный коэффициент [13]. С поправочным коэффициентом значение х1 равно 2,133, что не явля-
ется значимым при уровне значимости, равном 0,05. Для таблицы размером 2 x 2 , статистику
хи-квадрат называют фи-коэффициентом.

Фи-коэффициент
Фн-коэффициент (phi coefficient, ф) используют для измерения тесноты связи в особом слу-
чае — при анализе таблицы с двумя рядками и двумя колонками (таблица 2 х 2).

Фи-коэффициент (phi coefficient, ф)
Мера тесноты связи переменных для конкретного вида таблицы: с двумя рядками и двумя
колонками (таблица 2 х 2).

Фи-коэффициент пропорционален корню квадратному из j;2. Для выборки размером п эту
статистику находят по формуле:



Фи-квадрат принимает значение, равное 0, если связь отсутствует, на что также указывает и
значение хи-квадрат, равное 0. При сильной связи между переменными фи-коэффициент
имеет значение 1 и все наблюдения находятся на главной или второстепенной диагонали. (В
некоторых компьютерных программах фи-коэффициент принимает значение —1, а не +1, ко-
гда наблюдается отрицательная связь.) В нашем случае фи-коэффициент равен:



Таким образом, связь не очень сильна. В более общем случае при наличии таблицы любого
размера тесноту связи можно оценить коэффициентом сопряженности признаков.

Коэффициент сопряженности признаков
Фи-коэффициент применяют только к таблице 2 х 2, а коэффициент сопряженности
признаков С (contingency coefficient) используют для оценки тесноты связи в таблицах лю-
бого размера.

Коэффициент сопряженности признаков (contingency coefficient)
Мера тесноты связи в таблицах любого размера.



Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 577
1
Коэффициент сопряженности признаков связан с х следующим образом:
I у1
f-i ___ /V
I



Vr+«
Значения коэффициента сопряженности находятся в диапазоне от 0 до 1. При отсутствии
связи он равен нулю (т.е. переменные статистически независимы), но своего максимального
значения (1) он никогда не достигает. Максимальное значение коэффициента сопряженности
зависит от размера таблицы (числа рядков и колонок). Поэтому он используется только для
сравнения таблиц одинакового размера. Значение коэффициента сопряженности для табл. 15.3
следующее:


3,333+ 30
Это значение коэффициента сопряженности указывает на слабую связь. Другой статистикой,
которую можно вычислить для любой таблицы, является К-козффициент Крамера (Cramer).

И-коэффициент Крамера
К-коэффициент Крамера (Cramer's V) — это модифицированная версия коэффициента кор-
реляции фи (0 ), которую используют в таблицах, больших по размеру, чем 2 x 2 .

V-коэффициент Крамера (Cramer's V)
Мера тесноты связи, используемая в таблицах, больших по размеру, чем 2 x 2 .

Если для таблиц, больших, чем 2 x 2 , вычисляют фи-коэффициент, то он не имеет верхней
границы. К-коэффициент Крамера получают корректировкой фи-коэффициента или по числу
рядов, или по числу колонок в таблице. Причем из двух значений выбирают меньшее. Коррек-
тировку осуществляют так, что значения К-коэффициента лежат в диапазоне от 0 до 1. Большее
значение К-коэффициента указывает на более сильную связь, но не указывает, как связаны пе-
ременные. Для таблицы с г рядами и с колонками связь между К-коэффициентом Крамера и
фи-коэффициентом выражается следующим образом:



Значение V-коэффициент Крамера для табл. 15.3 равно:



Таким образом, связь не очень сильна. В этом случае V = ф . Так всегда происходит для таб-
лицы 2 x 2 . Другой обычно рассчитываемой статистикой является коэффициент "лямбда".
1
Коэффициент "лямбда
Коэффициент "лямбда" используется в том случае, когда переменные измерены с помо-
щью номинальной шкалы. Асимметрический коэффициент "лямбда" (asymmetric lambda) по-
казывает выраженное в процентах улучшение при прогнозировании значения зависимой пе-
ременной при данном значении независимой переменной,
I—
Асимметрический коэффициент "лямбда" (asymmetric lambda)
Мера выраженного в процентах улучшения прогнозирования значения зависимой перемен-
ной при данном значении независимой переменной. Значения коэффициента "лямбда" ле-
жат в пределах от 0 до 1.



578 Часть III. Сбор, подготовка и анализ данных
Значения коэффициента "лямбда" лежат в пределах от 0 до 1. Значение "лямбда", равное О,
означает, что никакого улучшения в прогнозировании не наблюдается. Значение 1 указывает
на то, что прогноз может быть сделан без ошибки. Это происходит тогда, когда каждая катего-
рия независимой переменной связана с одной категорией зависимой переменной.
Асимметрический коэффициент "лямбда" подсчитывают для каждой из зависимых пере-
менных. Также рассчитывают симметричный коэффициент "лямбда" (symmetric lambda) —
средним значением двух асимметричных значений.



I
Симметричный коэффициент "лямбда" (symmetric lambda)
Симметричный коэффициент "лямбда" не дает предположения о том, какая из переменных
зависимая. Он измеряет общее улучшение прогнозирования, когда прогноз уже сделан в
обоих направлениях.

Симметричный коэффициент "лямбда" не делает предположения о том, какая из пере-
менных зависимая. Он измеряет общее улучшение, прогнозирования, когда прогноз уже
выполнен в обоих направлениях [14]. Значение асимметричного коэффициента "лямбда" в
табл. 15.3, если в качестве зависимой переменной взять использование Internet, равно 0,333.
Это указывает на то, что знание пола увеличивает нашу возможность прогнозирования на
0,333, т.е. имеет место улучшение прогнозирования на 0,33%. Симметричный коэффициент
"лямбда" также равен 0,33%.

Другие статистики
Обратите внимание, что при вычислении значения у.2 переменные должны быть изме-
рены по номинальной шкале. Для измерения связи между двумя порядковыми перемен-
ными применяют другие статистики, такие как may bt may с и гамма. Все эти статистики
используют информацию об упорядочении категорий переменных, рассматривая каждую
возможную пару случаев в таблице, чтобы определить, имеет ли первая переменная тот же
относительный порядок расположения (ранг), что и вторая (конкордатное, согласованное
расположение), или их расположения (ранги) имеют обратный порядок (несогласованное
расположение), или их ранги совпадают (связанные ранги). Эти статистики отличаются
только способом обработки рангов. Как тау Ь, так и тау Ь, корректируют по числу связан-
ных рангов. Тау Ь (tau b) больше всего подходит для квадратных таблиц, в которых коли-
чество рядов и колонок равно.

Тау b (tau b)
Вычисляемая статистика, которая измеряет связь между двумя порядковыми переменными.
Она вычисляется с учетом числа связанных рангов, и ее лучше использовать для квадратных
таблиц.

Значения этой статистики лежат в пределах от +1 до —1. Таким образом, можно определить
направление (положительное или отрицательное) и силу (насколько близко данное значение
находится к 1) связи. Для прямоугольной таблицы, в которой количество рядов отличается от
количества колонок, следует использовать тау с (tau с).

Тау с (tau с)
Вычисляемая статистика, измеряющая связь между двумя порядковыми переменными. Она
вычисляется с учетом числа связанных рангов, и ее лучше использовать, когда таблица пе-
ременных не квадратна, а прямоугольна.

Статистика "гамма" (gamma) не учитывает ни связанные ранги, ни размер таблицы. Зна-
чения гаммы также лежат в пределах от +1 до —1 и обычно имеет большее числовое значе-
ние, чем тау b и тау с.


Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 579
Статистика "гамма" (gamma)
Вычисляемая статистика, измеряющая связь между двумя порядковыми переменными. Она
не делает поправку на связанные ранги.

Данные табл. 15.3, где пол— номинальная переменная, не обрабатывают с помощью по-
рядковых статистик. Все изложенные выше статистики можно оценить соответствующими
компьютерными программами для кросс-табуляции. Другие статистики для измерения тесно-
ты связи, а именно: смешанный момент корреляции и неметрическая корреляция, обсуждают-
ся в главе 17.


ПРАКТИКА ПРОВЕДЕНИЯ КРОСС-ТАБУЛЯЦИИ
На практике проведение кросс-табуляции полезно вести по следующим этапам.
1. Проверьте нулевую гипотезу о том, что отсутствует связь между переменными, используя
критерий хи-квадрат. Если вам не удалось отклонить нулевую гипотезу, то связь между пе-
ременными отсутствует.
2. Если нулевая гипотеза Н„ отклонена, то определите тесноту связи, используя подходящие
статистики (фи-коэффициент, коэффициент сопряженности, К-коэффициент Крамера,
коэффициент "лямбда" или другие статистики).
3. Если нулевая гипотеза Н0 отклонена, то поясните характер связи, вычислив проценты в
направлении независимой переменной через зависимую переменную.
4. Используйте в качестве проверяемых статистик тау Ь , тау с или "гамму" для обработки
порядковых, а не номинальных переменных. Если нулевая гипотеза Н0 отклонена, то оп-
ределите тесноту связи, используя величину и направление связи, а также учитывая знак
проверяемой статистики.


ПРОВЕРКА ГИПОТЕЗ О РАЗЛИЧИЯХ
В предыдущем разделе проверялись гипотезы о связях между переменными. Теперь мы
сделаем акцент на проверке гипотез о различиях. Классификация процедур проверки гипотез о
различиях представлена на рис. 15.9.
Методы, показанные на рис. 15.9, согласуются с классификацией одномерных методов, пред-
ставленных на рис. 14.6. Главное различие в том, что методы на рис. 14.6 также применимы к не-
скольким выборкам (больше двух) и таким образом связаны с однофакторным дисперсионным
анализом (ANOVA) и ранговым дисперсионным анализом Краскера—Уоллеса (K-W ANOVA)
(глава 14), тогда как методы на рис, 15.9 ограничены двумя выборками. Процедуры проверки ги-
потез можно в общем виде классифицировать на параметрические и непараметрические, исходя
из шкалы измерения переменных. Параметрические методы проверки гипотез (parametric tests)
предполагают, что изучаемые переменные измерены с помощью интервальной шкалы.

Параметрические методы проверки гипотез (parametric tests)
Предполагают, что изучаемые переменные измерены с помощью интервальной шкалы.

Непараметрические методы проверки гипотез (nonparametric tests) предполагают, что пере-
менные измерены с помощью номинальной или порядковой шкал.

Непараметрические методы проверки гипотез (nonparametric tests)
Предполагают, что переменные измерены с помощью номинальной или порядковой шкал.


580 Часть III. Сбор, подготовка и анализ данных
Проверка гипотезы




Параметрические Непараметрические
методы проверки методы проверки
аметрические-данные)




(-критерий Критерий хи-квадрат
z- критерий Критерий Колмогорова-
Смирнова
Г Критерий серий
Парные Биномиальный критерий
Независимые
выборки

Двухгрупповой Парный
Парные
t- критерий (- критерий
выборки
I- критерий
Критерий хи-каадрат Критерий знаков
Критерий Манна-Уитни Критерий Вилшксона
Медианы Критерий МакНемара
Критерий хи-квадрат
Критерий Колмогорова-
Смирнова

Рис. 15.9. Проверка гипотез о различиях

Дальнейшая классификация проводится в зависимости от количества выборок: одна, две
или больше. Как объяснялось в главе 14, число выборок определяют, исходя из метода даль-
нейшей обработки данных для анализа, а не из того, как были собраны данные. Выборки неза-
висимы в том случае, если взяты случайным образом из различных генеральных совокупностей.
Для анализа данные, принадлежащие различным группам респондентов, например мужчинам
и женщинам, обычно обрабатывают как независимые выборки. С другой стороны, выборки
являются парными (связанными), когда данные двух выборок имеют отношение к одной и той
же группе респондентов.
Наиболее популярный параметрический критерий для проверки гипотез о равенстве сред-
них заключается в расчете значений /-статистики. Проверка на основе /-критерия выполняется
относительно среднего значения одной или двух выборок. В случае двух выборок они могут
быть независимыми или парными. Непараметрические методы проверки, основанные на на-
блюдениях, взятых из одной выборки, включают критерий Колмогорова-Смирнова, критерий
хи-квадрат, критерий серий и биномиальный критерий. В случае двух независимых выборок
для проверки гипотез относительно среднего значения используют {/-критерий Манна—Уитни
(Mann—Whitney), медианный критерий и двухвыборочный критерий Колмогорова—Смирнова.
Эти критерии— непараметрические копии ^-критерия для двух групп. Для парных выборок
непараметрические критерии включают критерий Вилкоксона парных сравнений и критерий
знаков. Эти тесты — копии парного / -критерия. Как параметрическими, так и непараметри-
ческими методами оценивают гипотезы, относящиеся к более, чем двум выборкам. Эти крите-
рии рассматриваются в следующих главах.




Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 581
ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Использование параметрических критериев позволяет сделать статистический вывод отно-
сительно среднего значения генеральной совокупности. Обычно для этой цели используют
t-критерий (t-test). В основе критерия лежит /-статистика Стьюдента (Student).

Т-критерий (t-test)
Одномерный метод проверки гипотез, использующий t-распределение. Применяется, если
стандартное отклонение неизвестно и размер выборки мал.

Т-статистика (t-statistic) подразумевает, что переменная нормально распределена, среднее
известно (или предполагается, что оно должно быть известно) и дисперсия генеральной сово-
купности определена по данным выборки.

Т-статистика {t-statistic)
Статистика, подразумевающая, что переменная имеет колоколоподобное распределение,
среднее известно (или предполагается, что известно) и дисперсия генеральной совокупно-
сти определена поданным выборки.

Примем, что случайная переменная Анормально распределена, со средним ц и неизвестной
2
дисперсией генеральной совокупности о" , которая оценивается с помощью выборочной дис-
2
персии s . Вспомним, что стандартное отклонение выборочного среднего X определяется как
s-f = j / V " . Тогда / = ( X -,u)/s- является/-распределенным с л-1 степенями свободы.
Т-распределение (t-distribution) по внешнему виду аналогично нормальному распределе-
нию. Графики обоих распределений симметричны и имеют колоколообразную форму. Однако
по сравнению с нормальным распределением в распределении Стьюдента хвостовые части гра-
фика по площади больше, а центральная часть по площади — меньше. Это связано с тем, что
дисперсия совокупности ет2 неизвестна, и ее оценивают во выборочной дисперсии s:.

Т-распределение (t-statistic)
Симметричное колоколоподобное распределение, используемое для проверки выборок не-
большого размера (п < 30).

:
При данной неопределенности в значении s наблюдаемые значения / -статистики более
изменчивы, чем значения г-статистики. Однако с ростом числа степеней свободы распределе-
ние приближается к нормальному. Фактически, для выборок большого размера (120 и больше)
t˜распределение и нормальное распределение практически не отличаются. В табл. 4 Статисти-
ческого приложения даны избранные процентили /-распределения.
Процедура проверки гипотезы в случае использования в качестве метода проверки
(-критерия состоит из следующих этапов.
1. Сформулировать нулевую (Н0) и альтернативную (Я,)гипотезы.
2. Выбрать соответствующую формулу для вычисления /-статистики.
3. Выбрать уровень значимости а для проверки нулевой гипотезы И0. Обычно выбирают уро-
вень значимости а, равный 0,05.
4. Взять одну или две выборки и для каждой вычислить значение средней и стандартное от-
клонение.
5. Вычислить значение t -статистики, приняв, что нулевая гипотеза ffa верна.




582 Часть III. Сбор, подготовка и анализ данных
6. Вычислить число степеней свободы и оценить вероятность получения большего значения
статистики из табл. 4 Статистического приложения. (Альтернативно, вычислить критиче-
ское значение / -статистики).
7. Если вероятность, рассчитанная на этапе 6 меньше, чем уровень значимости Иа, выбран-
ный на этапе 3, то отклонить нулевую гипотезу Нй. Если значение вероятности больше, то
Н0 не отклонять. (Альтернативно, если значение, вычисленной на этапе 5 /-статистики,
больше критического значения, определенного на этапе 6, то отклонить нулевую гипотезу
Я0. Если вычисленное значение меньше критического значения, то Я0 не следует откло-
нять). Неудачная попытка отклонить нулевую гипотезу необязательно подразумевает, что
Я0 верна. Это только означает, что истинное положение несущественно (статистически не-
значимо) отличается от положения, утверждаемого Я0.
8. Выразить полученный результат с точки зрения решения проблемы маркетингового ис-
следования.
Мы проиллюстрируем общую процедуру проверки гипотез с помощью /-критерия в после-
дующих разделах главы, начав с рассмотрения одной выборки.

Одна выборка
В маркетинговом исследовании аналитика часто интересует утверждение о сотноше-
нии одной переменной по сравнению с известной или заданной величиной. Примерами
таких утверждений являются: доля рынка для нового товара превышает 15%; по крайней
мере 65% потребителей понравится новая упаковка; 80% дилеров предпочтут новую поли-
тику ценообразования. Эти утверждения сформулируем с точки зрения нулевой гипотезы,
которую затем проверим, используя статистический критерии для одной выборки, такой
как /- или г-критерий. Если маркетолог использует /-критерий для проверки значения
средней, его интересует, совпадает ли значение генеральной средней со значением, зада-
ваемым в утверждении нулевой гипотезы (Я0). Для данных табл. 15.2 предположим, что
мы хотим проверить гипотезу о том, что среднее значение степени знакомства с Internet
превышает 4,0 (балла) — нейтральное значение по семибалльной шкале. Выберем уровень
значимости, равный а = 0,05. Сформулируем гипотезы:
Я0:ц<4,0
Я 0 :ц>4,0
(х-,}




5,385


0,297 О, ЗУ.'
Число степеней свободы для /-статистики, используемой для проверки гипотезы в отноше-
нии среднего значения, равно п ˜ 1. В нашем случае п — 1 = 29 — 1 или 28. Из табл. 4 Статисти-
ческого приложения находим, что вероятность получения более высокого значения, чем 2,471,
меньше 0,05. {Альтернативно, критическое значение /-статистики для 28 степеней свободы и
уровня значимости 0,05 равно 1,7011, что меньше рассчитанного значения, равного 2,471).
Следовательно, нулевую гипотезу отклоняют. Степень знакомства с Internet превышает 4,0,
Обратите внимание, что если нам известно стандартное отклонение генеральной совокуп-
ности, и оно, допустим, равно 1,5, а, значит мы используем его, а не определенное на основа-
нии выборки, то лучше использовать z-критерий (z-test).

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 583
Z-критерий (z-test)
Одномерный метод проверки гипотезы, использующий стандартное нормальное рас-
пределение.

В нашем случае значение г-статистики было бы равно:


где
_ 1.5 _ 15 _ 0 2 ? 9
— г ˜Viif7

V29 5,385

(4/724-4,0) 0/724
0,279 0,279
Из табл. 2 Статистического приложения вероятность получить более высокое значение ста-
тистики г, чем 2,595, меньше 0,05. (Альтернативно, критическое значение г-статистики для
односторонней проверки при уровне значимости 0,05 равно 1,645, что меньше полученного
значения, равного 2,595). Следовательно, нулевую гипотезу отклоняют и получают тот же ре-
зультат, что и при проверке гипотезы с помощью /-критерия.
Процедура проверки нулевой гипотезы относительно доли уже проиллюстрирована в этой
главе, когда мы знакомились с теорией проверки гипотезы.

Две независимые выборки
Иногда гипотезы в маркетинге связаны с параметрами, взятыми из двух разных генеральных
совокупностей; например, пользователи и непользователи торговой марки по-разному восприни-
мают данную торговую марку; люди с высокими доходами больше тратят на развлечения по срав-
нению с лицами, имеющими низкий доход; доля приверженцев данной торговой марки в сег-
менте 1 больше их доли в сегменте 2. Выборки, взятые случайным образом из разных изучаемых
совокупностей, называют независимыми выборками (independent samples). Как и для одной выбор-
ки, проверка гипотез может проводиться относительно значений средних или долей.

Независимые выборки (independent samples)
Две выборки, экспериментально не связанные между собой. Измерения, проведенные в од-
ной выборке, не оказывают влияния на значения переменных в другой.

Средние. В случае проверки средних для двух независимых выборок гипотезы имеют сле-
дующий вид:
Я= =i

Из двух совокупностей берут выборки и вычисляют значения средних и дисперсий, исходя
из размеров выборок, равных соответственно п, и п2. Если окажется, что обе рассматриваемые
совокупности имеют одинаковые значения дисперсий, то значение объединенной дисперсии,
рассчитанное из двух дисперсий выборок, равно:



m + ni-2
Стандартное отклонение проверяемой статистики рассчитывается по формуле:




584 Часть III. Сбор, подготовка и анализ данных
Соответствующее значение /-статистики вычислим по формуле:



Число степеней свободы в нашем случае равно (п,+ п2— 2).
Если две генеральные совокупности имеют разные значения дисперсий, то точное значение
f-статистики нельзя подсчитать из-за различия в выборочных средних. Вместо этого аппрок-
симируем значения ^-статистики. Число степеней свободы в этом случае обычно не будет це-
лым числом, но приемлемо точное значение вероятности можно получить округлением до
ближайшего целого числа [17].
Если неизвестно, равны ли дисперсии двух совокупностей, то для проверки выборочной
дисперсии используем F-критерий, или критерий Фишера (F-test). В этом случае гипотезы
имеют вид:




F-критерий, или критерий Фишера (F-test)
Статистический критерий для проверки равенства двух дисперсий из двух совокупностей.

F-статистику (F-statistic) вычисляют как отношение выборочных дисперсий по формуле:
F
(ni-0>:-.)=^T'
где
п, — размер выборки 1;
пг — размер выборки 2;
«[ -1 — степени свободы для выборки 1;
«, -1 — степени свободы для выборки 2;
$,2 — выборочная дисперсия для выборки 1;
Si — выборочная дисперсия для выборки 2.

F-статистика (F-statistic)
F-статистика представляет собой отношение двух выборочных дисперсий.

Как видно, критическое значение F-распределения (F-distribution) зависит от значений
числа степеней свободы: в числителе и в знаменателе.

F-распределение (F-distribution)
Распределение частот, зависящее от значений степеней свободы: числа степеней свободы в
числителе и знаменателе.

Критическое значение f-статистики для различных степеней свободы в числителе и знамена-
теле дано в табл. 5 Статистического приложения. Если вероятность F-статистики выше уровня
значимости а, то Н0 не отклоняют и используют /-критерий, в основе которого лежит оценка объ-
единенной дисперсии. С другой стороны, если вероятность f-cra-racTHKH меньше или равна а, то
ЯцОтклоняют и используют /-критерий, в основе которого лежит оценка отдельных дисперсий.
Предположим, что с помощью данных табл. 15.1 мы хотим определить, действительно ли интен-
сивность использования Internet мужчинами отличается от использования Internet женщинами. Для
этого выполним /-критерий для двух независимых выборок. Результаты приведены втабл. 15.14.


Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 585
Таблица 15.14. Т-критерий двух независимых выборок
Итоговые статистики
Число случаев Среднее Стандартное отклонение
Мужчины 15 4,0
9,333
Женщины 15 1,68
3,867

F-критернй для проверки равенства дисперсий
F-статнстика Двусторонняя вероятность
15,507 0,000

t-критерий
Предполагается равенство дисперсий Не предполагается равенство дисперсий
t-статнстика Степени Двусторонняя t-статистика Степени Двусторонняя
свободы вероятность свободы вероятность
4,492 28 0,000 4,492 18,014 0,000

Обратите внимание, что /"-критерий имеет вероятность меньше 0,05. В соответствии с этим
нулевую гипотезу Я0 отклоняют. В данном случае следовало бы использовать /-критерий, в основе
которого лежит утверждение "Предполагается, что дисперсии не равны". Значение / равно 4,492 и
с учетом 18,014 степеней свободы это дает значение вероятности, равное 0,000, которое меньше
уровня значимости, равного 0,05. Следовательно, нулевую гипотезу о равенстве средних отклоня-
ют. Так как среднее значение степени использования Internet для мужчин (пол — 1) равно 9,333, а
для женщин (пол — 2) — 3,867, то мужчины пользуются Internet значительно больше по сравне-
нию с женщинами. Мы также показываемоценивание с помощью /-критерия для равных диспер-
сий, поскольку большинство компьютерных программ автоматически выполняет /-критерий
обоими способами. Применение /-критерия рассмотрим в следующем примере.

ПРИМЕР. Маркетологи пытаются установить связь между мобильностью лиц
пожилого возраста и приверженностью к определенному универмагу
В исследовании выборки 789 американских респондентов 65 лет и старше маркетологи
попытались определить связь недостаточной мобильности людей с выбором универмага.
Главный вопрос данного исследования связан с различиями в физических требованиях,
предъявляемых лицами пожилого возраста, зависимыми от других (требующими помощи
при передвижении) и уверенными в своих силах, т.е. действительно ли две группы лиц по-
жилого возраста выдвигают разные требования, чтобы добраться до магазина? Детальный
анализ физических требований, выполненный на основе проверки двух независимых выбо-
рок с помощью /-критерия (таблица ниже), показал, что зависимые лица, вероятнее всего,
ищут магазины, которые предлагают доставку товаров на дом или прием заказов по телефо-
ну, а также магазины, в которые они могут добраться. Они также предпочитают ряд близко-
расположенных магазинов [18].
Различия в физических требованиях между зависимыми и уверенными в своих силах пожилыми
людьми
Среднее'
Уверенные в своих силах Зависимые пожилые Вероятность для
пожилые люди люди (-критерия
1,787
Доставка домой 2,000 0,023
Заказы по телефону 2,030 2,335 0,003
Доставка (человека) в универмаг 2,188 3,098 0,000



586 Часть III. Сбор, подготовка и анализ данных
Близость парковки 4,001 4,095 0,305
Расположение (магазина) рядом с домом 3,177 3,325 0,137
Ряд магазинов, расположенных близко 3,456 3,681 0,023
один от другого

"Измерения проведены по пятибалльной шкале: "не важно" присвоено 1 балл, "очень важно" — 5 баллов.

В этом примере мы проверили различие между средними. Аналогичную проверку можно
выполнить для различия долей для двух независимых выборок.
Доли. Рассмотрим ситуацию для долей двух независимых выборок, данные для которой
приведены в табл. 15.1, где дано количество мужчин и женщин, использующих Internet для
приобретения товаров. Одинаковы ли доли людей, использующих Internet для приобретения
товаров, среди мужчин и женщин? Нулевая и альтернативная гипотезы имеют вид:
Я0 :*,=*,
Н2:п^ Лг
Для одной выборки используют г-критерий. Однако в этом случае статистику, лежащую в
основе критерия, вычисляют по формуле:
-L\ — Р
р О.
Z
5
Ъ-Ъ
Здесь числитель представляет собой разность долей в двух выборках Р1 и Р2 Знаменатель —
это стандартная ошибка разности двух долей, вычисляемая по формуле:



где



Выбран уровень значимости а = 0,05. С учетом данных табл. 15.15 тест-статистику можно
вычислить следующим образом:
Р} -Д =(1Ш5)-(б/15) = 0,733-0,400 = 0,333
(15x0,733+15x0,400)
P=i Ц ^ L = 0,567
(15 + 15)

*«. =.|0,567хО,43зГ-1 + ^1 =0,181

,
0,181
При двусторонней проверке область справа от критического значения равна а/2 или 0,025.
Следовательно, критическое значение тест-статистики равно 1,96. Так как вычисленное значе-
ние меньше, чем критическое, нулевую гипотезу нельзя отклонить. Таким образом, различие в
долях пользователей (0,733) для мужчин и (0,400) для женщин не считается статистически зна-
чимым. Обратите внимание, хотя различие довольно существенное, оно статистически незна-
чимое из-за небольшого размера выборки (по 15 человек в каждой группе).

Парные выборки
Во многих маркетинговых исследованиях наблюдения для двух групп не берут из незави-
симых выборок. В таком случае наблюдения называют парными или связанными выборками
(paired samples), поскольку два набора наблюдений относятся к одним и тем же респондентам.

Глава 15, Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 587
Парные или связанные выборки (paired samples)
В проверке гипотез наблюдения называют парными, если два набора наблюдений относятся
к одним и тем же респондентам.

Выборга респондентов может оценивать две конкурирующие торговые марки, выявляя от-
носительную важность двух характеристик (атрибутов) продукта, или оценивать стоимость тор-
говой марки в разное время (сезон). Различие, возникающее в этой ситуации, проверяют с по-
мощью t-критерия парных выборок (paired samples t-test).

t-критерий парных выборок (paired samples t-test)
Критерий для различий средних значений парных выборок.

Чтобы вычислить значение /-критерия для парных выборок, вводят переменную разности,
обозначаемую D, и вычисляют ее среднее и дисперсию. После этого вычисляют /-статистику. Чис-
ло степеней свободы равно п — 1, где п — число пар. Соответствующие формулы имеют вид:




где




В примере с пользователями Internet (см. табл. 15.1) этот критерий используют для опреде-
ления отношения респондентов к Internet и к Internet-технологиям. Полученные данные при-
ведены втабл. 15.15.

Таблица 15.15. t-критерий парных выборок
Переменная Количество случаев Среднее Стандартное Стандартная ошибка
отклонение
Отношение к Internet 30 5,167 1,234 0,225
Отношение к Internet- 30 4,100 1,398 0,255
технологии
Различие отношений к Internet и Internet-технологиям
Разность Стандартное Стандартная Корреляция Двусторонняя Т-статис- Степени Двусторонняя
средних отклонение ошибка вероятность тика свободы вероятность
1,067 0,828 0,1511 0,609 O.OOQ 7,059 29 0,000

Среднее значение отношения респондентов к Internet равно 5,167, а к Internet-технологиям —
4,10. Разность средних между этими переменными равна 1,067 со стандартным отклонением
0,828 и стандартной ошибкой 0,1511. Поэтому значение /-статистики равно (1,067/0,1511) =
7,06 с числом степеней свободы, равным 30 — I = 29 и значением вероятности, меньшим 0,001.
Следовательно, респонденты более благосклонно относятся к Internet, чем к Internet-
технологиям в целом. В качестве другого примера рассмотрим определение относительной эф-
фективности 15-секундной телевизионной рекламы по сравнению с 30-секундной.


Часть III. Сбор, подготовка и анализ данных
588
ПРИМЕР. Подсчет секунд
Для выяснения относительной эффективности 15-секундной телевизионной рекламы
по сравнению с 30-секундной провели опрос 83 директоров по работе с масс-медиа круп-
нейших в Канаде рекламных агентств. Используя пятибалльную шкалу (1 — отлично, 5 —
плохо) респонденты оценивали эффективность 15- и 30-секундной рекламы по следующим
показателям; осведомленность о торговой марке, главная запоминающаяся идея, убедитель-
ность и способность к эмоциональной передаче. Данные таблицы свидетельствуют, что по
всем показателям респонденты выше оценили 30-секундную рекламу.
Среднее значение рейтинга 15- и 30-секундной рекламы по четырем переменным
Главная запоминающаяся Убедительность Эмоциональность
Осведомленность о
идея
торговой марке

30
15 30 15 30 15 30 15
2,7 3,7 1,9
2,5 1,9 2,0 4,3
2,1

Парные проверки показали, что эти различия статистически значимы, и 15-секундная I
телереклама оценена как менее эффективная [19].
, . | . и | Ш И , И, „
| Ш |Ш Ш | | | Ц I пптпп:пплл-:лт- ' V ' lllll .l .. lliL mi ii»i » .. i
l. l .lll m imii i, . i 1и , „„ „,
,„, ft





Разность в долях для парных выборок можно проверить, используя критерий Мак-Немара
или критерий хи-квадрат, как это показано в следующем разделе, посвященном непараметри-
ческим методам проверки.


НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ
ПРОВЕРКИ ГИПОТЕЗ
Данные методы используют в том случае, когда маркетологи имеют дело с независимыми
неметрическими переменными. Аналогично параметрическим методам проверки, непарамет-
рические критерии применяют для проверки переменных из одной выборки, двух независи-
мых или двух взаимосвязанных выборок.

Одна выборка
Иногда исследователь хочет проверить, попадают ли значения конкретной переменной под
определенный тип закона распределения, например нормального распределения, равномерно-
го или распределения Пуассона. Знание закона распределения необходимо для нахождения ве-
роятностей, соответствующих известным значениям переменной или для нахождения значе-
ний переменной, соответствующих известным вероятностям (см. Приложение 12.А). Критерий
согласия Колмогорова-Смирнова для одной выборки (Kolmogorov—Smirnov (К—S) one-sample
test) как раз и является критерием степени согласия теоретической кривой распределения с эм-
пирическими данными.

Критерий согласия Колмогорова-Смирнова для одной выборки
(Kolmogorov-Smirnov (K-S) one-sample test)
Непараметрический метод проверки степени согласия эмпирической функции распределе-
ния переменной с определенным теоретическим законом распределения.

Критерий Колмогорова-Смирнова сравнивает эмпирическую функцию распределения пе-
ременной с определенным теоретическим законом распределением. В наших дальнейших рас-
суждениях А,- обозначает кумулятивную частость для каждой категории теоретического
(предполагаемого) распределения, а О,— сравниваемое значение выборочной частости. Крите-


Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 589
рий К-С основан на максимальном значении абсолютной разности между А; и О,. Значение
критерия вычисляют по формуле:
К = Мах\А, - О;
Решение об отклонении нулевой гипотезы основано на значении К. Чем больше значение
К, тем больше уверенности, что нулевая гипотеза Я^неверна. При а = 0,05 критическое значе-
ние Кцпя больших выборок (свыше 35 наблюдений) задается формулой l,36vn [20]. Альтерна-
тивно, К можно преобразовать в нормально распределенную ^-статистику и определить свя-
занную с ней вероятность.
Предположим, что в рамках примера по степени использования Internet мы хотели бы уз-
нать, действительно ли собранные данные подчиняются нормальному распределению. Резуль-
таты проверки с помощью критерия согласия К—С, представлены в табл. 15.16.

I Таблица 15.16. Критерий К-С для проверки нормального закона распределения дан*
• ных (для одной выборки) в примере по изучению степени использования Internet
Проверка распределения - Нормальное
Среднее 6,600
Стандартное отклонение 4,296
Случаи (количество) 30
Самые большие значения разностей

Абсолютное Положительное Отрицательное K-S z-статистика Двусторонняя
вероятность р
0,222 0,222 -0,142 1,217 0,103
Самая большая по абсолютной величине разность между наблюдаемым и нормальным
распределением равна К = 0,222. Хотя размер нашей выборки только 30 (меньше, чем 35),
мы можем использовать приближенную формулу, и критическое значение для К равно
1.3бл/30 =0,248 . Так как вычисленное значение К меньше критического, то нулевая гипотеза
не может быть отклонена. Альтернативно, из данных табл. 15.16 видно, что вероятность по-
явления наблюдаемого значения К, равного 0,222, определенная с помощью нормализован-
ной г-статистики, равна 0,103. Поскольку это значение больше, чем уровень значимости
0,05, то нулевую гипотезу нельзя отклонить. Мы пришли к аналогичному выводу. Следова-
тельно, распределение степени использования Internet несущественно отклоняется от нор-
мального распределения.
Как уже упоминалось, в отношении одной переменной из одной выборки можно выпол-
нять проверку гипотезы по критерию хи-квадрат. В этом плане он также является критерием
согласия. Он проверяет, действительно ли существует статистически значимая разница между
наблюдаемым числом случаев в каждой категории и ожидаемым. Другие непараметричсские
методы проверки включают критерий серий и биномиальный тест.

Критерий серий (runs test)
Критерий случайности для дихотомической переменной.

Критерий серий (runs test) представляет собой критерий случайности для дихотомических
(двузначных) переменных. Эту проверку выполняют, определяя, действительно ли порядок
или последовательность, в которой получены наблюдения, случайны. Биномиальный критерий
(binomial test) также является критерием согласия для дихотомических переменных. Он прове-
ряет степень соответствия (согласия) числа наблюдений в каждой категории с числом наблю-
дений, ожидаемым в условиях конкретного биномиального распределения.


590 Часть III. Сбор, подготовка и анализ данных
Биномиальный критерий (binomial test)
Статистический критерий согласия для дихотомических переменных. Он проверяет степень
согласия наблюдаемого числа наблюдений в каждой категории с числом наблюдений, ожи-
даемым G условиях конкретного биномиального распределения.

Подробную информацию об этих критериях смотрите в литературе по статистике [21].

Две независимые выборки
Если необходимо сравнить различие в показателях центратьной тенденции двух генераль-
ных совокупностей, исходя из наблюдений из двух независимых выборок, а переменная изме-
рена на основании порядковой шкалы, то можно использовать {/-критерий Манна—Уитни
(Mann-Whitney ?/-test) [22]. Этот критерий соответствует /-критерию двух независимых выбо-
рок, переменные которых выражены в интервальной шкале, когда предполагают, что диспер-
сии двух совокупностей равны.
При использовании {/-критерия Манна—Уитни две выборки объединяют и наблюдения
ранжируют в порядке возрастания. Тест-статистику U вычисляют как число повторений рангов
из одной выборки или группы 1, которое стоит впереди рангов из группы 2. Если выборки взя-
ты из одной совокупности, распределение рангов из двух групп в ранжированном перечне
должно быть случайным. Экстремальное значение (/-статистики свидетельствует о неслучай-
ном характере, указывая на неравенство двух групп. Для выборок размером меньше 30 вычис-
ляют точное значение уровня значимости для ^/-статистики, Для выборок большого размера U-
статистику преобразуют в нормально распределенную ^-статистику, которую можно скорректи-
ровать с учетом совпадений внутри рангов.

^/-критерий Манна-Уитни (Mann-Whitney (Atest)
Статистический критерий для переменной, измеренной с помощью порядковой шкалы, ко-
торый сравнивает различие в показателях положения двух совокупностей, исходя из на-
блюдений, взятых из двух независимых выборок.

Мы снова рассмотрим различие использования Internet мужчинами и женщинами, обра-
тившись к {/-критерию Манна—Уитни. Результаты приведены в табл. 15.17.

Таблица 15.17. {/-критерий Манна-Уитни
(/-критерий Манна-Уитни и W-критерий парных сравнений Уилкоксона
Зависимость степени использования Internet от пола
Пол Средний ранг Количество случаев
Мужчины 20,93 15
Женщины 10,07 15
Итого 30
U W z Откорректированная
вероятность р
31,000 151,00 - 3,406 0001

Примечание. U ˜ тест-статистика Манна-Уитни,
W— W-статистика Уилкоксона,
i — U-статистика, преобразованная в нормально распределенную z-статистику.
Из данных таблицы обнаруживается значительное различие между двумя группами,
подкрепляющее изложенные результаты проверки двух независимых выборок с помощью
Г-критерия. Поскольку ранги присвоены в порядке возрастания наблюдений, то более высо-


Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 591
кое среднее значение ранга для мужчин (20,93) свидетельствует, что они интенсивнее ис-
пользуют Internet по сравнению с женщинами (среднее значение ранга 10,7).
Исследователи часто хотят проверить различия в долях, полученных из анализа двух неза-
висимых выборок. В качестве альтернативы параметрической г-статистики можно использо-
вать процедуру кросс-табуляции, чтобы выполнить проверку с помощью критерия хи-
квадрат [23]. В этом случае имеем таблицу 2 x 2 . Одну переменную используем для обозначе-
ния выборки, допустим, значение 1 — для выборки 1, а значение 2— для выборки 2. Другая
переменная будет интересующей нас двоичной переменной.
Два других непараметрических метода проверки независимых выборок— это медианный
критерий и критерий Колмогорова—Смирнова. Двухвыборочный медианный критерий (two-
sample median test) определяет, действительно ли две группы взяты из совокупностей с одной и
той же медианой. Медианный критерий не такой мощный, как ^/-критерий Манна—Уитни,
поскольку он попросту использует показатель положения каждого наблюдения относительно
медианы, а не ранг каждого наблюдения.

Двухвыборочный медианный критерий (two-sample median test)
Непараметрический метод проверки, который определяет, действительно ли две группы
взяты из совокупностей с одной и той же медианой. Медианный критерий не такой мощ-
ный, как U-критерий Манна-Уитни.

Двухвыборочный критерий Колмогорова—Смирнова (Kolmogorov-Smirnov two-sample test)
проверяет, действительно ли две совокупности подчиняются одному и тому же закону распре-
деления. Он учитывает любые различия между двумя распределениями, включая медиану, ва-
риацию и асимметрию, о чем свидетельствует приведенный ниже пример.

Двухвыборочный критерий Колмогорова-Смирнова
(Kolmogorov-Smirnov two-sample test)
Непараметрический метод проверки, действительно ли две совокупности подчиняются од-
ному и тому же закону распределения. Этот критерий учитывает любые различия между
двумя распределениями, включая медиану, вариацию и асимметрию.


ПРИМЕР. Большой бизнес: так ли просто поменять стартегию?
Как руководители маркетинговых компаний и их клиенты — компании из списка Fortune
500— представляют себе роль маркетинговых исследований в изменении маркетинговой страте-
гии? Обнаружено, что руководители маркетинговых компаний, в отличие от своих клиентов, по-
ложительно смотрят на изменение стратегии и не склонны откладывать начало изменений. Вы-
раженные в процентах ответы на один из пунктов опроса "Должны ли вноситься изменения в
маркетинговую стратегию фирмы при первой возможности" приведен ниже. С помощью крите-
рия Колмогорова—Смирнова показано (в таблице), что различия в определении роли маркетин-
I говых исследований статистически значимы при уровне значимости 0,05 [24].


; Роль маркетингового исследования в выработке стратегии
Ответы (%)
Выборка п Должны Предпочтитель И могут, и не Предпочтитель Абсолютно не
обязательно но должны могут но не должны должны
D 77 7 26 43 19 5
U 68 2 15 32 35 16
Уровень значимости К - С = 0,05

'D — руководители маркетинговых компаний; U — клиенты маркетинговых компаний.


592 Часть III. Сбор, подготовка и анализ данных
В этом примере руководители маркетинговых компаний и их клиенты представляют две
независимые выборки. Однако выборки не всегда независимые. В случае парных выборок сле-
дует использовать другой набор критериев.

Парные выборки
Важным непараметрическим критерием для изучения различий в показателях центральной
тенденции двух генеральных совокупностей на основе парных наблюдений является критерий по-
парных сравнений Уилкоксона (Wilcoxon matched-pairs signed-ranks test). С его помощью анализи-
руется величина разностей между парными наблюдениями. В этом методе вычисляют разности
между парами переменных и ранжируют абсолютные значения разностей. На следующем этапе
суммируют положительные и отрицательные ранги. Далее на основании положительных и отри-
цательных сумм рангов рассчитывают г-статистику. В соответствии с нулевой гипотезой, утвер-
ждающей об отсутствие различий, z представляет собой случайную величину, распределенную по
нормальному закону, со значением медианы, равным 0, и дисперсией 1 для больших выборок.
Критерий Уилкоксона соответствует рассмотренному ранее парному f-критерию [25].

Критерий попарных сравнений Уилкоксона (Wilcoxon matched-pairs signed-ranks test).
Непараметрический метод проверки, посредством которого анализируют разности между
парными наблюдениями, учитывая их величину.

Рассмотрим еще раз пример, приведенный для парного /-критерия и касающийся наличия
различий в отношении респондентов к Internet и Internet-технологиям. Допустим, что обе эти
переменные измерены с помощью порядковой шкалы, а не интервальной. В соответствии с
этим используем критерий Уилкоксона. Результаты приведены в табл. 15.18.

Таблица 15.18. Критерий попарных сравнений Уилкоксона
н м^^^н^ н^^^^^^^ М ^^^^^ ^
н ^^^^ ^м ^^^^^^^В Н^^^^НН




internet с Internet-технологиями
(Internet-технологии - internet} Число случаев Средний ранг
- Ранги 23 12,72
+- Ранги 1 7,50
Совпадающие ранги 6
Итого 30
Вероятность для двусторонней проверки р= 0,0000
г = -4,207

Здесь снова выявлено различие в переменных, и результаты согласуются с выводами, сде-
ланными на основании парного /-критерия. В данном случае мы имеем 23 отрицательные раз-
ности (респонденты лучше относятся к Internet, чем к Internet-технологиям). Средний ранг их
равен 12,72. С другой стороны, есть только одна положительная разность (один респондент
лучше относится к Internet-технологиям, чем к Internet). Средний ранг этой разности равен
7,50. Кроме того, есть 6 совпадающих рангов, т.е. 6 одинаковых значений обеих переменных.
Эти числа показывают, что респонденты лучше относятся к Internet, чем к Internet-

<<

стр. 21
(всего 35)

СОДЕРЖАНИЕ

>>