<<

стр. 20
(всего 35)

СОДЕРЖАНИЕ

>>





538 Часть III. Сбор, подготовка и анализ данных
КЛАССИФИКАЦИЯ СТАТИСТИЧЕСКИХ МЕТОДОВ
Статистические методы делятся на одно- и многомерные. Одномерные методы (univariate
techniques) используются тогда, когда все элементы выборки оцениваются единым измерите-
лем, либо если этих измерителей несколько для каждого элемента, но каждая переменная ана-
лизируется при этом отдельно ото всех остальных.

Одномерные методы (univariate techniques)
Методы статистического анализа, применяемые для анализа данных в случаях, если сущест-
вует единый измеритель для оценки каждого элемента выборки, либо если этих измерите-
лей несколько, но каждая переменная анализируется отдельно ото всех остальных.

Многомерные методы (multivariate techniques) прекрасно подходят для анализа данных, если
для оценки каждого элемента выборки используется два или больше измерителей, а эти пере-
менные анализируются одновременно. Такие методы применяются для определения одновре-
менных взаимосвязей между двумя или больше явлениями.

Многомерные методы (multivariate techniques)
Методы статистического анализа, применяемые для анализа данных, если для оценки каж-
дого элемента выборки используется два или больше измерителя и эти переменные анали-
зируются одновременно. Данные методы применяются для определения одновременных
взаимосеязей между двумя или больше явлениями.

Многомерные методы отличаются от одномерных прежде всего тем, что при их использова-
нии центр внимания смещается с уровней (средних показателей) и распределений (дисперсий)
явлений и сосредотачивается на степени взаимосвязи (корреляции или ковариации) между
этими явлениями [15]. Оба этих вида статистических методов анализа подробно описаны в по-
следующих главах, но сейчас мы покажем, как разные методы взаимосвязаны в общей схеме
классификации.
Одномерные методы можно классифицировать на основе того, какие данные анализируют-
ся: метрические или неметрические. Метрические данные (metric data) измеряются по интер-
вальной шкале или относительной шкале.

Метрические данные (metric data)
Данные, которые по своей природе интервальные или относительные.

Неметрические данные (nonmetric data) оцениваются по номинальной или порядковой
шкале (см. главу 8).

Неметрические данные (nonmetric data)
Данные, полученные на основе измерений по номинальной или порядковой шкале.

Затем эти методы делят на классы на основе того, сколько выборок — одна, две или более —
анализируется в ходе исследований. Заметим, что число выборок определяется тем, как ведется
работа с данными для конкретного анализа, а не тем, каким способом собирались данные. На-
пример, данные по лицам мужского и женского пола можно получить в пределах одной выбор-
ки, но если их анализ нацелен на выявление разницы в восприятии, основанной на разнице
полов, исследователю придется воспользоваться двумя разными методами выборки. Выборки
считаются независимыми, если они выделены из разных генеральных совокупностей произ-
вольно. Для анализа данные, относящиеся к разным группам респондентов, например собран-
ные от лиц женского и мужского пола, обычно обрабатываются как независимые выборки.


Глава 14. Подготовка данных к анализу 539
С другой стороны, если данные по двум выборкам относятся к одной и той же группе респон-
дентов, выборки считаются объединенными в пары.
Что касается метрических данных, то если существует только одна выборка, может использо-
ваться z- и ^-критерий. Если же независимых выборок две или больше, в первом случае можно
воспользоваться z.- и /-критерием для двух выборок, в во втором — методом однофакторного дис-
персионного анализа. Для двух связанных выборок используется парный /-критерий. Если речь
идет о неметрических данных по одной выборке, исследователь может воспользоваться критерия-
ми частотного распределения, хи-квадратом, критерием Колмогорова—Смирнова (К—S), крите-
рием серий и биномиальным критерием. Для двух независимых выборок с неметрическими
данными можно прибегнуть к следующим методам анализа: хи-квадрат, Манна—Уитни, ме-
дианы, К—С, однофакторным дисперсионным анализом Крускала—Уоллиса (ДА К—У). В от-
личие от этого, если существует две или больше взаимосвязанных выборок, следует воспользо-
ваться критериями знаков, Мак-Немара и Уилкоксона (рис. 14.6).

Одномерные методы
статистического анализа




Метрические Неметрические
данные .


I
Две или больше

Вариационный ряд
Критерий хи-квадрат
Критерий Колмогорова-
Смирнова
Критерий серий
Биномиальный критерий
Взаимосвязанные

Двухгрупгювой Парный
(- критерий ! - критерий
Z-критерий
Однофакторный
дисперсионный
анализ
• Критерий хи-квадрат Критерий знаков
• Критерий Мэнна-Уитни Критерий Вилкоксона
• Медианы Критерий МэкНемара
Критерий хи-квадрат
• Критерий Колмогорова-
Смирнова
• Критерий Крускала-
Уоллиса и ANOVA

Рис. 14.6. Классификация одномерных статистических методов

Многомерные статистические методы можно разделить на методы зависимости и методы
взаимозависимости (рис. 14.7).




540 Часть lit. Сбор, подготовка и анализ данных
I
Методы Методы
для зависимых для взаимозависимых
переменных

I
Одна Несколько
Межобьектнш
взаимозависимые
зависимая зависимых

Многомерный Факторный анализ Кластерный анализ
• Кросс-табуляция
(более двух переменных) дисперсионный и Многомерное
• Дисперсионный и ковариационный анализ шкалирование
ковариационный анализ Анализ канонической
• Множественная корреляции
регрессия Множественный
• Двухгрупповой дискриминантный
дискриминантный анализ
анализ
• Совместный анализ
Рис. 14.7. Классификация многомерных статистических методов

Методы зависимости {dependence techniques) применяются в случаях, когда одна или боль-
ше переменных идентифицированы как зависимые, а остальные — как независимые.

Методы зависимости (dependence techniques)
Методы, применяемые в случаях, когда одна или больше переменных идентифицированы
как зависимые, а остальные - как независимые.

Если есть только одна зависимая переменная, используются такие методы анализа, как
кросс-табуляция, дисперсионный и ковариационный анализ, регрессионный анализ, двух-
групповой дискриминантный анализ и совместный анализ. Однако, если имеется больше од-
ной зависимой переменной, следует воспользоваться многомерными методами анализа: дис-
персионным и ковариационным, методом канонической корреляции и множественным дис-
криминантным анализом. При применении методов взаимозависимости (interdependent
techniques) переменные не подразделяются на зависимые и независимые; напротив, исследует-
ся весь набор взаимозависимых взаимосвязей.

Методы взаимозависимости (interdependent techniques)
Многомерные статистические методы, цель которых - сгруппировать данные по лежащему в
основе сходству, что позволяет интерпретировать разные структуры данных. При этом пере-
менные не подразделяются на зависимые и независимые.

Методы данного типа нацелены прежде всего на выявление взаимозависимости перемен-
ных либо межобъектного сходства. При исследовании взаимозависимости переменных чаще
всего применяется факторный анализ. Анализ межобъектного сходства можно вести, используя
методы кластерного анализа и многомерного шкалирования [17].




541
Глава 14. Подготовка данных к анализу
МЕЖДУНАРОДНЫЕ МАРКЕТИНГОВЫЕ
ИССЛЕДОВАНИЯ
Прежде чем приступить к анализу данных, исследователь должен обеспечить сравнимость
единиц измерения, используемых в разных странах или отдельных культурных образованиях.
Возможно, ему придется откорректировать имеющиеся данные с тем, чтобы создать эквивален-
ты валют либо метрических мер. Кроме того, для проведения значимых сравнений и получе-
ния достоверных и состоятельных результатов нередко необходимо провести стандартизацию
или нормализацию данных.

ПРИМЕР. Повальное увлечение мороженым
Компания Haagen-Dasz, лидирующий производитель мороженого в США, в последнее
время известна также как один из самых успешных американских экспортеров. Объемы ее
продаж в странах Азии, Великобритании, Франции и Германии растут с феноменальной
скоростью. В 2000 году ожидалось, что потребители во всем мире будут ежегодно поглощать
продукции Haagen-Dasz на 2 миллиарда долларов, причем почти половина этой суммы по-
ступит от продаж на международном рынке. Как компании удалось достичь такого ошелом-
ляющего успеха? Стратегия разжигания аппетита иностранцев проста. Маркетинговые ис-
следования, проведенные в ряде европейских стран (в том числе Великобритании, Франции
и Германии) и нескольких азиатских странах (Японии, Сингапуре, Тайване и т.д.), показа-
ли, что потребители жаждут есть мороженое высокого качества с имиджем высшего класса и
готовы платить за него соответствующую цену. Такой вывод сделали после того, как цена на
мороженое в каждой стране была нормализована, получено среднее значение цены, равное
нулю, и унифицированное стандартное отклонение. Нормализация была весьма желатель-
на, поскольку цены указывались в разных валютах, а для сравнения показателей по разным
странам была необходима какая-то общая основа. Кроме того, в каждой стране высокую це-
ну назначали с учетом цен на конкурирующие марки мороженого. Использование норма-
лизации позволило компании решить обе эти задачи.
Основываясь на результатах проведенных исследований, компания Haagen-Dasz. в пер-
вую очередь начала продавать свою продукцию через очень ограниченную сеть розничных
магазинов наивысшего класса; несколько позже была создана сеть магазинов в зонах актив-
ного автомобильного движения, которые были уже собственностью компании; и наконец,
дело дошло до супермаркетов и магазинов самообслуживания, работающих с удлиненным
рабочим днем. Таким образом, благодаря тому, что на рынок сбыта компания выходила че-
рез розничные магазины высшего класса, ей удалось обеспечить высококлассный имидж
для марки своего нового товара. Кроме того, Haagen-Dasz оборудовала магазины своих сбы-
товиков бесплатными холодильниками. В результате изголодавшиеся по мороженому высо-
чайшего качества британцы выкладывали по 5 долларов за пинту, т.е. вдвое, а то и втрое
[ больше, чем они платили за отечественные сорта. "Это явно самый большой магазин по
| продаже мороженого в мире под одной торговой маркой",— говорит старший вице-
I президент компании по международным продажам Джон Ричителло. Кроме того, продук-
ция Haagen-Dasz остается популярной и на американском рынке, хотя и испытывает серьез-
\
i ную конкуренцию и давление со стороны органов здравоохранения, что также является сти-
I мулом для дальнейшего выхода на международные рынки [18].

Анализ данных может выполняться на трех уровнях: индивидуальном; в пределах страны
или культурного образования; в разных странах или культурных образованиях. Для анализа на
индивидуальном уровне необходимо, чтобы данные по каждому респонденту анализировались
отдельно. Так, например, можно вычислить коэффициент корреляции либо проанализировать
каждого респондента с применением регрессионного анализа. Это означает, что для анализа на
этом уровне необходимо получить от каждого респондента достаточное количество данных, что
не всегда экономически целесообразно. Тут можно возразить, что при проведении междуна-


Часть III. Сбор, подготовка и анализ данных
542
родных маркетинговых исследований или исследований в разных культурных средах исследо-
ватель в любом случае должен обладать полноценными знаниями о потребителях, относящих-
ся ко всем элементам разных культур. Этого лучше всего можно добиться, применяя анализ на
индивидуальном уровне [19].
При анализе в пределах одной страны или одного культурного образования данные по каж-
дой стране или культурной единице анализируются отдельно. Такой анализ также называют
интракультурным (intracultural analysis).

И нтра культурны и анализ (intracultural analysis)
Анализ данных международного характера, проводимый в пределах одной страны.

Данный уровень анализа очень напоминает анализ, который проводится при внутренних
маркетинговых исследованиях. Цель его — определить взаимоотношения и структурные связи,
существующие в каждой стране или культурной единице. При анализе результатов опроса в
разных странах собранные данные анализируются одновременно. При использовании этого
метода возможны два подхода. Первый заключается в том, что данные по всем респондентам,
представляющим все исследуемые страны, объединяются и анализируются. Такой подход на-
зывают панкультурным анализом (pan-cultural analysis).

Панкультурный анализ (pan-cultural analysis)
Анализ, охватывающий несколько стран, при котором объединяются и анализируются дан-
ные, собранные при опросе респондентов из всех стран.

Второй подход состоит в том, что данные группируются по каждой стране, и затем эти уже
объединенные статистические данные анализируются. Так, например, можно рассчитать сред-
ние по переменным для каждой страны, а затем вычислить корреляции этих средних. Это на-
зывается межкультурным анализом (cross-cultural analysis).

Межкультурный анализ (cross-cultural analysis)
Тип анализа, охватывающего несколько стран, при котором данные сначала группируются
по каждой стране, а затем по каждой стране анализируются.

Цель данного типа анализа заключается в оценке сравнимости выводов по разным странам.
В данном случае нужно исследовать как сходства, так и различия между странами. При иссле-
довании различий необходимо оценивать не только различия в средних показателях, но и раз-
личия в дисперсии и распределении. Все статистические методы, обсуждаемые в этой книге,
могут применяться для анализа в пределах одной страны и для анализа, охватывающего не-
сколько стран, а также, если можно получить необходимый объем данных, и для анализа на
индивидуальном уровне [20].


ЭТИКА МАРКЕТИНГОВЫХ ИССЛЕДОВАНИЙ
Этические вопросы, возникающие на этапе подготовки данных к анализу и в процессе са-
мого анализа в ходе проведения маркетинговых исследований, в первую очередь касаются ис-
следователя. Проводя проверку, редактирование, кодирование, преобразование и очищение
данных, исследователи должны составить представление по поводу качества данных. Следует
попытаться выявить респондентов, которые предоставили данные сомнительного качества.
Рассмотрим, например, следующий случай: респондент помечает вариант "7" по всем 20 пунк-
там, предложенным при исследовании отношения людей к зрелищным видам спорта, по се-
мибалльной шкале Лайкерта. Очевидно, что данный респондент не осознавал, что некоторые
его утверждения были при этом позитивными, а некоторые — негативными. Таким образом,
он указывает на свое весьма положительное отношение к зрелищным видам спорта по всем

Глава 14. Подготовка данных к анализу 543
позитивным элементам и на резко отрицательное — по всем противоположным утверждениям.
В данном случае решение отбраковать ответы данного респондента, т.е. не включать их в ана-
лиз, может быть связано с определенными морально-этическими проблемами. Для подобных
ситуаций существует весьма полезное эмпирическое правило: принимать такие решения следу-
ет на этапе подготовки данных, еше до перехода на стадию анализа.
Представим противоположную ситуацию: предположим, что исследователь провел анализ
данного рода, не попытавшись сначала выявить всех респондентов, предоставивших ответы не-
удовлетворительного качества. Данный анализ, однако, не выявил ожидаемых взаимосвязей,
т.е. он не показал, что отношение к зрелищным видам спорта влияет на посещаемость спортза-
лов и стадионов зрителями. После этого исследователь принимает решение исследовать качест-
во полученных данных. При проверке анкет выявлено несколько респондентов, ответы кото-
рых неудовлетворительного качества. Кроме упомянутого выше типа неудовлетворительных
ответов были также другие сомнительные варианты. Например, некоторые респонденты поме-
тили все ответы по всем 20 элементам оценки зрелищных видов спорта как "4", т.е. выбрали
вариант "не согласен, но и не против". После отсеивания ответов всех таких респондентов из
анализа оставшийся набор данных анализировали и получили ожидаемый результат, свиде-
тельствующий о том, что положительное отношение к зрелищным видам спорта увеличивает
посещаемость соответствующих заведений.
Отбраковка респондентов после анализа данных связана с определенными этическими
проблемами, особенно если в отчете нет явного свидетельства о том, что первоначальный ана-
лиз неокончателен. Более того, необходимо дать точное определение процедуры, использован-
ной для выявления неудовлетворительных респондентов, и точно указать количество отбрако-
ванных респондентов, как это описано в приведенном ниже примере.

ПРИМЕР. Отсеивание лиц, ответственных за принятие решений, но не желаю-
щих поступать в соответствии с этическими нормами
При опросе учащихся по программе МВА по вопросам, связанным с этическими про- !
блемами, возникающими в ходе маркетинговых исследований, респондентов попросили от- 1
ветить на 14 вопросов, касающихся двусмысленных в этическом плане ситуаций. Для этого j
они должны простым предложением описать, какие действия они предприняли бы, если бы ;•
оказались в подобной ситуации. После этого все результаты ответов были проанализирова- '
ны с тем, чтобы определить, свидетельствует ли ответ респондента об этичности его поведе- •_
ния. Однако уже на этапе подготовки данных шесть из 561 респондента отбраковали из
дальнейшего анализа, поскольку их ответы указывали на то, что они не выполнили основ-
ной рекомендации, в соответствии с которой они должны были четко описать свои деист- •
вия. Данная ситуация может служить примером выполнения этических требований к редак- j
тированию данных. Критерий неудовлетворительных ответов определен четко и точно, рее- ]
понденты с неудовлетворительными ответами выявлены перед проведением анализа, и
число отсеянных респондентов точно определено [21].
\ -:тт . . .„„.,,„.. i
В ходе анализа данных исследователю также нередко приходится сталкиваться с вопросами
этического характера. Предположения, лежащие в основе статистических методов, используе-
мых для анализа данных, должны удовлетворять одному условию: быть достаточными для по-
лучения значимых результатов. Любое отклонение от этих предположений необходимо всесто-
ронне исследовать и определить, насколько подходит выбранный метод для анализа имеющих-
ся данных. На маркетологе лежит определенная ответственность: он должен уметь объяснить,
почему для анализа использовал тот или иной метод. Если это не делается, могут возникнуть
вопросы этического характера. Кроме того, недопустимы какие-либо преднамеренные либо
умышленные искажения методов или результатов исследования. Этические проблемы могут
возникнуть и в ходе интерпретации результатов, составления заключений, рекомендаций и в
процессе реализации выводов. Несомненно, интерпретация, заключения, рекомендации и реа-
лизация выводов обязательно подразумевают определенную степень субъективности, однако
любая оценка должна быть честной, свободной от какой-либо личной необъективности и
предвзятости исследователя или клиента.

544 Часть III. Сбор, подготовка и анализ данных
ИСПОЛЬЗОВАНИЕ INTERNET И КОМПЬЮТЕРА
Основные пакеты статистического программного обеспечения: SPSS (www.spss.com),
BMDP (www.usc, edu/ucs/userserv/statistics/bmdp), Minitab (www.rninitab.com)
и Excel (207 . 68 .137 . 59/excel/ProductInfo/Brochure/) — имеют свои Internet-сайты,
выйдя на которые, можно получить огромное количество самой разнообразной информации.
Ниже подробно рассказывается об использовании этих пакетов для проверки достоверности
собранных данных.

Компьютерные программы для подготовки данных
SPSS
С помощью этого пакета значения, выпадающие из определенного диапазона, могут
быть отобраны с использованием операторов SELECT IF или PROCESS IF. Все эти наблю-
дения вместе с идентификационной информацией можно распечатать командами PRINT
или WRITE. В ходе дальнейшей проверки может использоваться команда LIST, которая вы-
водит на экран значения переменных по каждому наблюдению. Функция SPSS Data Entry II
упрощает процедуру ввода данных в новые файлы. Она повышает эффективность процесса
очищения данных и проверки их на предмет логической несостоятельности.
SAS
Для отбора наблюдений с пропущенными значениями либо значениями, выходящими
за пределы определенного диапазона, в этом пакете используются операторы IF, IF-THEN и
IF-THEN/ELSE. Оператор SELECT выбирает один из нескольких операторов либо группу
операторов. Оператор LIST весьма полезен для распечатки вызывающих подозрение строк
введенных данных. Оператор LOSTCARD используется для идентификации пропущенных
записей в данных. Процедуры PRINT и PRINTTO применяют для идентификации наблю-
дений и распечатки имен и значений переменных. Кроме того, операторы OUTPUT и PUT
применяют для записи значений переменных.
BMDP
Для отбора выпадающих из определенного диапазона данных в этом пакете используется
функция TRANSFORM. Преобразующее слово USE и несколько функций и логических опе-
раторов обеспечивают мошные возможности для отбора данных. Некоторые программы имеют
специальные опции для перечисления данных. Например, Ш может распечатать только на-
блюдения с пропущенными значениями или значениями, выходящими за пределы конкрет-
ного диапазона. Эта программа позволяет составить список всех данных таким образом, что
каждый столбец будет содержать все значения по одной переменной. Можно также распечатать
все переменные по одному наблюдению перед переменными по следующему наблюдению.
Программа AM позволяет распечатать позиции пропущенных и выходящих за пределы диа-
пазона значений, 4D обеспечивает вывод на печать данных в компактной форме карты или об-
раза либо распечатать только наблюдения, содержащие нечисловые символы.
Minitab
В этом пакете операторы позволяют управлять порядком команд в макросе. Команда IF
позволяет реализовывать разные блоки команд: IF, ELSEIF, ELSE и ENDIF.
Excel
Для проведения логических проверок и проверок на наличие данных, выпадающих из оп-
ределенного диапазона, с помощью этой программы можно воспользоваться оператором IF.
Доступ к нему получают следующим образом: INSERT>FUNCTION>ALL>IF.

Кроме того, эти пакеты включают опции для работы с пропущенными ответами и для
статистической корректировки данных. Сегодня существуют статистические программы, ко-
торые можно найти в Internet. Некоторые из них нельзя применять для интегрированного


Глава 14. Подготовка данных к анализу 545
анализа данных, но зато они очень полезны при выполнении отдельных элементов стати-
стического анализа.
Через Internet можно получить информацию, используемую при выборе правильной стра-
тегии анализа данных. Здесь содержится огромное количество сведений относительно того, в
каких случаях пользоваться теми или иными статистическими методами. Кроме того,
"путешествуя" по Internet, можно найти информацию о совершенно новых статистических ме-
тодах, которые пока недоступны в широко используемых статистических программах. Полез-
ным источником всевозможных сведений статистического характера могут стать группы ново-
стей и группы по интересам.
Существует несколько программ для компьютеров, повышающие эффективность процесса
подготовки данных. Так, компания Pros & Cons, Inc. (Бетесда, штат Мэриленд) разработала про-
грамму PCPUNCH для персональных компьютеров, с помощью которой можно вводить дан-
ные, проверять их состоятельность, замещать пропущенные значения, выполнять статистиче-
скую корректировку данных и их базовый анализ. Кроме того, процедуру проверки на наличие
данных, выпадающих из определенного диапазона, и логически непоследовательных данных
можно запрограммировать. Все это позволяет выявлять ошибки данного типа уже на этапе вво-
да данных с клавиатуры, что не только сокращает количество ошибок при вводе данных, но и
повышает эффективность корректировочных мероприятий.

I В центре внимания Burke
В компании Burke огромное внимание уделяется надлежащей подготовке данных к ана-
лизу. Заполненные анкеты, поступившие с мест сбора данных, тщательно проверяются и ре-
дактируются. Если это возможно, в случае обнаружения пропущенных или неудовлетвори-
тельных ответов с респондентами связываются повторно. Для кодирования и преобразова-
ния данных применяется стандартная процедура. Для выявления значений, выходящих за
пределы определенного диапазона, непоследовательных значений или экстремальных отве-
тов используются всесторонние проверки с применением компьютерной техники.
Обычная процедура — преобразование данных, обеспечивающее их максимальное соот-
ветствие основным задачам исследования. Однако специалисты компании заметили, что та-
кие преобразования, хотя и выглядят логичными, способны создавать определенные про-
блемы для исследователя. Рассмотрим, например, исследование, проведенное Burke для
клиента, пожелавшего проанализировать закономерность в возникновении проблем при ус- [
тановке новых компьютеров. Ставились основные два вопроса.
1. Сколько новых компьютеров доставлено на данный участок за последних 30 дней?
2. С каким количеством компьютеров возникли проблемы при установке, в результате чего
компьютер либо его отдельные компоненты пришлось возвратить продавцу?
Специалисты рассмотрели несколько вариантов возможных преобразований, исполь-
зуемых для работы с данными такого рода. Один подход заключался во взвешивании ко-
личества возвратов делением этого показателя на количество поставок. Такое действие
позволило вывести новую переменную, которая представляла собой не что иное, как про-
порциональную долю поставок, повлекших за собой возврат товара. Очевидно, что если
рассматривать данный показатель как "наблюденные данные", при любом суммировании
или выведении среднего по этим числам будет тотально игнорироваться основа, на кото-
рой получены эти показатели. Так, один респондент имел один возврат при четырех по-
ставках, т.е. пропорция была 1/4; второй— 10/30, т.е. с пропорцией 1/3. Эти данные не-
обходимо рассматривать с применением одних и тех же единиц измерений, и средний
показатель будет 7/24, или 0,29. Конечно, реальный средний показатель возвратов состав-
ляет 11/34, или 0,32. Как мы видим, Burke весьма осторожно использует всевозможные
варианты преобразования данных.
При некоторых видах преобразований определенные статистические методы, например
кросс-табуляцию, нельзя использовать в их обычной форме. Компания Burke разработала специ-
! альное статистическое программное обеспечение, с помощью которого можно анализировать

546 Часть III. Сбор, подготовка и анализ данных
данные в таких ситуациях. Для каждого проекта разрабатывается подробная стратегия анализа
данных. В Burke для анализа данных в ходе проведения маркетинговых исследований очень ши-
роко используются как простые одномерные, так и сложные многомерные методы статистическо-
го анализа. В компании разработаны специальные программы для анализа данных в конкретных
ситуациях, связанных с применением нестандартных методов преобразования данных.



РЕЗЮМЕ
Процесс подготовки данных к анализу начинается с предварительной проверки полноты
заполнения всех анкет и качества интервью. После этого выполняется более тщательное редак-
тирование: просмотр анкет для выявления нечитабельных, не до конца заполненных анкет,
наличия в них логически непоследовательных и неоднозначных ответов. С анкетами такого
типа ведется определенная работа: их либо возвращают для получения необходимых данных,
либо пропущенные значения заменяются другими, либо анкеты респондентов, недостаточно
точно и полно ответивших на вопросы, отбраковываются из анализа.
Следующий этап заключается в кодировке данных. Для обозначения конкретного варианта
ответа на конкретный вопрос ему присваивается числовой или буквенный код, а также указы-
вается позиция столбца, которую данный код будет занимать. Полезно подготовить кодиро-
вочную книгу, содержащую инструкции относительно кодирования и всю необходимую ин-
формацию о переменных в этом массиве данных. Закодированные данные переносятся на дис-
ки или магнитные ленты либо вводятся в компьютер непосредственно с клавиатуры. Кроме
того, для переноса данных применяются методы считывания меток или маркеров с бланков,
оптическое сканирование и компьютеризированный сенсорный анализ. Очишение данных за-
ключается в проверке их последовательности и состоятельности и в работе с пропущенными
ответами. Эта работа может вестись несколькими способами: заменой пропущенных значений
нейтральными или условными (вмененными) значениями, методом исключения объекта це-
ликом или попарного исключения переменных. Качество анализа данных нередко можно по-
высить статистическими корректировками, такими как взвешивание, переопределение пере-
менной и преобразование шкалы. Выбор стратегии анализа данных должен основываться на
результатах предыдущих этапов процесса маркетинговых исследований, на известных характе-
ристиках данных, на конкретных свойствах выбранных для использования статистических ме-
тодов, а также на уровне подготовки исследователя и его философских убеждениях. Статисти-
ческие методы можно подразделить на одномерные и многомерные,
Прежде чем приступить к анализу данных в ходе международных маркетинговых исследо-
ваний, исследователь должен убедиться, что он использует сравнимые единицы измерений,
применяемые в разных странах или в разных культурных образованиях. Анализ данных можно
выполнять на трех уровнях; индивидуальном, в пределах страны или культурного образования
(интракультурныЙ анализ), на базе нескольких стран и культурных образований, т.е. панкуль-
турный или межкультурный анализ. Необходимо помнить, что существует ряд этических про-
блем, связанных с обработкой данных, а именно, с такими аспектами этой работы, как отбра-
ковка неудовлетворительных ответов, нарушение предположений при использовании тех или
иных методов анализа, оценка и интерпретация результатов. Значительную роль в подготовке и
анализе данных играет Internet и компьютерная техника.


ОСНОВНЫЕ ТЕРМИНЫ И ПОНЯТИЯ
• взвешивание (weighting) • кодировочная книга (codebook)
• интракультурныЙ анализ (intracultural • межкультурный анализ (cross-cultural
analysis) analysis)
• исключение объекта целиком (casewise • методы взаимозависимости
deletion) (interdependence techniques)
• кодирование (coding)

Глава 14. Подготовка данных к анализу 547
попарное исключение переменных
методы зависимости (dependence
(pairwise deletion)
techniques)
преобразование шкалы (scale
метрические данные (metric data)
transformation)
многомерные методы (multivariate
проверка состоятельности данных
techniques)
(consistency checks)
неметрические данные (nonmetric data)
пропущенные ответы (missing responses)
нормализация (standardization)
редактирование (editing)
одномерные методы (univariate techniques)
фиксированные коды полей (fixed field
очищение данных (data cleaning)
codes)
панкультурный анализ (pan-cultural
фиктивные перменные (dummy variables)
analysis)
переопределение переменных (variable
«specification)


УПРАЖНЕНИЯ
Вопросы
1. Опишите процесс подготовки данных к анализу.
2. В чем заключается предварительная проверка анкет, поступивших с мест сбора данных?
3. В чем состоит процедура редактирования анкет?
4. Опишите методы работы с ответами неудовлетворительного качества, выявленными в ходе
редактирования.
5. В чем разница между предварительным и последующим кодированием?
6. Опишите основные рекомендации относительно кодирования неструктурированных
вопросов.
7. В чем заключается процедура преобразования данных?
8. Какие проверки состоятельности данных проводятся в ходе очищения данных?
9. В чем заключается работа с пропущенными данными?
10. Назовите методы статистической корректировки данных.
11. Опишите процесс взвешивания. Каковы причины применения этого метода?
12. Что представляют собой индикаторные переменные? Зачем создаются переменные
данного типа?
13. Объясните причины применения метода преобразования шкалы.
14. Какая процедура преобразования шкалы применяется чаще всего? Кратко опишите ее.
15. Какие факторы влияют на выбор той или иной стратегии анализа данных?

Задачи
1. Разработайте схему кодирования с использованием фиктивной переменной для следующих
переменных:
• Пол.
• Семейное положение, по следующим четырем категориям: не был(а) женат/замужем, же-
нат/замужем, разведен(а), прочес (женат/замужем, но живут отдельно; вдовец (вдова)).
• Как часто выезжает за границу, по следующим категориям;


Часть III. Сбор, подготовка и анализ данных
548
a) Не выезжаю.
b) Выезжаю 1 или 2 раза в год.
c) Выезжаю 3—5 раз в год.
d) Выезжаю 6—8 раз в год.
e) Выезжаю больше 8 раз в год.
2. Ниже вашему вниманию предлагается часть анкеты, которая использовалась для определе-
ния покупательский предпочтений при приобретении фотоаппаратов. Создайте схему ко-
дирования ответов по этим трем вопросам.

9. Укажите степень важности перечисленных характеристик, которые оцениваются вами ˜
при приобретении нового фотоаппарата:
Не очень Очень
важно важно
a) Устройство для ускоренной пере- 1 2 3 4 5
нотки пленки DX
b) Автоматическая перемотка пленки 1 2 3 4 5
c) Автофокус 1 2 3 4
d ) Автозаправка пленки 1 2 3 4 5
10. Решив приобрести новый фотоаппарат, какие торговые точки вы посетили бы?
Пометьте, пожалуйста, все возможные варианты.
a) Аптека
b) Специализированный магазин по продаже фототоваров
c) Магазин, предлагающий товары со скидкой
d} Супермаркет
е) Другое
11. Где вы обычно проявляете пленку и печатаете фотографии?
a) _ Аптека
b) Мини-лаборатория
c) _ Магазин фототоваров
d) Магазин, работающий со скидкой
e) ^Супермаркет
f) По почтовому заказу
g) -_ Киоск/другое


УПРАЖНЕНИЯ С ИСПОЛЬЗОВАНИЕМ INTERNET
И КОМПЬЮТЕРА
1. Объясните, как использовать программы SPSS, SAS, BMDP, Minitab, Excel в ходе проверки
достоверности (состоятельности) данных, указанных в анкете, приведенной в задаче 2.
2. Воспользуйтесь каким-либо пакетом для графической разработки электронных анкет и ра-
боты с ними, например Ci3, и составьте программу для создания анкеты для определения
покупательских предпочтений при приобретении фотоаппаратов, приведенного в задаче 2.
Добавьте в него несколько своих вопросов. Раздайте анкеты пяти студентам, соберите за-
полненные анкеты и подготовьте данные для анализа. Повышается ли эффективность про-
цесса подготовки данных к анализу благодаря использованию компьютерной техники?


Глава 14. Подготовка данных к анализу 549
КОММЕНТАРИИ
1. Kevin Т. Higgms, "Never Ending Journey", Marketing Management., Spring 1997, p. 4—7, Joann
Hamsthal, "Interviewer Tips", Applied Marketing Research, Fall 1988, p. 42—45.
2. Kofi Q. Dadzie, "Demarketmg Strategy in Shortage Marketing Environment", Journal of the
Academy of Marketing Science, Spring 1989, p. 157—165. См. также монографию Fred Davidson,
Principle's of Statistical Data Handling (Thousand Oaks, CA: Sage Publications, 1996).
3. Colin McDonald, "Linguistic Coding — A New Solution to an Old Problem", Journal of the Market
Research Society, October 1996, p. 505-524, Philip S. Sidel, "Coding", in Robert Ferber (ed.),
Handbook of Marketing Research (New York: McGraw-Hill, 1974), p. 2.178-2.199.
4. Arlene Fink, How to Analyze Survey Data (Thousand Oaks, CA: Sage Publications, 1995); Pamela L.
Alreck, Robert B. Settle, The Survey Research Handbook, 2nd ed. (Homewood, IL: Irwin Profes-
sional Publishing, 1994).
5. Serge Luyens, "Coding Verbatims by Computer", Marketing Research A Magazine of Management &
Applications, Spring 1995, p. 20-25.
6. Norman Frendberg, "Scanning Questionnaires Efficiently", Marketing Research A Magazine of
Management & Applications, Spring 1993, p. 38—42.
7. Eric L. Einspruch, An Introductory Guide to SPSS for Windows (Thousand Oaks, CA: Sage Publica-
tions, 1998); Paul E. Spector, SAS Programming for Researchers and Social Scientists (Thousand Oaks,
CA: Sage Publications, 1993); Mohamed Atzal Norat, "Software Reviews", Economic Journal: The
Journal of the Royal Economic Society, May 1997, p. 857—882.
8. Vicki. A. Freedman, Douglas A. Wolf, "A Case Study on the Use of Multiple Imputation",
Demography, August 1995; p. 459—470; Naresh K. Malhotra, "Analyzing Marketing Research Data
with Incomplete Information on the Dependent Variable", Journal of Marketing Research, February
1987, p. 74-84.
9. Необходимо ввести такое значение, которое имеет смысл.
10. All Kara, Chistine Nielsen, Sundeep Sahay, Nagaraj Sivasubramaniam, "Latent Information in the
Pattern of Missing Observations in Global Mail Surveys", Journal of Global Marketing, April 1994,
p. 103—126; Naresh K, Malhotra, "Analyzing Marketing Research Data with Incomplete Informa-
tion on the Dependent Variable", Journal of Marketing Research, February 1987, p. 74—84.
11. Некоторые процедуры взвешивания требуют определенной доработки. См. статьи Llan Ya-
niv, "Weighting and Trimming Heuristics for Aggregating Judgments under Uncertainty",
Organizational Behavior & Human Decision Processes, March 1997, p. 237—239; Humphrey Taylor,
"The Very Different Methods Used to Conduct Telephone Surveys of the Public", Journal of the
Market Research Society, July 1997, p. 421-432.
12. Rajiv M. Rao, "Nielsen's Internet Survey: Does It Carry Any Weight" Fortune, March 18, 1996,
p. 24.
13. Arch G, Woodside, Robert L. Nielsen, Fred Walters, Gale D. Muller, "Preference Segmentation of
Health Care Services. The Old-Fashioneds, Value Conscious, Affluents, and Professional Want It-
Alls", Journal of Health Care Marketing, June 1988, p. 14—24, См. также статью Rama Jayanti,
"Affective Responses toward Service Providers Implications for Service Encounters", Health
Marketing Quarterly, January 1996, p, 49—65.
14. В Swift, "Preparing Numerical Data", in Roger Sapsford, Victor Jupp (eds.), Data Collection and
Analysis (Thousand Oaks, CA: Sage Publications, 1996), Ronald E, Frank, "Use of Transforma-
tions", Journal of Marketing Research, August 1966, p, 247—253.
15. Jacques Tacq, Multivanate Analysis Techniques in Social Science Research Analysis (Thousand Oaks,
CA: Sage Publications, 1996).




550 Часть III. Сбор, подготовка и анализ данных
16. Fred Davidson, Principles of Statistical Data Handling (Thousand Oaks, CA: Sage Publications,
1996). См. также статью Naresh К. Malhotra, "Modeling Store Choice Based on Censored Prefer-
ence Data", Journal of Retailing, Summer 1986, p. 128—144,
17. J. Douglass Carrol, Paul E. Green, "Psychometric Methods in Marketing Research Part II Multidi-
mensional Scaling", Journal of Marketing Research, May 1997, p. 193—204.
18. David Kilbum, "Haagen-Dazs Is Flavor of Month", Marketing Week, September 4, 1997, p. 30,
Mark Maremont, "They're All Screaming for Haagen Dazs", Business Week, October 14, 1991.
19. Pertti Alasuutan, Researching Culture (Thousand Oaks, CA: Sage Publications, 1995); C.T. Tan,
J. McCulIough, J. Teoh, "An Individual Analysis Approach to Cross-Cultural Research", in Melanie
Wallendorf, Paul Anderson (eds,), Advance's in Consumer Research 14 (Provo, UT: Association for
Consumer Research, 1987): 394-7.
20. Association for Consumer Research, 1987, p. 394—597 См. например, статьи Lisa D. Spiller, Alex-
ander J. Campbell, "The Use of International Direct Marketing by Small Businesses in Canada,
Mexico, and the United States A Comparative Analysis", Journal of Direct Marketing, Winter 1994,
p. 7—16; Mee-Kau Nyaw, Ignace Ng, "A Comparative Analysis of Ethical Beliefs A Four Country
Study", Journal of Business Ethics, July 1994, p. 543-556.
21. Dianna L. Newman, Robert D. Brown, Applied Ethics for Program Evaluation Analysis (Thousand
Oaks, CA: Sage Publications, 1996); G.M. Zmkhan, M. Bisesi, M.J. Saxton, "MBA's Changing
Attitudes toward Marketing Dilemmas 1981-1987", Journal of Business Ethics, August 1989,
p. 963-974.




Глава 14. Подготовка данных к анализу 551
Г л а в а 15
Вариационный ряд,таблицы
сопряженности признаков
и проверка гипотез
После изучения материала этой главы вы должны уметь...
1. Описывать значимость предварительного анализа данных, понимать, что можно получить
из такого анализа.
2. Обсуждать анализ данных, опирающийся на распределение частот значений переменной,
включающий анализ центра распределения, изменчивости и формы кривой.
3. Объяснять анализ данных, связанный с кросс-табуляцией и имеющими к нему отношение
статистиками: хи-квадратом, фи-коэффициентом, коэффициентом сопряженности,
V-коэффициентом Крамера и коэффициентом "лямбда".
4. Описывать анализ данных, связанный с параметрической проверкой гипотез для одной
выборки, двух независимых выборок и парных выборок.
5. Объяснять анализ данных, связанный с непараметрической проверкой гипотез для одной
выборки, двух независимых выборок и парных выборок.


КРАТКИЙ ОБЗОР
Эта глава посвящена базовому анализу данных, включающему изучение распределения час-
тот значений переменной (вариационных рядов), кросс-табуляцию (построение таблиц сопря-
женности) и проверку гипотез. Сначала мы рассмотрим распределение частот и объясним, как
с его помощью определить количество выбросов, пропущенных и экстремальных значений
данных, а также выявим центральную тенденцию в значениях изучаемых данных, их вариа-
цию и форму кривой распределения. Затем введем понятие проверки гипотез и опишем общую
процедуру проверки. Процедуры проверки гипотез делятся на проверку связей и проверку раз-
личий. Мы также рассмотрим использование кросс-табуляции для установления связи между
двумя или тремя переменными. Хотя природу связи можно увидеть из таблиц, статистики по-
зволяют определить значимость и силу связи. И наконец, мы познакомим вас с методами ста-
тистической проверки гипотез, связанных с различиями в одной или двух выборках.
Многие маркетинговые исследовательские проекты не выходят за рамки базового анализа
данных. Полученные по итогам исследования результаты часто отображают с помощью таблиц
и графиков, как будет показано в главе 22.

; СКВОЗНОЙ ПРИМЕР. ВЫБОР УНИВЕРМАГА



I Анализ исходных данных
В проекте "Выбор универмага" маркетологи сначала провели базовый анализ полученных
! и м и данных, а затем на его основе —многомерный статистический анализ. Анализ данных
начался с построения вариационного ряда и вычисления описательных статистик для каж- ;
дои переменной. В дополнение к выявлению возможных проблем при обработке данных 1
(см. главу 14) полученная информация позволила хорошо "прощупать" данные, чтобы оп-

Часть til. Сбор, подготовка и анализ данных
552
ределить, каким образом они в дальнейшем будут анализированться. Например, следует ли
для целей анализа рассматривать переменные как имеющие категориальный характер, и ес-
ли да, то сколько категорий представлено в каждой переменной? Чтобы установить связи
между переменными, необходимо выполнить несколько операций кросс-табуляции для
двух и трех переменных. Для изучения влияния независимых переменных с двумя катего-
риями на метрические зависимые переменные маркетологи задействовали /-критерий и
другие процедуры проверки гипотез.

Результаты базового анализа данных ценны сами по себе и, кроме того, показывают на-
правление для последующего многомерного анализа. Чтобы читатель понял особенности ста-
тистических методов, мы приведем ряд примеров применения кросс-табуляции, критерия хи-
квадрат и проверки гипотез.

ПРИМЕР. Рекламная битва полов
При сравнении телевизионных роликов в Австралии, Мексике и Соединенных Штатах
Америки анализировалась роль пола в рекламе. Маркетологи выявили, что рекламные ро-
лики разных стран отличаются степенью участия в них мужчин и женщин. Для анализа
данных маркетологи применили кросс-табуляцию и статистическую проверку с использо-
ванием критерия хи-квадрат. В результате они получили следующие характеристики мекси-
канской рекламы.
Участники рекламы, %
Рекламируемый товар, который используют Женщины Мужчины
Женщины 25,0 4,0
Мужчины 6,8 11,8
Оба пола 68,2 84,2
Х 2 = 19,73, /><0,001
Отсюда следует, что в мексиканской рекламе женщины появляются для рекламы това-
ров, используемых женщинами или лицами обеих полов, но редко рекламируют товары для
мужчины. Мужчины рекламируют изделия, которыми пользуются и мужчины, и женщи-
ны. Эти различия в рекламе характерны также и для рекламных роликов США, хотя и в
меньшей степени, а вот в австралийской рекламе таких различий нет [1].


ПРИМЕР. Анализ воспринимаемого риска для различных видов продаж
Маркетологи сравнили продажи 12 видов товаров по каталогу и через розничную торго-
вую сеть. Результаты анализа показали, что следует отклонить выдвинутую гипотезу о том,
что нет сушественной разницы степени воспринимаемого потребителями риска для этих
двух видов продаж. Для проверки гипотезы были вычислены 12 (по одному для каждого то-
вара) /-критериев парных наблюдений. Средние значения степени риска (в баллах) для не-
которых из товаров в обоих видах продаж даны в приведенной ниже таблице, причем наи-
высший балл отвечает наибольшему риску.
Средние значения степени воспринимаемого риска (в баллах) для двух видов продаж
Общий воспринимаемый риск, в баллах

Продажа через магазины
Това
Р Про&ха по каталогу ^зничной торговли

Музыкальная высококачественная аппаратура 48,89 41,98"
Музыкальные альбомы 32,65 28,74'
Парадные туфли 58,60 50,80*
Телевизор с экраном 13 дюймов 48,53 40,91*



Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 553
30,22*
Спортивные носки 35,22
Карманный калькулятор 49,62 42,00*
39,52*
Фотоаппарат 35 мм 48,13
Духи 34,85 29,79* 1

'Уровень значимости 0,01.
Из данных таблицы видно, что степень воспринимаемого риска при продаже товаров по
каталогу (при уровне статистической значимости р < 0,01) выше по сравнению с риском при
продаже товаров через магазины розничной торговли [2].

Пример, касающийся универсального магазина, показывает роль базового анализа данных
при использовании его в сочетании с методами многомерного анализа, в то время как два дру-
гих примера показывают, что этот анализ полезен и сам по себе. Использование кросс-
табуляции и критерия хи-квадрат в примере, связанном с телевизионной рекламой, и парного
(-критерия в примере с продажей товаров по каталогу позволяют маркетологам сделать вполне
конкретные выводы.
Статистические понятия, обсуждаемые в этой главе, проиллюстрированы на примере, по-
казывающим использование респондентами Internet для личных (не связанных с профессио-
нальной деятельностью) целей. Табл. 15.1 содержит данные о 30 респондентах, включающие
пол (1 — мужчина, 2 — женщина), степень знакомства с Internet (1 — почти незнаком, 7 — хо-
рошо знаком), использование Internet (в часах в неделю), отношение к Internet и Internet-
технологиям (измеренные по семибалльной шкале: 1 — неблагосклонное, 7 — благосклонное),
использование Internet для приобретения товаров или банковских операций (1 — да, 2 — нет).
На первом этапе анализа следует изучить распределение частот значений или вариационный
ряд соответствующих переменных.

Таблица 15.1. Данные об использовании Internet
Знакомство Использование Отношение Отношение Использование Использование
Лол
На Рес-
с Internet Internet к internet к Internet- для покупок для банковских
пондента
технологиям операций
7,00 14,00 7,00 6,00 1,00 1,00
1 1,00
2,00 2,00 3,00 3,00 2,00 2,00
2,00
\
3 3,00 3,00 4,00 3,00 1,00 2,00
2,00
; со
2,00 3,00 3,00 7,00 5,00 1,00
4
5 1,00 7,00 13,00 7,00 7,00 1,00 .,00
6 2,00 4,00 6,00 5,00 4,00 1,00 2,00
2,00 2,00 4,00 5,00 2,00 2,00
7 2,00
2,00 3,00 6,00 5,00 4,00 2,00 200
8
6,00
9 3,00 6,00 4,00
2,00 1,00 2,00
10 9,00 15,00 7,00 6,00
1.00 1,00 2,00
11 2,00 4,00 3,00 3,00
4 ОС 2,00 2,00
12 2,00 5,00 4,00 2,00 Г 00
6,00 4 СО
,00
13 1,00 6,00 9,00 6,00 2,00
5,00
14 1,00 6,00 8,00 3,00 2,00
2,00 '' ОН
юо
15 1,00 4,00
5,00
0,00 5,00 2,00
;>, оо
16 2,00 2,00
4,00 3 ОС ? 00
4 00

1,00 3,00 1,00 1,00
17 6,00 9,00 5,00


Часть III. Сбор, подготовка и анализ данных
554
Окончание табл. 15.1

№ Рес- Пол Знакомство Использование Отношение Отношение Использование Использование
пондента с Internet Internet к Internet к Internet- для покупок для банковских
технологиям операций
18 1,00 4,00 5,00 4,00 2,00
4,00 1,00
19 7,00 6,00
14,00 6,00 1,00
1,00
! ,00

20 2.00 6,00 6,00 6,00 4,00 2,00 2,00
1,00
?1 6,00 9,00 2,00 2,00 2,00
4,00
22 5,00 5,00
5,00 2,00
100 I.OO
4.00
2,00
23 400
3,00 2.00 2,00 2,00 2.30
1,00 6,00
24 7,00 15,00 1,00 1,00
6,00
2,00 5,00
25 3,00 2,00
6. СО 6.00 ! ,00
26 13,00
100 100
6 ОС 6.00 6,00 1,00
27 1,00
200 5.00 4.00 5,00 5,00 1,00
28 2,00 4,00 2,00 2,00 2.00
3,00 2.00
29 1,00 4,00 4,00 3,00 2,00
5,00 1,00
30 1,00 3,00 1,00
3,00 7,00 5,00 2,00



ВАРИАЦИОННЫЙ РЯД
При проведении маркетинговых исследований часто необходимо получить информацию об
одной переменной. Например;
• Какое количество потребителей определенной марки товара можно считать лояльными ей?
• Каково соотношение между разными группами потребителей товара: много исполь-
зующими, средне, слабо и не пользователями?
• Какое количество потребителей хорошо осведомлены о предлагаемом новом товаре?
Сколько потребителей поверхностно знакомы, сколько— что-то слышали, а сколько во-
обше ничего не знают о данной торговой марке? Какова средняя степень осведомленности
о товаре? Сильно ли различается степень осведомленность потребителей о новом товаре?
• Что представляет собой кривая распределения дохода для приверженцев данной мар-
ки товара? Смещено ли данное распределение в сторону группы потребителей с низ-
кими доходами?
Ответы на подобные вопросы можно получить, изучив распределение частот значений пере-
менной, или вариационный ряд (frequency distribution). При таком анализе рассматривается одна
переменная.

Вариационный ряд, распределение частот значений переменной
(frequency distribution).
Математическое распределение, цель которого - подсчет ответов, связанных с различными
значениями одной переменной (частот), и дальнейшее выражение их в процентном виде
(частости).

Целью построения вариационного ряда является подсчет ответов респондентов, в которых
приводятся различные значения переменной. Относительную частоту различных значений пе-
ременной выражают в процентах и называют частостямк. Подсчет распределения частот зна-
чений переменной дает возможность построить таблицу, с указанием частоты, частости и на-
копленных частостей для всех значений этой переменной.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 555
В табл. 15.2 представлено распределение частот осведомленности об Internet. Первая колон-
ка содержит отметки, присвоенные различным категориям переменной, а вторая — коды, при-
своенные каждому значению переменной.

Таблица 15.2. Распределение частот осведомленности об Internet
Отметка значения Значение Частоты {N) Накопленные частости
Частости Достоверные частости

1 2 3 5 6
4
1 0,0
0 0,0
0,0
Плохо осведомлены
а
2 6,9 6,9
6,7
б
" 20,0 20,7 27,6
е
4 20,0 48,3
20,7
5 3 10,0 58,6
10,3
6 8 26,7 86,2
27,6
7 4 100,0
Хорошо осведомлены 13,3 13,8
3,3
9 1 Пропуск
30 100,0 100,0
Итого

Обратите внимание, что код 9 присвоен пропущенным значениям. В третьей колонке при-
ведено количество ответивших респондентов. Например, три респондента отметили в анкете
галочкой значение 5, указав, что они что-то слышали об Internet. В четвертой колонке приведен
процент респондентов, отметивших в анкете галочкой данное значение. В следуюшей колонке
показаны проценты, подсчитанные с учетом пропущенных значений. Если пропущенных зна-
чений нет, то колонки 4 и 5 идентичны. В последней колонке представлены накопленные час-
тости после корректировки пропущенных случаев (ответов респондентов). Как видно, из 30
респондентов, участвующих в опросе, 10% отметили значение 5. Если исключить одного рес-
пондента с пропущенным значением, то частость увеличится до 10,3%. Накопленная частость,
относящаяся к значению 5, равна 58,6. Другими словами, 58,6% респондентов с достоверными
ответами показали значение осведомленности 5 или меньше.




3 4 5 t
Знакомство с Internet

Рис. 15.1. Гистограмма распределения частот



Часть III. Сбор, подготовка и анализ данных
556
Вариационный ряд помогает определить долю неответивших респондентов (в табл. 15.2
один респондент из 30 не ответил на вопрос), а также указывает долю ошибочных ответов. Зна-
чения, равные 0 или 8, соответствуют ошибочным ответам. Следует определить количество слу-
чаев с такими значениями и соответственно откорректировать результат. Кроме того, можно ус-
тановить наличие выбросов, т.е. случаев с экстремальными значениями. При анализе распре-
деления частот относительно размера домохозяйства (семьи) выбросами следует считать
несколько семей, состоящих не меньше чем девяти человек. Распределение частот также опре-
деляет форму эмпирического распределения значений переменной. Частотные данные можно
использовать для построения гистограмм или вертикальных столбчатых диаграмм, на которых
по оси ЛГоткладывают значения переменной, а по оси Y— абсолютные (частоты) или относи-
тельные (частости) значения. На рис. 15.1 представлена гистограмма для данных табл. 15.2. По
гистограмме можно проверить, соответствует ли наблюдаемое распределение предполагаемому
маркетологом распределению.
Для иллюстрации наших рассуждений рассмотрим следующий пример.

ПРИМЕР. Этические проблемы в рекламе
В опросе, касающемся этических проблем, руководителей рекламных агентств просили
описать наиболее трудные этические проблемы, с которыми они сталкиваются в повседнев-
ной работе. Распределение частот показало, что чаше всего они испытывали следующие про-
блемы: честное отношение к своим клиентам; создание объективной, не вводящей в заблуж-
дение, социально значимой рекламы; принятие решения о целесообразности оказания услуг
клиентам, чьи продукты или услуги вредят здоровью, ненужны, бесполезны и неэтичны;
честное отношение к поставщикам, партнерам и посредникам; справедливое отношение к
сотрудникам и менеджерам; объективное и честное отношение к другим рекламным
агентствам [3].


Этические проблемы руководителей рекламных агентств
Ответы
Количество
Проблема Процент

1. Честное отношение к своим клиентам 80 28
2. Создание честной, не вводящей в заблуждение, социально значимой рекламы 66 24
34
3. Принятие решения о целесообразности предоставления услуг клиентам, чьи продукты 12
или услуги вредят здоровью, ненужны, бесполезны и неэтичны
25
4. Честное отношение к поставщикам, партнерам и посредникам 9
5. Честное отношение к сотрудникам и менеджерам 15 5
6. Объективное и честное отношение к другим рекламным агентствам 3
7
7. Другие 4
11
8. Ответов нет 15
43
Итого 281 100%

Данные в этом примере указывают на распространенность различных этических проблем.
Поскольку при этом используют числовые значения, для вычисления описательных статистик
можно применить распределение частот. Вычисление некоторых статистик, связанных с рас-
пределением частот, обсуждается в следующем разделе.




Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 557
СТАТИСТИКИ. СВЯЗАННЫЕ С РАСПРЕДЕЛЕНИЕМ
ЧАСТОТ
Как следует из предыдущего раздела, распределение частот — удобный способ представ-
ления различных значений переменной. Таблица вариационного ряда легко читается и со-
держит основную информацию, но иногда такая информация слишком детализированна, и
исследователь вынужден обобщать ее с помощью описательных статистик [4]. Чаще всего
используют следующие статистики, связанные с распределением частот: показатели центра
распределения (среднее, мода и медиана), показатели вариации (размах, меж квартальный
размах, стандартное отклонение и коэффициент вариации) и показатели формы распределе-
ния (асимметрия и эксцесс) [5].

Показатели центра распределения
Показатели центра распределения (measures of location) характеризуют положение центра
распределения, вокруг которого концентрируются данные. Если всю выборку изменить, доба-
вив фиксированную величину к каждому наблюдению, то среднее, мода и медиана изменятся
на аналогичную величину.

Показатели центра распределения (measures of location)
Статистики, которые характеризуют значение признака, вокруг которого концентрируются
наблюдения, или, как говорят, показывают центральную тенденцию распределения.

Среднее арифметическое или выборочное среднее (mean) — это наиболее часто используе-
мый показатель, характеризующий положение центра распределения. Он используется для
оценки среднего значения в случае, если данные собраны с помощью интервальной или отно-
сительной шкалы. Его величина должна отражать некоторое среднее значение, вокруг которого
распределена большая часть ответов.

Среднее арифметическое, выборочное среднее (mean)
Эта величина получается делением суммы всех имеющихся значений переменной на число
значении,

Среднее арифметическое X задается формулой



где Xt— полученные значения переменной X, п — число наблюдений (размер выборки).
Обычно среднее значение — устойчивый показатель и заметно не изменяется при добавле-
нии или вычитании значений данных. Для частот, представленных в табл. 15.2, среднее ариф-
метическое вычисляют следующим образом:
— _ (2x2 + 6x3 + 6x4 + 3x5 + 8x6 + 4x7) _ (4 + 18 + 24 + 15 + 48 + 28) _,,„,.,„_, „„,
А— — — \jli2.f—'+il2A
29
29
Мода (mode) — значение переменной, встречающееся чаще других. Представляет наивыс-
шую точку (пик) распределения. Мода хороший показатель центра распределения, если пере-
менная имеет категорийный характер, или, иначе говоря, ее можно разбить на категории.

Мода (mode)
Значение переменной, которое чаще всего встречается в выборочном распределении.

Медиана (median) выборки — это значение переменной в середине ряда данных, располо-
женных в порядке возрастания или убывания, Положение медианы определяется ее номером.

558 Часть III. Сбор, подготовка и анализ данных
Если число данных четное, то медиана равна полусумме двух серединных значений. Медиа-
на— это 50-й процентиль. Она характеризует положение центра распределения порядковых
данных. В табл. 15.2 медиана равна 5,000.

Медиана (median)
Значение переменной, которое приходится на середину распределения частот, т.е. одна по-
ловина всех значений больше медианы, а другая половина - меньше.

Как видно из табл. 15.2, три показателя, характеризующих положение центра распределе-
ния для рассматриваемого нами примера, различны (среднее значение — 4,724; мода — 6,000;
медиана — 5,000). И это неудивительно, поскольку каждый показатель определяет центр рас-
пределения по-разному. Какой же показатель использовать? Если переменную измеряют по
номинальной шкале, то лучше использовать моду. Если переменную измеряют по порядковой
шкале, то больше подходит медиана. Если же переменную измеряют по интервальной или от-
носительной шкале, то мода плохо отражает положение центра распределения. Это можно уви-
деть из табл. 15.2. Хотя значение моды, равное 6,000, отражает наивысшую частоту, оно пред-
ставляет только 27,6% выборки. Медиана лучше подходит в качестве показателя, характери-
зующего положение центра распределения, для интервальной или относительной шкалы, хотя
и она не учитывает имеющуюся информацию о переменной. Текущие значения переменной до
и после медианы игнорируются. Самый лучший показатель для интервальной или относи-
тельной шкалы — среднее арифметическое. Он учитывает всю доступную информацию, по-
скольку для его вычисления используются все значения. Однако среднее арифметическое чув-
ствительно к выбросам значений (экстремально малым или экстремально большим значени-
ям). Если данные содержат выбросы, то среднее не будет хорошим показателем центра
распределения и лучше использовать два показателя — среднее и медиану.

Показатели вариации
Показатели вариации (изменчивости) (measures of variability), вычисляемые на основании
данных, измеряемых с помощью интервальных или относительных шкал, включают размах
вариации, межквартильный размах, дисперсию, стандартное отклонение и коэффициент
вариации.

Показатели вариации (изменчивости) (measures of variability)
Статистики, показывающие меру разброса (вариабельность) значений переменной.

Размах вариации (range) отражает разброс данных. Он равен разности между наибольшим и
наименьшим значениями в выборке. Поэтому на него непосредственно влияют выбросы.

Размах вариации (range)
Разность между наибольшим и наименьшим значениями переменной в вариационном ряду.

Размах = Xuacfumihligf - Хна!ме„ьа1С1
Если все значения данных умножить на константу, то значение размаха вариации умножа-
ется на ту же константу. Размах вариации в табл. 15.2 равен: 7 — 2 = 5,000.
Межквартильный размах (interquartile range) — это разность между 75- и 25-м процентиля-
ми. Для набора точек данных, расположенных в ранжированном ряду, />-м процентилем будет
такое значение переменной в ранжированном ряду распределения, что/>% единиц совокупно-
сти будут меньше и (100 — р)% — больше него. Если все значения данных умножить на кон-
станту, то межквартильный размах умножается на эту же константу. Межквартильный размах в
табл. 15.2 равен 6 - 3 = 3,000.



Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 559
Межквартильный размах (interquartile range)
Размах вариации распределения, охватывающий центральные 50% всех наблюдений.

Разность между средним значением переменной и ее наблюдаемым значением называют
отклонением от среднего. Дисперсия (variance) — среднее из квадратов отклонений переменной
от ее средней величины. Она никогда не может быть отрицательной. Если значения данных
сгруппированы вокруг среднего, то дисперсия невелика. И наоборот, если данные разбросаны,
то мы имеем дело с большей дисперсией. Если все значения данных умножить на константу, то
дисперсия умножится на квадрат константы. Среднеквадратическое (стандартное) отклонение
(standard deviation) равно квадратному корню из дисперсии. Таким образом стандартное откло-
нение выражается в тех же единицах, что и сами данные.

Дисперсия (variance)
Среднее из квадратов отклонений переменной от ее средней величины.
Среднеквадратическое (стандартное) отклонение (standard deviation)
Корень квадратный из значения дисперсии.

Стандартное отклонение выборки sx вычисляют следующим образом;


я-1
Мы делим на п —1 вместо л, поскольку генеральное среднее неизвестно, и вместо него ис-
пользуют выборочное среднее, что делает выборку менее изменчивой, чем фактически. Деля на
п —1 вместо п, мы корректируем более слабую изменчивость значений переменой, наблюдае-
мую в выборке. Для данных, приведенных в табл. 15.2, дисперсию вычисляют так;
V ={2х(2-4,724) 2 + 6х(3-4,724): + бх(4-4Л24) 2 + Зх(5-4,724) 2 +
+8х(б-4,724)2 +4х(7-4,724) : }/
/28 :
{14,840+17,833 + 3,145 + 0,229 + 13,025 + 20,721} 69,793
= 2,493
=1 1=—:
28 28
Следовательно, стандартное отклонение находим по формуле;
s,.=V2,493 =1,579
Коэффициент вариации (coefficient of variation) — это отношение стандартного отклонения к
среднему арифметическому, выраженное в процентах. Коэффициент вариации — показатель
относительной изменчивости переменной. Коэффициент вариации CVвычисляют так:
CV=s. /X"

Коэффициент вариации (coefficient of variation)
Величина относительной изменчивости переменной, представляющая собой отношение ее
стандартного отклонения к ее среднему значению.

Коэффициент вариации имеет смысл, только если переменную измеряют по относитель-
ной шкале. Поскольку степень знакомства с Internet измерена не по этой шкале, то бессмыс-
ленно вычислять коэффициент вариации для данных табл. 15.2.




560 Часть III. Сбор, подготовка и анализ данных
Показатели формы распределения
Показатели формы распределения, как и показатели вариации, также полезны для пони-
мания природы распределения переменной. Форму распределения оценивают с помощью
асимметрии и эксцесса.
Асимметрия. Распределение переменной может быть симметричным или асимметричным
(скошенным). При симметричном распределении частоты любых двух значений переменной,
которые расположены на одном и том же расстоянии от центра распределения, одинаковы.
Равны между собой также и значения среднего арифметического, моды и медианы. Распреде-
ление асимметрично (skewness), если значения переменной, равноудаленные от среднего, име-
ют разную частоту, т.е. одна ветвь распределения вытянута больше другой (рис. 15.2). Значение
асимметрии для распределения данных табл. 15.2 равно —0,094; что указывает на незначитель-
ную отрицательную асимметрию.

Симметричное распределение




Среднее
Медиана
Мода
Асимметричное распределение




Среднее Медиана Мода
Рис. 15.2. Асимметрия распределения


Асимметрия (skewness)
Характеристика распределения, которая оценивает симметрию расположения значений дан-
ных относительно средней.

Эксцесс (kurtosis) — это показатель относительной крутости (островершинности или плос-
ко верш и нности) кривой вариационного ряда по сравнению с нормальным распределением.
Эксцесс нормально распределенной случайной величины равен нулю. Если эксцесс положите-

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 561
лен, то распределение более островершинно по сравнению с нормальным распределением. При
отрицательном значении распределение более плосковершинно по сравнению с нормальным,
Значение этой статистики для табл. 15.2 равно —1,261; это указывает на то, что распределение
более плосковершинное по сравнению с нормальным.

Эксцесс (kurtosis)
Мера относительной крутости кривой распределения частот.



ВВЕДЕНИЕ В ТЕОРИЮ ПРОВЕРКИ ГИПОТЕЗ
Этот раздел посвящен введению в теорию проверки гипотез. Базовый анализ данных неиз-
менно включает в себя статистическую проверку гипотез. Приведем примеры гипотез в марке-
тинговых исследованиях.
• Число постоянных покупателей универмага превышает 10% семей.
• Потребители определенной марки товара, которые отличаются между собой уровнем
его потребления (много и мало), различаются также и психографическими характери-
стиками.
• Рассматриваемый отель имеет более высокий имидж, чем его ближайший конкурент,
• Чем лучше респондент знаком с рестораном, тем чаще он его посещает.
В главе 12 мы рассмотрели понятия выборочного распределения, стандартную ошибку
среднего и доли и доверительный интервал [6]. Все они относятся к проверке гипотезы и по-
этому необходимо вспомнить их. Ниже мы опишем общую схему проверки гипотезы, которая
применима к проверке гипотез с большим диапазоном параметров.


ОБЩАЯ СХЕМА ПРОВЕРКИ ГИПОТЕЗЫ
Для проверки гипотезы необходимо выполнить следующие этапы (рис.15.3).
1. Сформулировать нулевую гипотезу Н0 и альтернативную гипотезу Н,.
2. Выбрать подходящий метод статистической проверки гипотезы (статистический критерий)
и соответствующую статистику критерия (выборочную статистику, тест-статистику).
3. Выбрать уровень значимости а.
4. Определить размер выборки и собрать данные. Вычислить значение выборочной ста-
тистики.
5. Определить вероятность, которую примет статистика критерия (выбранная на этапе 2) при
выполнении нулевой гипотезы, используя соответствующее выборочное распределение.
Альтернативный вариант данного этапа: определить критическое значение статистики, ко-
торое делит интервал на область принятия и непринятия нулевой гипотезы.
6. Сравнить полученную вероятность для тест-статистики (статистики, построенной по ре-
зультатам выборочного наблюдения) с заданным уровнем значимости. Альтернативный ва-
риант данного этапа: определить, попадает ли выборочное значение тест-статистики в об-
ласть принятия или отклонения нулевой гипотезы.
7. Принять статистическое решение, касающееся того, принять или отвергнуть нулевую
гипотезу.
8. Выразить статистическое решение с точки зрения проблемы маркетингового исследования.




562 Часть III. Сбор, подготовка и анализ данных
Определить критическое
значение
выборочной статистики
критерия

i
Определить, попадает ли
значение в область
принятия или непринятия
нулевой гипотезы


чонить или не отклонять нулевую гипотеза




Рис. 15.3. Общая схема проверки гипотезы


Этап 1. Формулировка гипотез
На первом этапе маркетолог формулирует нулевую и альтернативную гипотезы. Нулевая
гипотеза (null hypothesis) утверждает, что между определенными статистическими параметрами
генеральной совокупности (средними или долями) не существует связи или различия. Ее под-
тверждение не требует от компании каких-либо действий.

Нулевая гипотеза (null hypothesis)
Предположение о том, что между определенными статистическими параметрами генераль-
ной совокупности {средними или долями) не существует связи или различия. Ее подтвер-
ждение не требует от компании каких-либо действий.

Альтернативная гипотеза (alternative hypothesis) — это гипотеза, предполагающая, что между
определенными статистическими параметрами генеральной совокупности (средними или до-
лями) есть связь или различия. Ее подтверждение означает, что руководству компании следует
предпринимать какие-либо действия или менять свои взгляды на положение дел. Таким об-
разом, альтернативная гипотеза противоположна нулевой.
Маркетолог всегда проверяет именно нулевую гипотезу. Она имеет отношение к конкрет-
ному значению параметра совокупности (например, ц , ст , л ), а не к выборочным статисти-


Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 563
кам (например, X ). Проверка гипотез имеет два исхода: нулевая гипотеза отвергается, а аль-
тернативная — принимается, или нулевая гипотеза не отклоняется, исходя из представленных
доказательств. Следовательно, по результатам статистической проверки нулевую гипотезу не
следует принимать, т.е. некорректно заключить, что, поскольку нулевую гипотезу не отклоня-
ют, ее можно принять как истинную. В классической теории проверки гипотез сложно опреде-
лить, достоверность нулевой гипотезы.

Альтернативная гипотеза (alternative hypothesis)
Утверждение о том, что между определенными статистическими параметрами (средними
или долями) генеральной совокупности есть связь или различия. Ее подтверждение означа-
ет, что руководству компании следует предпринимать какие-либо действия или менять свои
взгляды на положение дел.

В маркетинговых исследованиях нулевую гипотезу формулируют так, что ее непринятие
ведет к желаемому заключению. Альтернативная гипотеза представляет заключение, для кото-
рого маркетологи ищут доказательство его справедливости. Например, руководство универмага
хотело бы начать торговлю своими товарами через Internet. Новую услугу введут в действие, ес-
ли свыше 40% пользователей Internet используют сеть для совершения покупок. Маркетолог
записывает гипотезы следующим образом:
Я 0 :тг<0,40
Я, : п > 0,40
Если нулевую гипотезу Н0 отклоняют, то принимают альтернативную гипотезу Н„ значит,
стоит ввести новую услугу — приобретение товаров через Internet. С другой стороны, если нуле-
вую гипотезу На не отклоняют, то новую услугу не стоит внедрять до тех пор, пока не будет по-
лучено дополнительных доказательств для того, чтобы заняться Internet-торге влей.
В рассматриваемом случае для проверки гипотезы используют односторонний критерий
(one-tailed test), так как альтернативная гипотеза имеет четко выраженное направление: доля
пользователей Internet, которые используют его для приобретения товаров, больше 0,40.

Односторонний критерий (one-tailed test)
Критерий проверки нулевой гипотезы, когда альтернативная гипотеза имеет четкую направ-
ленность.

С другой стороны, предположим, что исследователь хочет определить, действительно ли
доля пользователей Internet, которая осуществляет покупки через сеть, отличается от 40%.
Для этого использует двусторонний критерий (two-tailed test), а гипотезы запишем в следую-
щем виде:
Я 0 : п =0,400
Я,: я * 0,400

Двусторонний критерий (two-tailed test)
Критерий проверки нулевой гипотезы, когда альтернативная гипотеза не имеет четкой на-
правленности.

В практике маркетинговых исследований односторонний критерий используют чаще,
чем двусторонний. Обычно существует какое-либо предпочтительное направление изме-
ненения характеристик, подлежащее доказательству. Например, чем выше прибыль, объ-
ем продаж и качество продукта, тем это лучше для фирмы. Односторонний критерий
сильнее двустороннего. Мощность статистического критерия обсуждается ниже, при рас-
смотрении этапа 3.



564 Часть III. Сбор, подготовка и анализ данных
Этап 2. Выбор подходящего метода проверки
Для проверки нулевой гипотезы необходимо выбрать подходящий статистический метод
(статистический критерий). Исследователь должен принимать во внимание саму процедуру
вычисления выборочной статистики и характерное для нее выборочное распределение. Выбо-
рочная статистика критерия (test statistic) служит для того, чтобы можно было сделать вывод о
том, насколько близко выборка соответствует нулевой гипотезе.

Выборочная статистика критерия (test statistic)
Мера соответствий выборки нулевой гипотезе. Она часто подчиняется таким распространен-
ным распределениям, как нормальное, Стьюдента (t-распределение) или хи-квадрат рас-
пределение.

Выборочная статистика часто имеет такие широко распространенные распределения, как
нормальное, Стьюдента (^-распределение) или хи-квадрат распределение. Правила выбора под-
ходящего метода проверки обсуждаются ниже. В нашем примере наиболее приемлема z-
статистика, которая имеет нормальное распределение. Она вычисляется по формуле

г˜^.
°е
где




Этап 3. Выбор уровня значимости
Какой бы вывод мы ни сделали в отношении изучаемой совокупности, всегда существует
риск неверного заключения. При этом встречаются два типа ошибок.
Ошибку I рода (Type I error) совершают, когда, исходя из результатов выборочного распреде-
ления, отклоняют нулевую гипотезу, в то время как она фактически верна.

Ошибка I рода (Type I error)
Также известная под названием альфа-ошибка, имеет место тогда, когда по результатам
выборочного распределения отклоняют нулевую гипотезу, которая на самом деле верна.

В нашем примере ошибка I рода имела бы место, если мы, исходя из данных выборки, ус-
тановили бы, что доля потребителей, предпочитающих новый вид услуг, больше 0,40 (40%), в
то время как фактически она была бы меньше либо равна 0,40. Вероятность ошибки I рода (а)
также называют уровнем значимости (level of significance).

Уровень значимости (level of significance)
Вероятность ошибки первого рода.

Вероятность ошибки первого рода устанавливается, исходя из допустимого уровняя риска
отклонения истинной нулевой гипотезы. Выбор уровня риска зависит от того, во сколько оце-
нивается ошибка первого рода.
Ошибку II рода (Туре II error) совершают, когда, исходя из результатов выборки, не откло-
няют нулевую гипотезу, которая в действительности является ошибочной. В нашем примере
ошибка II рода имела бы место, если мы, исходя из данных выборки, установили бы, что доля
потребителей, предпочитающих новый вид услуг, меньше или равна 0,40, в то время как фак-
тически она была бы больше 0,40. Вероятность ошибки II рода обозначается р*. В отличие от а,
значение которой устанавливает сам исследователь, величина Р зависит от фактического значе-


Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 565
ния параметра генеральной совокупности (например, доли). Вероятность совершения ошибки
I рода (а) и вероятность ошибки II рода (|3) показаны на рис. 15.4. Вероятность (1 - р) соверше-
ния ошибки II рода также называют мощностью статистического критерия.




Критическое значение
статистики z




., = 0,45
zp =-2,330 -|

Рис. 15.4. Ошибка Iрода (а) и ошибка IIрода (&)


Ошибка II рода (Type I error)
Также известна под названием бета-ошибка, имеет место тогда, когда результаты выборки
ведут < принятию нулевой гипотезы, которая фактически ошибочна.

Мощность критерия (power of a test) представляет собой вероятность (1 — |3) отклонения ну-
левой гипотезы, когда она неверна и должна быть отвергнута. Хотя величина (3 неизвестна, она
связана с а. Чрезвычайно низкое значение ее (например, 0,001) приведет к недопустимо высо-
кому значению р. Поэтому необходимо сбалансировать два типа ошибок. В качестве компро-
мисса ее часто устанавливают равной 0,05; иногда ей присваивают значение 0,01; другие значе-
ния а встречаются редко. Уровень а, наряду с размером выборки, определяет уровень Р для
конкретного исследовательского проекта. Риском а и р можно управлять, увеличив размер вы-
борки. Для данного уровня значимости а увеличение размера выборки уменьшит значение Р,
повысив тем самым мощность статистического критерия.

Мощность статистического критерия (power of a test)
Вероятность отклонений нулевой гипотезы, когда она фактически неверна и должна быть
отвергнута.


Этап 4. Сбор данных
Размер выборки определяют, приняв во внимание желаемые значения вероятностей совер-
шения ошибок I и II рода и других количественных факторов, например финансовых ограни-


Часть III. Сбор, подготовка и анализ данных
566
чений. Затем собирают необходимые данные и вычисляют значение выборочной статистики.
В нашем примере из 30 опрошенных пользователей Internet 17 отметили, что они приобретают
товары через Internet. Таким образом, выборочная доля этих пользователей Internet составляет
? = 17/30 = 0,567.
Значение о> можно определить по следующей формуле:

= 0,089

<<

стр. 20
(всего 35)

СОДЕРЖАНИЕ

>>