<<

стр. 24
(всего 35)

СОДЕРЖАНИЕ

>>

стью проживания в нем.
Частные коэффициенты корреляции характеризуются так называемом порядком, который
указывает количество переменных, на которые необходимо внести поправку или которые сле-
дует проконтролировать (исключить). Простой коэффициент корреляции г имеет нулевой по-
рядок, поскольку отсутствует необходимость исключать дополнительные переменные при оп-
ределении силы связи между двумя переменными. Коэффициент г^г представляет собой част-
ный коэффициент корреляции первого порядка, так как при его расчете контролируют эффект
от влияния одной дополнительной переменной Z, частный коэффициент корреляции второго
порядка контролирует эффект от влияния двух переменных и т.д. Коэффициенты корреляции
более высокого порядка вычисляют аналогично. Частный коэффициент корреляции (я + /)-го
порядка можно вычислить, поставив простые коэффициенты корреляции справа в предшест-
вующем уравнении для коэффициентов л-го порядка.
Частные коэффициенты корреляции могут оказаться полезными для выявления ложных
связей (см, главу 15). Связь между А'и /является ложной, если А'связана с Z, которая в дей-
ствительности является предиктором (независимой переменной) для Y. В этом случае корре-
ляция между X и Y исчезнет, если контролировать эффект от влияния переменной Z Рас-
смотрим пример, в котором потребление фирменного сухого завтрака (С) положительно
связано с доходом (У), и г„ = 0,28. Поскольку цена на этот товар вполне доступная, то марке-
тологи не ожидали, что доход окажется значимым фактором. Поэтому исследователь подоз-
ревает, что эта связь ложная. Результаты выборочного исследования также показали, что до-
ход позитивно связан с размером семьи (Н), коэффициент корреляции равен rhi = 0,48, а
размер семьи связан с потреблением сухого завтрака, коэффициент корреляции равен rch =
0,56. Эти цифры свидетельствуют, что действительным предиктором потребления сухого
завтрака является не доход, а размер семьи.
Чтобы проверить это утверждение, маркетологи вычислили коэффициент частной корре-
ляции первого порядка между потреблением сухого завтрака и доходом, проконтролировав эф-
фект размера семьи. Читатель может проверить, что коэффициент частной корреляции равен
rclll = 0,02, и первоначально обнаруженная корреляция между потреблением сухого завтрака и
доходом исчезла, когда мы исключили влияние размера семьи. Следовательно, корреляция
между доходом и потреблением сухого завтрака ложная. Специальный случай, когда частная
корреляция оказывается больше, соответствующей корреляции нулевого порядка, обусловлен
эффектом экранирования (см. главу 15) [5].
Другим представляющим интерес коэффициентом корреляции является частичный коэф-
фициент корреляции (part correlation coefficient). Он представляет корреляцию между YH X, ко-
гда линейные эффекты других независимых переменных исключены из X, но не из Y.

Частичный коэффициент корреляции (part correlation coefficient)
Мера зависимости между Y и X, когда линейные эффекты других независимых переменных
исключены из X (но не из Y).

Частичный коэффициент корреляции ry(3S} вычисляют по формуле:
г
_ » ˜ Wp
Г
У(Х1| Г =—




Глава 17. Корреляция и регрессия 647
Частичный коэффициент зависимости отношения к городу от продолжительности прожи-
вания в нем при исключении эффекта погодных условий из переменной, обозначающей про-
должительность проживания, можно вычислить следующим образом:
0,9361-(0,5495){0,7334)
, Л - ^ = 0,63806
rvu ••*:=-
Л.-*! 0 '



Частный коэффициент корреляции считают более важным, чем частичный коэффи-
циент корреляции. Парный коэффициент корреляции, частичный и частный предпола-
гают, что данные измерены с помощью интервальной или относительной шкал. Если
данные не соответствуют этим требованиям, то исследователь должен использовать не-
метрическую корреляцию.

ПРИМЕР. Реклама и предпочтения покупателей
Реклама играет важную роль в формировании у потребителей отношений и предпочте-
ний к торговым маркам. Маркетологи обнаружили, что для товаров, продажа которых про-
исходит с минимальным участием продавца, отношение покупателя к рекламе служит про-
межуточным звеном между распознованием торговой марки и отношением к ней. Что про-
изойдет с влиянием этой промежуточной переменной, если товары покупают дома
непосредственно через специализированную компьютерную сеть? Компания Ноте Shopping
Budapest в Венгрии исследовала воздействие рекламы на покупки. Маркетологи провели оп-
рос, в ходе которого измерили ряд показателей: отношение к товару, отношение к торговой
марке, отношение к рекламе, доверие к торговой марке и т.д. Была выдвинута гипотеза, со-
гласно которой при покупке через специализированную компьютерную сеть главным обра-
зом реклама определяет отношение к торговой марке. Чтобы установить степень связи от-
ношения к рекламе с отношением к торговой марке и доверием к ней, следовало вычислить
частный коэффициент корреляции. Для этого вычислялся частный коэффициент корреля-
ции между отношением к торговой марке и доверием к ней с одновременным исключением
влияния отношения к рекламе. Если отношение к рекламе высокозначимое, то частный ко-
эффициент корреляции должен быть значительно меньше, чем парный коэффициент кор-
реляции между доверием к торговой марке и отношением к ней. Исследование подтвердило
данную гипотезу. Затем компания Saatchi & Saatchi разработала радиорекламу для Ноте
Shopping Budapest, чтобы выработать позитивное отношение к рекламе, и это стало главным
оружием в конкурентной борьбе [6].



НЕМЕТРИЧЕСКАЯ КОРРЕЛЯЦИЯ
Иногда маркетологу необходимо вычислить коэффициент корреляции между двумя немет-
рическими переменными. Вспомним, что неметрические переменные нельзя измерить с по-
мошью интервальной или относительной шкалы и они не подчиняются закону нормального
распределения. Если мы имеем дело с порядковыми и числовыми неметрическими перемен-
ными, то для изучения связи между ними можно использовать два показателя неметрической
корреляции (nonmetric correlation): коэффициент ранговой корреляции Спирмена д. (Spearmen1
rho ps) и коэффициент ранговой корреляции Кендалла т (Kendall's tau т).

Коэффициент неметрической корреляци (nonmetric correlation)
Показатель корреляции для двух неметрических переменных, в котором используются ранги
переменных.

Для вычисления обоих коэффициентов используют ранги, а не абсолютные значения пе-
ременных, и подход, лежащий в основе их применения, совершенно одинаков. Оба коэффи-
циента изменяются в диапазоне от—1 до+1 (см. главу 15).


648 Часть III. Сбор, подготовка и анализ данных
При отсутствии связанных рангов значение коэффициента ранговой корреляции Спирме-
на р, значительно ближе к коэффициенту парной корреляции Пирсона р, чем коэффициента
ранговой корреляции Кендалла т. В этих случаях абсолютное значение г стремится стать мень-
ше, чем р Пирсона. С другой стороны, если данные содержат большое количество связанных
рангов, то коэффициент г больше подходит для вычисления корреляции. В качестве эмпири-
ческого правила стоит запомнить, что коэффициент ранговой корреляции Кендалла целесооб-
разно использовать, когда большинство наблюдений попадает в относительно небольшое число
категорий (что приводит к большому количеству связанных рангов). И наоборот, целесообраз-
но использовать коэффициент ранговой корреляции Спирмена, когда мы имеем относительно
большое число категорий (что приводит к небольшому количеству совпадающих рангов) [7].
Парная корреляция, так же как частный и частичный коэффициенты корреляции, состав-
ляют концептуальную основу для парного и множественного регрессионного анализа.


РЕГРЕССИОННЫЙ АНАЛИЗ
Регрессионный анализ (regression analysis) — это мощный и гибкий метод установления
формы и изучения связей между метрической зависимой переменной и одной или нескольки-
ми независимыми переменными.

Регрессионный анализ (regression analysis)
Статистический метод установления формы и изучения связей между метрической зависи-
мой переменной и одной или несколькими независимыми переменными.

Регрессионный анализ используют в следующих случаях.
1. Действительно ли независимые переменные обуславливают значимую вариацию зависи-
мой переменной; действительно ли эти переменные взаимосвязаны?
2. В какой степени вариацию зависимой переменной можно объяснить независимыми пере-
менными: теснота связи?
3. Определить форму связи: математическое уравнение, описывающее зависимость между за-
висимой и независимой переменными.
4. Предсказать значения зависимой переменной.
5. Контролировать другие независимые переменные при определении вкладов конкретной
переменной.
Хотя независимые переменные могут объяснять вариацию зависимой переменной, это не-
обязательно подразумевает причинную связь. Использование в регрессионном анализе таких
терминов, как зависимая или критериальная переменная и независимая переменная
(предиктор) отражает наличие математической зависимости между переменными. Данная тер-
минология не подразумевает существование причинно-следственной связи между перемен-
ными. Регрессионный анализ имеет дело с природой и степенью связи между переменными и
не предполагает, что между ними существует какая-либо причинная связь. Вначале мы обсу-
дим парную регрессию, а затем множественную.


ПАРНАЯ РЕГРЕССИЯ
Парная регрессия (bivariate regression) — это метод установления математической (в форме
уравнения) зависимости между одной метрической зависимой (критериальной) переменной и
одной метрической независимой переменной (предиктором). Во многом этот анализ аналоги-
чен определению простой корреляции между двумя переменными. Однако для того чтобы вы-
вести уравнение, мы должны одну переменную представить как зависимую, а другую — как
независимую.

Глава 17. Корреляция и регрессия 649
Парная регрессия (bivariate regression)
Метод установления математической (в форме уравнения) зависимости между двумя мет-
рическими перемнными: зависимой и независимой.

Примеры, приведенные ранее при изучении простой корреляции, рассмотрим с точки зре-
ния регрессии.
• Можно ли вариацию в объеме продаж объяснить расходами на рекламу? Какова форма
этой зависимости и можно ли ее выразить в виде уравнения, описывающего прямую
линию?
• Зависит ли вариация доли рынка от количества торгового персонала?
• Определяется ли отношение потребителей к качеству товара их отношением к цене на
этот товар?
Прежде чем обсудить процедуру выполнения двумерной регрессии, определим основные
статистики.


СТАТИСТИКИ, СВЯЗАННЫЕ С ПАРНЫМ
РЕГРЕССИОННЫМ АНАЛИЗОМ
Ниже приведены статистики и термины, относящиеся к парному регрессионному анализу,
Модель парной регрессии. Основное уравнение регрессии имеет вид У; = j$0 + /ЗД + elf где
Y˜ зависимая или критериальная переменная, X— независимая переменная, или предиктор,
Р0— точка пересечения прямой регрессии с осью OY; 0; — тангенс угла наклона прямой и е, —
остаточный член (остаток), связанный с /-м наблюдением, характеризующий отклонение от
1
функции регрессии .
Коэффициент детерминации. Тесноту связи измеряют коэффициентом детерминации г2. Он
колеблется в диапазоне между 0 и 1 и указывает на долю полной вариации У, которая обуслов-
лена вариацией X.
Вычисляемое (теоретическое) значение Y. Вычисляемое значение Уравно Y, = а + Ьх, где
Y, — вычисляемое значение У„ а параметры а и Ь — это вычисляемые оценки 0<,и /^соответ-
ственно.
Коэффициент регрессии. Вычисляемый параметр Ъ обычно называют ненормированным ко-
эффициентом регрессии.
Диаграмма рассеяния (поле корреляции). Поле корреляции — это графическое представле-
ние точек с координатами, определяемыми значениями двух переменных (независимой и за-
висимой), для всех наблюдений.
Стандартная ошибка уравнения регрессии, Эта статистика SEE представляет собой стандарт-
ное отклонение фактических значений Кот теоретических значений У .
Стандартная ошибка коэффициента регрессии Ь. Стандартное отклонение Ь, обозначаемое
SEk, называется стандартной ошибкой.
Нормированный коэффициент регрессии. Также называется бета-коэффициентом, или взве-
шенным бета-коэффициентом. Показывает изменение У в зависимости от изменения X (угол
наклона прямой уравнения регрессии) при условии, что все данные нормированы.
Сумма квадратов ошибок. Значения расстояний всех точек до линии регрессии возводят в
квадрат и суммируют, получая сумму квадратов ошибок, которая является показателем общей
ошибки e .


1
В литературе этот член уравнения называют также ошибочным (ошибкой) или возмущающим членом
(возмущением). — Прим. науч. ред.

Часть III. Сбор, подготовка и анализ данных
650
(-статистика, /-статистику с л — 2 степенями свободы можно использовать для проверки ну-
левой гипотезы, которая утверждает, что между X и У не существует линейной зависимости
или Я„: Р, = 0, где / = %.-. .



ВЫПОЛНЕНИЕ ПАРНОГО РЕГРЕССИОННОГО
АНАЛИЗА
Стадии, из которых состоит процедура парного регрессионного анализа, приведены на
рис. 17.2.




да нормированного коэффициента р




Определение тесноты и SHE


зга точности предок




! проверка модели

Рис. 17.2. Парный регрессионный анализ

Предположим, что маркетолог хочет выяснить, зависит ли отношение к городу от длитель-
ности проживания в нем (см. табл. 17.1). При выводе уравнения такой зависимости целесооб-
разно вначале изучить поле корреляции,

Поле корреляции
Это графическое изображение точек с координатами, соответствующими значениям двух
переменных для всех случаев. Обычно значения зависимой переменной откладывают по вер-
тикальной оси, в значения независимой — по горизонтальной. Поле корреляции используется
при определении формы зависимости между переменными, График дает исследователю первое


651
Глава 17. Корреляция и регрессия
представление о форме данных и о возможных проблемах. На графике легко идентифициро-
вать любую необычную комбинацию переменных. График зависимости У (отношение к горо-
ду) от ^(продолжительность проживания) дан на рис. 17.3.




I6
о




I J I I
15,75 18
2,25 4,5 6,75 9 11,25 13,5
Длительность проживания
Рис. 17.3. Поле корреляции: отношение к городу в зависимости от
продолжительности проживания в нем

Из рисунка видно, что точки располагаются полосой от нижнего левого угла в верхний
правый. На графике можно увидеть форму зависимости: с ростом одной переменной
другая переменная также увеличивается. Из рисунка видно, что зависимость между У и X
носит линейный характер и поэтому может быть описана уравнением прямой линии. Как
следует "подогнать" к этим точкам прямую линию, чтобы она наилучшим образом опи-
сывала данные?
Самый распространенный метод для расчета уравнения линейной регрессии по данным на
диаграмме рассеяния — это метод наименьших квадратов (least-squares procedure).

Метод наименьших квадратов (least-squares procedure)
Метод, используемый для расчета параметров уравнения линейной регрессии, когда на ос-
нове поля корреляции минимизируются расстояния по вертикали всех точек поля от графи-
ка регрессии.

Методом наименьших квадратов определяют наиболее подходящую прямую регрессии,
минимизируя расстояния по вертикали всех точек поля корреляции от этой прямой. Наиболее
подходящая прямая называется линией регрессии. Если точка поля не лежит на линии регрес-
сии, то расстояние по вертикали от нее до линии называется ошибкой е. (рис. 17.4)
Расстояния от всех точек до линии регрессии возводят в квадрат и суммируют, получая
сумму квадратов ошибок, и это число показывает суммарную ошибку ^ef . Для определения
наиболее подходящей линии с помощью метода наименьших квадратов минимизируют суммы
квадратов ошибок. Если значения Котложить по вертикальной оси, а значения X— по гори-
зонтальной, как показано на рис. 17.4, то полученная аппроксимированная линия называется
регрессией У по X, так как расстояния по вертикали минимизированы. Поле корреляции по-
казывает, можно ли зависимость У по X выразить прямой линией и, следовательно, подходит
ли к этим данным парная регрессионная модель.




652 Часть III. Сбор, подготовка и анализ данных
х^ чл'
: YJ
I I i l l .
V Y Y V
X "2 "3 "4 "5


Puc. 17.4. Парная регрессия



Модель парной регрессии
В модели парной регрессии форма прямой линии выражается уравнением:


где Y— зависимая, или критериальная переменная, X— независимая переменная, или предиктор,
Д, — отрезок прямой, отсекаемый на оси OY, Д — угловой коэффициент (тангенс угла наклона).
Эта модель исходит из того, что У полностью определяется X. При известных значениях Д, и Д,
можно предсказать значение Y. Однако в маркетинговом исследовании немного связей
между переменными четко детерминированы. Поэтому, чтобы учесть вероятностную при-
роду связи, в регрессионное уравнение вводят ошибочный член. Базовое уравнение рег-
рессии принимает вид:


где е,˜ член уравнения, характеризующий ошибку 1-го наблюдения [8]. Оценка регрессионных
параметров Д, и 0/ относительна проста.

Определение параметров уравнения регрессии
В большинстве случаев Д, и ft, неизвестны, и их определяют (оценивают), исходя из имею-
щихся выборочных наблюдений с помощью следующего уравнения:
Y, = а + их,
где Y, — теоретическое значение Y, ,аак Ь — вычисленные значения Д, и /3,, соответственно,
Константу Ь обычно называют ненормированным коэффициентом регрессии. Он выражает
угол наклона линии регрессии и показывает ожидаемое изменение Г при изменении А" на еди-
ницу. Формулы для вычисления а и Ь просты [9]. Угловой коэффициент Ь можно вычислить
через ковариацию между А" и Y(COV^) и дисперсию X по формуле:
COV^ _
=
О -- "- ---




653
Глава 17. Корреляция и регрессия
Отрезок, отсекаемый на оси OY — а, можно вычислить по формуле:
а=?-ЬХ
Для данных табл. 17.1 оценки параметров будут такими:



+ (8)(5) + (2)(2) + (18)(11) + (9)(9) + (17)(10) + (2)(2) = 917

?*; = Ю2 + 122 + 122 + 42 + 122+ 6:+
;=i
2 2 2 2 3 2
+ 8 + 2 + 18 + 9 + 17 + 2 = 1 350
Вспомнив, изложенную ранее формулу вычисления среднего в простой корреляции,
получим:
˜Х =9,333
_
Y =6,583
При заданном п = 12, вычислим Ь по формуле;
917-(12)(9.333)(«83)
1350-(12)(9,333)
a = F-?? = 6,583˜(0,5897)(9,333) = 1,0793
Обратите внимание, что эти коэффициенты вычислены из исходных (не преобразованных)
данных. Если данные нормированы, то вычисление нормированных коэффициентов не вызо-
вет затруднений.

Нормированный коэффициент регрессии
Нормирование (standartization) представляет собой процедуру, посредством которой исход-
ные данные преобразуют в новые переменные со значением средней, равным нулю, и диспер-
сией, равной 1 (глава 14). После нормирования данных, отрезок, отсекаемый на оси OY, при-
нимает значение 0. Нормированный коэффициент регрессии обозначают как "бета"-
коэффициент или взвешенный "бета "-коэффициент. В этом случае угловой коэффициент рег-
рессии YnoX, обозначаемый йч„ тот же, что и угловой коэффициент регрессии А" по Y, обозна-
чаемый Byv Более того, каждый из этих коэффициентов регрессии равен простому (линейному)
коэффициенту корреляции между Хи Y;
°ух= *V = ' гзу
Существует простая связь между нормированным и ненормированным коэффициентами
регрессии:



Для регрессии, показатели которой представлены в табл. 17.2, значение "бета" -коэффициента
оценивается как 0,9361.



654 Часть III. Сбор, подготовка и анализ данных
Таблица 17.2. Парная регрессия
Коэффициент корреляции Я 0,93608
2
Коэффициент детерминации R 0,87624
2
Скорректированный И 0,86387
Стандартная ошибка 1,22329
Дисперсионный анализ
Степени свободы Сумма квадратов Средний квадрат
Регрессия I 105,95222 105,95222
Остаток 10 14,96444 1,49644
F = 70,80266 Значимость F равна 0,000
Переменные в уравнении
Переменная Значимость Т
5ЕЬ Бета, р Т
Продолжительность 0,58972 0,07008 0,93608 8,414 0,0000
(Константа) 1,07932 0,74335 1,452 0,1772

Поскольку параметры определены, можно проверить их значимость.

Проверка значимости
Статистическую значимость линейной связи между А" и У можно проверить, исследовав
гипотезы:
JSfcft-O
Я,: А* О
Нулевая гипотеза предполагает, что между Хи. Уне существует линейной зависимости. Аль-
тернативная гипотеза утверждает, что между X и К существует зависимость, либо положитель-
ная, либо отрицательная. Обычно проводят двустороннюю проверку. Можно использовать /-
статистику с п — 2 степенями свободы, где
Ъ
˜SEb
SEh обозначает стандартное отклонение Ь, и этот показатель называют стандартной ошибкой
коэффициента регрессии b [10]. (-распределение обсуждалось в главе 15.
Используя компьютерную программу (например SPSS) и данные табл. 17.1, регрессия от-
ношения к городу от длительности проживания в нем даст результаты, представленные в
табл. 17.2. Величина отрезка а, отсекаемого на оси OY, равна 1,0793, угловой коэффициент
(наклон кривой) b равен 0,5897. Следовательно, вычисленное (теоретическое) уравнение рег-
рессии иметь вид
Отношение ( Y ) = 1,0793 + 0,5897 (длительность проживания)
Стандартная ошибка, или стандартное отклонение b определено как 0,07008, и значение /-
статистики равно: / = 0,5897/0,0701 = 8,414 с п - 2 = 10 степенями свободы. Из табл. 4 Стати-
стического приложения видно, что критическое значение ^-статистики с 10 степенями свободы
и уровнем значимости а = 0,05 равно 2,228 для двусторонней проверки. Поскольку вычислен-
ное значение /-статистики больше критического значения, то нулевую гипотезу отклоняют.
Следовательно, между отношением к городу и длительностью проживания в нем существует
статистически значимая линейная зависимость. Положительный знак углового коэффициента
указывает на то, что эта связь положительная (прямо пропорциональная). Другими словами,
чем дольше человек живет в городе, тем лучше он к нему относится.



Глава 17. Корреляция и регрессия 655
Теснота и значимость связи
Соответствующий статистический вывод включает определение тесноты и значимости
2
связи между Yvi X. Тесноту связи измеряют коэффициентом детерминации г . В парной регрес-
2
2
сии i представляет собой квадрат линейного коэффициента корреляции. Коэффициент г из-
меняется от 0 до 1. Он показывает долю от полной вариации Y, которая обусловлена вариацией
переменной ЛГ, Разложение полной вариации переменной Y аналогично разложению полной
вариации в дисперсионном анализе (глава 16). Как показано на рис. 17.5, полная вариация SSy
раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии SSpeipecctta,
и вариацию ошибки или остаточную вариацию, SSouai6KU или SSa
'встатвчная'




1 ./Остаточная вариация,
У SSres
1 Объяснимая вариация,
S5
J rg
.




Рис. 17.5 Разложение полной вариации в парной регрессии

SSy —
где




Тесноту связи вычислим следующим образом;
2_- регресси




2 SS,. —



Чтобы проиллюстрировать определение г2, рассмотрим снова влияние продолжительности
проживания в городе на отношение к нему. Из ранее сделанных вычислений коэффициента
парной корреляции видно, что



Теоретическое значение У; можно определить на основании уравнения регрессии
Отношение (Y.) = 1,0793 + 0,5897 (длительность проживания)
Для первого наблюдения в табл. 17.1 это значение равно



Часть III. Сбор, подготовка и анализ данных
656
(Yt)= 1,0793 + 0,5897 x 10 = 6,9763
Для каждого последующего наблюдения теоретические значения будут следующими (в по-
рядке расположения): 8,1557; 8,1557; 3,4381; 8,1557; 4,6175; 5,7969; 2,2587; 11,6939; 6,3866;
11,1042; 2,2587. Следовательно,
= 2= 6 9763 2 2
Юреп*»- 5Х^ ˜^) <' - 6,5833) + (8,1557 - 6,5833) .
2 2
(8,1557 - 6,5833) + (3,4381 - 6,5833)
+ (8,1557 - 6,5833)2 + (4,6175 - 6,5833)2
2 2
+ (5,7969 - 6,5833) + (2,2587 - 6,5833)
+ (11,6939 - 6,5833)2 + (6,6866 - 6,5833)2
2 2
+ (11,1042 - 6,5833) + (2,2587 - 6,5833)
= 0,1544 + 2,4724 + 2,4724 + 9,8922 + 2,4724
+ 3,8643 + 0,6184+18,7021+21,1182
+ 0,0387 + 20,4385 + 18,7021 = 105,9522

^ктаточная = ?(Г' -^У = (6 - 6,9763): + (9 - 8,1557)2+ (8 - 8,1557)2
I=L
+ (3 - 3,4381)2 + (8 - 8,1557):+ (4-4,б175)2
+ (5 - 5,7969)3 + (2 - 2,2587)2 + (11-11,6939)г
+ (9 - 6,3866)2 + (10 - 11.1042)2 + (2 - 2,2587)г = 14,9644
Видно, что SSy = SS^p,,^ + 55'к.тввм,,р|вя. Кроме того,
105 9524
SSрегрессии IV-Л-'^А.^ .-, n onz
= = и.й/О2
Г =
120,9168
SS,
Другой равноценной проверкой значимости линейной зависимости между X и Y
(значимости Ь) является проверка значимости коэффициента детерминации. В этом случае ги-
потезы имеют следующий вид:


Соответствующей статистикой, лежащей в основе критерия, является /-"-статистика:

SS /in -2)
которая подчиняется F-распределению с 1 и п - 2 степенями свободы, /-"-критерий представля-
ет собой обобщенную форму /-критерия (см. главу 15). Если случайная переменная подчиняет-
ся /-распределению с п-степенями свободы, то значения t2 подчиняются F-распределению с 1 и
л-степенями свободы. Следовательно, /-"-критерий для проверки значимости коэффициента
детерминации эквивалентен проверке следующих гипотез:



или
/4: /з=0
Я,:р/0
Из табл. 17.2 видно, что
105
шз.
-
=- -
(105.9522 + 14,9644)
это равно ранее рассчитанному значению. Вычисленное значение /-"-статистики равно:

F. - ^ ^ _ = 70,8027
(105,9522 + 14,9644)
с 1 и 10 степенями свободы, Вычисленное значение /•'-статистики превышает критическое зна-
чение, равное 4,96 (определено по табл. 5 Статистического приложения). Следовательно, зави-

Глава 17. Корреляция и регрессия 657
симость статистически значима при уровне значимости а = 0,05, подтверждая результаты про-
верки с помощью /-критерия. Если зависимость между Хи У статистически значима, то имеет
смысл вычислить значения Y, исходя из значений А", и оценить точность предсказания.

Точность предсказания
Чтобы оценить точность предсказанных (теоретических) значений У , полезно вычислить
стандартную ошибку оценки уравнения регрессии SEE. Эта статистика представляет собой
стандартное отклонение фактических значений У от предсказанных значений У :
Г?^

rt-2
или, в более общем виде, при наличии k независимых переменных



SEE можно интерпретировать как вид среднего значения остатка или среднюю ошибку
предсказания Y, исходя из уравнения регрессии [11].
Могут иметь место два случая предсказания. Исследователь хочет предсказать среднее зна-
чение /для всех вариантов с заданным значением X, скажем Х0, или значение У для одного
случая. В обеих ситуациях предсказанное значение одно и то же, обозначаемое У и равное
Y=a+bX0
Однако стандартная ошибка для этих ситуаций разная, хотя в обеих ситуациях она является
функцией SEE. Для больших выборок стандартная ошибка предсказания среднего значения У
равна SEEI-fn , а ошибка предсказания отдельного значения Уравна SEE. Следовательно,
построение доверительных интервалов (см. главу 12) для предсказанных значений варьи-
рует в зависимости от того, необходимо ли предсказать единственное значение наблюде-
ния или среднее значение.
Для данных табл. 17.2 SEE вычисляют по формуле
/14^9644
SEE= Г ' =1,22329
\(12-2)
Последние две стадии выполнения парного регрессионного анализа, а именно, анализ ос-
таточного члена и модель перекрестной проверки, мы рассмотрим ниже, а сейчас вернемся к
предпосылкам, лежащим в основе регрессионной модели.

Предпосылки регрессионного анализа
Регрессионная модель при оценке параметров и проверке значимости (рис. 17.4) исходит из
ряда допущений.
1. Ошибочный член уравнения регрессии (остаточный компонент) подчиняется закону нор-
мального распределения. Для каждого определенного значения X распределение У нор-
мальное [12].
2. Средние значения всех этих нормальных распределений У, при заданном X, лежат на пря-
мой линии с угловым коэффициентом Ь.
3. Среднее значение ошибочного члена равно 0.
4. Дисперсия ошибочного члена постоянна. Эта дисперсия не зависит от значений, при-
нятых X.
5. Между ошибочными членами автокорреляция отсутствует. Другими словами, значения
ошибочных величин независимы между собой.



658 Часть III. Сбор, подготовка и анализ данных
То. в какой степени модель должна соответствовать этим допущениям, можно понять из
анализа остаточных членов, который рассматривается в разделе, посвященном множественной
регрессии [13].


МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
Множественная регрессия (multiple regression) включает одну зависимую переменную и две
или больше независимых.

Множественная регрессия (multiple regression)
Статистический метод, с помощью которого можно вывести математическую зависимость
между двумя или больше независимыми переменными и зависимой переменной, выра-
женной с помощью интервальной или относительной шкалы.

Вопросы, аналогичные тем, для ответа на которые маркетологи используют парную регрес-
сию, также можно решить с помощью множественной регрессии. Только в этом случае иссле-
дователи имеют дело с дополнительными независимыми переменными.
• Можно ли вариацию объема продаж объяснить с точки зрения расходов на рекламу, цен
и уровня каналов распределения?
• Может ли вариация доли рынка зависеть от количества торгового персонала, расходов на
рекламу и бюджета на продвижение товара?
• Определяется ли восприятие потребителей качества товара их восприятием цены,
имиджа торговой марки и характеристик товара?
С помощью множественной регрессии можно ответить на следующие дополнительные
вопросы.
• Какую долю вариации объема продаж можно объяснить расходами на рекламу, ценами
и уровнем каналов распределения?
• Чему равен вклад расходов на рекламу в объяснении вариации объема продаж при кон-
тролируемых переменных — уровнях цен и распределения?
• Какие объемы продаж можно ожидать, исходя из данных уровней расходов на рекламу,
цен или уровня распределения?

ПРИМЕР. Всемирные торговые марки — местная реклама
Европейцы хорошо относятся к товарам из других стран, но когда дело доходит до рекла-
мы, они предпочитают местную рекламу. Опрос, проведенный компанией Yankelovich and
Partners и ее филиалами, показывает, что в Европе самой любимой рекламой потребитель-
ских товаров является реклама местных торговых марок, несмотря даже на то, что сами по-
требители предпочитают покупать зарубежные фирменные товары. Респонденты во Фран-
ции, Германии и Великобритании назвали Coca-Cola в качестве наиболее часто покупаемо-
го безалкогольного напитка. Однако самой любимой коммерческой рекламой французы
назвали рекламу известной местной марки — воды Perrier. Аналогично, в Германии люби-
мой рекламой оказалась реклама немецкого безалкогольного пива Clausthaler. Однако в Ве-
ликобритании наиболее предпочитаемым безалкогольным напитком оказалась Coca-Cola, и
наиболее предпочитаемой рекламой также оказалась реклама Coca-Cola. В свете этих фактов
встал важный вопрос — способствует ли реклама товара его покупке? Увеличивает ли
реклама вероятность покупки товара или она просто поддерживает определенный уровень
признания товара? В этой ситуации можно построить регрессионную модель, в которой
1 зависимая переменная представляет собой вероятность покупки товара, а независимыми
переменными являются оценки отношения к товару и оценки рекламы. Чтобы оценить
I любой значимый вклад в вариацию покупки товара, следует построить отдельные модели с

Глава 17. Корреляция и регрессия 659
наличием и без наличия переменной — реклама, Чтобы выявить любой значимый вклад
обоих переменных— характеристик товара и рекламы, можно также выполнить отдельные
проверки с помощью /-критерия. Результаты укажут, в какой степени реклама влияет на
принятие решения о покупке товара [14].

Общая форма модели множественной регрессии (multiple regression model) имеет вид:


Г Модель множественной регрессии (multiple regression model)
Уравнение, используемое дли объяснения результатов множественного регрессионного ана-
лиза.

Модель оценивают следующим уравнением:
У = a+b,X,+b2X2+b3X3+...btXt
Как и раньше, коэффициент а представляет собой отрезок, отсекаемый на оси OY, но ко-
эффициенты Ь являются теперь частными коэффициентами регрессии. Здесь мы использу-
ем на основании метода наименьших квадратов критерий, который оценивает параметры та-
ким образом, чтобы минимизировать суммарную ошибку SSKai_. Этот процесс также макси-
мизирует корреляцию между фактическими значениями Y и предсказанными значениями
У . Все предпосылки, которые используются в парной регрессии, применимы и для множе-
ственной регрессии. Мы дадим определения нескольким статистикам, а затем опишем про-
цедуру выполнения множественного регрессионного анализа [15].


СТАТИСТИКИ, СВЯЗАННЫЕ СО МНОЖЕСТВЕННОЙ
РЕГРЕССИЕЙ
Большинство статистик и статистических терминов, описанных при рассмотрении парной
регрессии, также применимы и во множественной регрессии. Дополнительно используют сле-
дующие статистики.
Скорректированный коэффициент множественной детерминации R2. Коэффициент множест-
2
венной детерминации R корректируют с учетом числа независимых переменных и размера
выборки, чтобы снизить влияние зависимости коэффициента детерминации от количества пе-
ременных. После введения нескольких первых переменных дополнительные независимые пе-
ременные не так сильно влияют на коэффициент детерминации.
Коэффициент множественной детерминации R2. Тесноту связи между переменными при
множественной регрессии измеряют, возводя в квадрат коэффициент множественной
корреляции.
/'-критерий. Используется для проверки нулевой гипотезы о том, что коэффициент множе-
ственной детерминации в совокупности R'cot. равен нулю. Это эквивалентно проверке нулевой
гипотезы Нй: (Зд = fi, = fl2 =/?,... = /3t = 0. Статистика, лежащая в основе критерия для проверки
гипотезы, подчиняется /''-распределению с k и (п — k — 1) степенями свободы.
Частный F-критерий. Значимость частного коэффициента регрессии Д переменной Х-, мож-
но проверить, используя приростную /^статистику. Она основана на приращении в объясняе-
мой сумме квадратов, полученном добавлением независимой переменной Х{ в уравнение рег-
рессии после исключения всех других независимых переменных.
Частный коэффициент регрессии. Частный коэффициент регрессии А, обозначает изменение
в предсказанном значении Y при изменении X, на единицу, когда другие независимые пере-
менные от Х2до Xk остаются неизменными.




660 Часть III. Сбор, подготовка и анализ данных
ВЫПОЛНЕНИЕ МНОЖЕСТВЕННОГО
РЕГРЕССИОННОГО АНАЛИЗА
Стадии, входящие в процедуру выполнения множественного регрессионного анализа, ана-
логичны рассмотренным для двумерного регрессионного анализа. При обсуждении мы обра-
тим особое внимание на частные коэффициенты регрессии, тесноту связи, проверку значимо-
сти и анализ остаточных членов.

Частные коэффициенты регрессии
Чтобы понять значение частного коэффициента регрессии, расмотрим случай с двумя неза-
висимыми переменными:
Y = а+Ь,Х2+Ь2Х2
Во-первых, отметим, что величина частного коэффициента регрессии независимой пере-
менной, в основном, отличается от коэффициента двумерной регрессии той же переменной.
Другими словами, частный коэффициент регрессии Ь, отличается от коэффициента регрессии
Ь, полученного при установлении зависимости Утолько от переменной X,. Это происходит по-
тому, что X, и Х2 обычно взаимосвязаны. В парной регрессии Х2 не принимают во внимание, и
любое изменение вариации в Y, за которую совместно отвечают X, и Х2, относят на счет X,. Од-
нако в случае нескольких независимых переменных это несправедливо.
Интерпретация частного коэффициента регрессии Ь, заключается в том, что он представляет
ожидаемое изменение величины У, когда А^ изменяется на единицу, а,^ остается постоянной, т.е.
управляемой (контролируемой) переменной. В отличие от этого, Ь2 представляет ожидаемое изме-
нение Упри изменении Хг на единицу, когда X, остается постоянной. Поэтому названия Ь,нЬ2 —
частные коэффициенты регрессии, соответствуют действительности. Кроме того, результаты со-
вместного влиняия X, и Х2 на У суммируются. Иначе говоря, если каждую из переменных X, и Х2
изменить на единицу, то ожидаемое изменение значения Убудет равно (Ь, + 6,).
Логически, зависимость между коэффициентом парной регрессии и частным коэффициен-
том регрессии можно проиллюстрировать следующим образом. Предположим, что мы исключили
эффект от влияния Х2изХ,. Это можно сделать, установив регрессию X, по X? Иначе говоря, мож-
но воспользоваться уравнением Х{ = а + ЬХ2 и вычислить остаточный член Хг = (X, — Х1). Тогда
частный коэффициент регрессии Ь, станет равным коэффициенту парной регрессии Ь, полу-
ченному из уравнения Y = а + ЬХГ. Таким образом, частный коэффициент регрессии Ь, равен
коэффициенту парной регрессии Ь между переменной Уи остаточным значением переменной
Х„ не учитывая эффекта от влияния переменной X,. Частный коэффициент регрессии Ь2 ин-
терпретируем аналогично.
Распространение этого примера на случай с k переменными не вызывает затруднений. Ча-
стный коэффициент регрессии Ь, представляет ожидаемое изменение У, когда X, изменяется на
единицу, а переменные от Х2 до Xk остаются неизменными. Это можно интерпретировать как
коэффициент парной регрессии А для регрессии переменной У от остаточных значений пере-
менной X, при исключенных эффектах переменных отХ 2 цоХ^.
"Бета"-коэффициенты являются частными коэффициентами регрессии, полученными по-
сле того, как перед оценкой уравнения регрессии, все переменные (У, Х}, Х2,... Xk,} нормирова-
ны с получением их среднего значения, равного нулю, и дисперсии, равной 1. Связь между
нормированным и ненормированным коэффициентами та же, что и рассмотренная ранее;




К-
"I —



Глава 17. Корреляция и регрессия 661
Отрезок, отсекаемый на оси OY, и частный коэффициент регрессии определяют решением
системы уравнений, выведенной дифференцированием и приравниванием к нулю частных
производных. Поскольку эти коэффициенты можно вычислить с помощью разных компью-
терных программ, мы не будем вдаваться в детали. Однако стоит отметить, что уравнения
нельзя решить, если размер выборки л меньше или равен числу независимых переменных k;
или одна независимая переменная тесно связана с другой.
Предположим, что при объяснении зависимости отношения к городу от длительности
проживания в нем, мы сейчас введем вторую переменную— погодные условия. Данные, полу-
ченные от 12 респондентов и касающиеся отношения к городу, длительности проживания в
нем и погодных условий, приведены в табл. 17.1. Результаты множественного регрессионного
анализа даны в табл. 17.3. Значение частного коэффициента регрессии для переменной X,
(длительность проживания), равное 0,4811, теперь отличается от значения, полученного в ана-
лизе парной регрессии. Соответствующий "бета"-коэфициент равен 0,7636. Частный коэффи-
циент регрессии для переменной Х2 (погодные условия) равен 0,2887 с "бета"-коэффициентом,
равным, 0,3138.
Теоретическое уравнение регрессии имеет вид:
(Y ) = 0,33732 + 0,48108 X, + 0,28865 Х2
или
отношение к городу = 0,33732 + 0,48108 (длительность проживания) + 0,28865 (погодные
условия)




Коэффициент множественной корреляции 0,97210
г
Коэффициент детерминации В 0,94498
2
Скорректированный R 0,93276
Стандартная ошибка уравнения регрессии 0,65974
Дисперсионный анализ
Степени свободы Сумма квадратов Средний квадрат
Регрессия 2 114,26425 57,13213
Остаток 9 6,65241 0,73916
F = 77,29364 Значимость F = 0,0000
Переменные в уравнении

Переменная b Бега, р Т Значимость Т
S?u

Погодные условия 0,28865 0,08608 0,31382 3,353 0,0085
Длительность 0,48108 0,05895 0,76363 8,160 0,0000
(Константа) 0,33732 0,56736 0,595 0,5668

Это уравнение можно использовать для разных целей, включая предсказание отношения к
городу при заданных длительности проживания в нем и отношения респондента к погодным
условиям региона.




Часть III. Сбор, подготовка и анализ данных
662
Теснота связи
Степень тесноты связи определим, используя соответствующие показатели связи между
переменными. Полную вариацию можно разложить (как и для парной регрессии) следую-
щим образом:

где




Тесноту связи измеряют, возводя в квадрат коэффициент множественной корреляции, по-
2
лучая коэффициент множественной детерминации R



Коэффициент множественной корреляции R можно рассматривать как линейный коэф-
фициент корреляции г между Y и Y . Следует сделать несколько замечаний относительно
определения R*. Коэффициент множественной детерминации R2 не может быть меньше, чем
самое высокое значение г2 любой отдельной независимой переменной с зависимой перемен-
2
ной. Значение R больше, когда корреляция между независимыми переменными слабее. Ес-
2
ли независимые переменные статистически независимы (не коррелированы), то значение R
представляет собой сумму коэффициентов парной детерминации каждой независимой пе-
ременной с зависимой переменной. Значение R2 не может уменьшаться при добавлении не-
зависимых переменных в уравнение регрессии. Однако снижение влияния зависимости ко-
эффициента детерминации от количества переменных устанавливается таким образом, что
после введения нескольких первых переменных дополнительные независимые переменные
не вносят такой большой вклад в значение коэффициента детерминации [16]. Поэтому R2
корректируют с учетом числа независимых переменных и размера выборки, используя сле-
дующую формулу:
*(!-**)
Скорректированный R = R -- s - -
n-k-l
Для данных регрессии, приведенных в табл. 17.3, значение R2 равно
"4.2643
(114,2643 + 6,6524)
Это значение выше, чем значение г1, равное 0,8762, полученное для парной регрессии. Зна-
чение г2 парной регрессии представляет собой квадрат простого коэффициента корреляции ме-
жду отношением к городу и длительностью проживания в нем. Значение R2, полученное в
множественной регрессии, также выше, чем квадрат простого коэффициента корреляции меж-
ду отношением к городу и отношением к погодным условиям (которое определено как 0,5379),
Скорректированный коэффициент детерминации Допределен следующим образом:
0,9450-2(1,0-0,9450)
Скорректированный R˜ = - * - - = 0,932
12-2-1
Обратите внимание, что значение скорректированного коэффициента детерминации R2
близко к значению обычного коэффициента детерминации R2\\ их значение больше, чем у ко-
эффициента детерминации г для парной регрессии. Это означает, что добавление второй неза-



Глава 17. Корреляция и регрессия 663
висимой переменной — погодные условия, вносит определенный вклад в вариацию перемен-
ной — отношение к городу.

Проверка значимости
Проверка значимости включает проверку значимости общего уравнения регрессии и кон-
кретных частных коэффициентов регрессии. Нулевая гипотеза для проверки общего уравнения
гласит, что коэффициент множественной детерминации для генеральной совокупности
Л''„„шут равен нулю:

Это эквивалентно следующей нулевой гипотезе


Общую проверку можно выполнить, используя F-
9? /t
J.J _ / Л
Е?
р= =

R2lk
˜ (\˜R2]/(n˜k-\Y
которая имеет /-распределение с k и (п — k — 1) степенями свободы [17]. Результаты проверки
даны в табл. 17.3
f = 114.2643/2

6,6524/9
которая является значимой при а = 0,05.
Если общую нулевую гипотезу отклоняют, то один или несколько частных коэффициентов
регрессии в совокупности имеют значение, отличное от нуля. Чтобы определить, какие из кон-
кретных коэффициентов Д отличны от нуля, выполним дополнительные проверки. Проверку
значимости Д выполним тем же способом, что и в случае парной регрессии, т.е. используя t-
статистику. Значимость частного коэффициента для переменной — погодные условия — мож-
но выполнить с помощью уравнения
, = * = 0.2887 = э з ; з
SE,, 0,08608
которое подчиняется /-распределению с (п — k — 1) степенями свободы. Этот коэффициент ста-
тистически значим при уровне значимости а = 0,05. Значимость коэффициента для перемен-
ной — длительность проживания, проверяют аналогичным образом и находят, что он стати-
стически значимый. Следовательно, обе переменные: погодные условия и длительность про-
живания, имеют значение при объяснении отношения респондента к своему городу.
Ряд компьютерных программ позволяют проводить расчет Т7- критерия, что зачастую назы-
вается вычислением частного /^критерия. Такой расчет включает разложение суммы квадратов
общей регрессии 55^ на компоненты, соответствующие каждой независимой переменной.
В обычном подходе эту процедуру осуществляют при допущении, что каждую независимую
переменную добавляют в уравнение регрессии после включения в него всех других независи-
мых переменных. Приращение к объясняемой сумме квадратов, получаемое после добавления
независимой переменной Х„ представляет собой компонент вариации, присущий этой пере-
менной и обозначаемый ?.5^ [18]. Значимость частного коэффициента регрессии для этой пе-
ременной PL проверяют, используя F-статистику приращения:



которая имеет /"-распределение с 1 и (п — k — 1) степенями свободы. В то время как высокое
значение R2 и значимые частные коэффициенты регрессии достаточно удобны, эффективность
регрессионной модели должны быть оценена анализом остатков.

Часть III, Сбор, подготовка и анализ данных
664
Анализ остатков
Остаток, остаточный член (residual) — это разность между наблюдаемым значением Y, и тео-
ретическим значением, предсказанным регрессионным уравнением У,.

Остаток, остаточный член (residual)
Разность между наблюдаемым значением YI и теоретическим значением, предсказанным
регрессионным уравнением Y t .

Значения остаточных членов используют при вычислении некоторых статистик, связанных
с регрессией. В дополнение к этому диаграммы рассеяния остатков, которые показывают их
значения в зависимости от предсказанных значений Y,, времени или предикторов дают полез-
ную информацию для анализа правильности сделанных допущений [19].
Допущение нормальности распределения ошибочного члена проанализируем, построив
гистограмму остатков. Визуальный осмотр покажет, является ли распределение нормальным.
Дополнительное доказательство получим, определив процент остатков, попадающих в область
± 1 SE или ± 2 SE. Эти проценты можно сравнить с ожидаемыми для нормального распреде-
ления (68% и 95% соответственно). Более формальную оценку можно получить, применив од-
новыборочный критерий Колмогорова—Смирнова.
Предположение о постоянном значении дисперсии ошибочного члена проанализируем,
нанеся на график значения остатков в зависимости от вычисленных значений независимой
переменной Y,. Если точки нанесены на график неупорядоченно, то дисперсия ошибочного
члена — величина постоянна. На рис. 17.6 показана форма расположения остаточных членов,
дисперсия которых зависит от значений Y t .




Вычисленное значение Y
Рис. 17.6. График расположения остаточных чле-
нов, показывающий, что их дисперсия — величина
непостоянная

График зависимости значений остатков от времени или последовательности наблюдений
прольет некоторый свет на допущение, что ошибочные члены не коррелированны. Если это
предположение справедливо, то форма рсположения остаточных членов носит случайный ха-
рактер. График, подобный приведенному на рис. 17.7, показывает линейную зависимость зна-
чений остатков от времени.
Более формальную процедуру проверки корреляции между ошибочными членами даст
критерий Дарбина — Уотсона [20].
Графическое изображение зависимости значений остаточных членов от независимых пере-
менных предоставляет доказательство того, насколько подходит теоретическая модель регрес-
сии. График должен показывать случайную форму расположения остаточных членов. Значения


665
Глава 17. Корреляция и регрессия
остатков должны располагаться случайным образом относительно одинаково вокруг нуля. Они
не должны смешаться ни в положительную, ни в отрицательную стороны.
Для того чтобы понять, следует ли в уравнение регрессии вводить дополнительные незави-
симые переменные, можно построить регрессию остатков от предполагаемых переменных. Ес-
ли какая-либо переменная объясняет значительную долю остаточной вариации, то, вероятно,
ее следует включить в уравнение регрессии. При введении переменных в уравнение регрессии
необходимо руководствоваться целью исследования. Таким образом, анализ остатков позволяет
глубже понять как соответствие лежащим в основе регрессионной модели допущениям, так и
соответствие регрессионной модели. На рис. 17.8 изображен график, который показывает, что
лежащие в основе регрессионной модели предположения удовлетворяются и линейная модель
соответствует фактическим данным.




Время
Рис. 17.7. График расположения оста-
точных членов, показывающий линейную
зависимость между их значениями и
временем

Если проверка остатков выявит, что лежащие в основе регрессионной модели допущения не
выполняются, то исследователь может преобразовать переменные таким образом, чтобы эти
предположения выполнялись. Такие преобразования, как логарифмирование, извлечение
квадратного корня или вычисление обратных величин, могут стабилизировать дисперсию,
сделать распределение нормальным и зависимость линейной. В дальнейшем мы проиллюстри-
руем применение множественной регрессии на примере.

ПРИМЕР. "Нет" дополнительным расходам на рекламу
Широко распространено мнение, что цены на журналы зависят от рекламы, помещаемой
на их страницах. Маркетологи провели исследование, посвященное изучению того, каким
образом наличие рекламы влияет на цену журнала.
Чтобы изучить зависимость между ценой журнала и такими переменными, как объем
журнала (стр.), тираж, процент распространения через газетные киоски, расходы на продви-
жение, процент цветных страниц и доходы от рекламы в расчете на один экземпляр, марке-
тологи применили множественный регрессионный анализ:
РРС = Ь0 + Ь,(объемжурнала) + Ь2(тираж) + Ь3(% распр. через газ. киоски)
+ Ь4 (расходы на продвижение) + Ь5 (% цветн.) + ?й(доход от рекламы)
где
РРС — цена одного экземпляра (в долл.)
объем журнала — количество страниц в номере (в среднем)
тираж — логарифм среднего оплаченного тиража (в 000)
% распр. через газетные киоски — % распространения через газетные киоски




Часть III. Сбор, подготовка и анализ данных
666
расходы на продвижение — расходы на продвижение журнала
% цветн. — % цветных страниц
доход от рекламы — доход от рекламы в расчете на один экземпляр (в долл.)
Результаты регрессионного анализа, в котором зависимой переменной служила цена
журнала в расчете на один экземпляр, представлены в табл. 1. Из шести переменных значи-
мыми оказались три (р < 0,05): количество страниц, средний тираж и процент распростра-
нения через газетные киоски. Три переменные обусловили фактически всю из объяснимой
2 1
дисперсии (R = 0,51; скорректированный R = 0,48). Направление коэффициентов согласо-
валось с априорными ожиданиями: для количества страниц коэффициент был положитель-
ным, для тиража — отрицательным и для процента распространения через газетные киос-
ки — положительным. Такой результат и можно было ожидать, исходя из особенностей
данной сферы бизнеса, и он подтверждает предполагаемую зависимость.
Таблица 1. Регрессионный анализ с использованием цены одного экземпляра журнала как неза-
висимой переменной
SE F
Ь
Зависимая переменная: цена одного экземпляра
Независимые переменные:
Объем журнала 0,0084 0,0017 23,04*
Тираж -0,4180 0,1372 9,29*
Процент распространения через газетные киоски 0,0067 0,0016 18,46*
Расходы на продвижение журнала 0,13-04" 0,0000 0,59
Процент цветных страниц 0,0227 0,0092 0,01
Доход от рекламы в расчете на один экземпляр журнала 0,1070 0,0412 0,07
г
Общий Я df = 9,93 Общая F-статистика = 16,19*
•р<0,05
" - количество десятичных знаков после запятой

Установлено, что расходы на продвижение журнала, использование цвета и доходы от
рекламы в расчете на один журнал не связаны с ценой одного экземпляра журнала. Это вы-
явлено в результате регрессионного анализа после исключения эффектов от влияния других
переменных: тиража, процента распространения через газетные киоски и количества стра-
ниц редактора.
Поскольку эффект дохода от рекламы не был статистически значимым, то утверждение,
что реклама снижает цену одного экземпляра журнала, не подтвердилось. Таким образом,
1 наличие рекламы в журнале никак не влияет на цену журнала [21].



ПОШАГОВАЯ РЕГРЕССИЯ
Цель пошаговой регрессии (stepwise regression) состоит в отборе из большого количества пре-
дикторов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию
зависимой переменной.

Пошаговая регрессия (stepwise regression)
Регрессионная процедура, в которой предикторы по очереди вводят или выводят из урав-
нения регрессии.




667
Глава 17. Корреляция и регрессия
Вычисленное значение У

Рис. 17.8. График расположения остатков,
показывающий что теоретическая модель
соответствует данным наблюдения.

В этой процедуре предикторы вводят или выводят из уравнения регрессии по очереди [22].
Существует несколько подходов к выполнению пошаговой регрессии,
1. Прямое включение (прямая пошаговая регрессия). Вначале уравнение регрессии не содер-
жит предикторов. Они вводятся по одному, если они удовлетворяют определенному F-
критерию. В основе порядка введения включаемых переменных лежит вклад перемен-
ной в объясняемую вариацию.
2. Обратная пошаговая регрессия — исключение переменной. Вначале все предикторы входят в
уравнение регрессии. Затем по очереди выводятся из уравнения, исходя из их соответствия
F- критерию.
3. Пошаговый подход. На каждой стадии прямое включение осуществляют одновременно с вы-
водом предикторов, которые больше не удовлетворяют конкретному критерию.
Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с
точки зрения получения наибольшего коэффициента детерминации R2 для данного числа пре-
дикторов [23]. Из-за корреляций между предикторами важная переменная может никогда не
быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы
определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых
анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в
ситуации, когда размер выборки велик по сравнению с количеством предикторов, как это по-
казано наследующем примере.

ПРИМЕР. Покупать? Нет, посмотреть.
Для определения профиля посетителей магазинов местного торгового центра, не имеющих
определенной цели покупки (browsers), маркетологи использовали три набора независимых пе-
ременных: демографические, покупательское поведение; психологические. Зависимая пе-
ременная представляет собой индекс посещения магазина без определенной цели, индекс брау-
зинга (browsing index). Методом ступенчатой регрессии, включающей все три набора пере-
менных, выявлено, что демографические факторы — наиболее сильные предикторы,
определяющие поведение покупателей, не преследующих конкретных целей. Окончательное
уравнение регрессии, содержащее 20 из 36 возможных переменных, включало все демогра-
фические переменные. В следующей таблице приведены коэффициенты регрессии, стан-
дартные ошибки коэффициентов, а также их уровни значимости.




Часть III. Сбор, подготовка и анализ данных
668
Регрессионный анализ (индекс браузинга - зависимая переменная) с использованием
пошаговой регрессии
Независимые переменные Коэффициент Стандартная Значимость
регрессии ошибка, SE
Пол (0 - мужчины, 1 -женщины) - 0,485 0,164 0,001
Занятость (0 - имеет работу) 0,391 0,182 0,003
Уверенность (в своем положении) - 0,151 0,128 0,234
Образование 0,079 0,072 271
Отношение к торговой марке -0,063 0,028 0,024
Смотрит ли телевизор в дневное время? (О - да) 0,232 0,144 0,107
Напряженность - 0,182 0,069 0,008
Доход 0,089 0,061 0,144
Частота посещения торгового центра - 0,130 0,059 0,028
Имеет меньше друзей, по сравнению с другими 0,162 0,084 0,054
Хороший покупатель - 0,122 0,090 0,174
Важность мнения других -0,147 0,065 0,024
Контроль над жизнью - 0,069 0,069 0,317
Размер семьи - 0,086 0,062 0,165
По характеру - энтузиаст - 0,143 0,099 0,150
Возраст 0,036 0,069 0,603
Количество покупок - 0,068 0,043 0,150
Число покупок в одном магазине 0,209 0,152 0,167
Покупки при стесненных средствах - 0,055 0,067 0,412
Оценка качества товаров - отличное -0,070 0,089 0,435
Константа 3,250
2
Общий R = 0,477

При интерпретации коэффициентов регрессии следует иметь в виду, что чем меньше
индекс браузинга (зависимая переменная), тем сильнее покупатели склонны демонстриро-
вать поведение, связанное с посещением магазина без определенной цели. Два предиктора с
самыми большими коэффициентами — это пол и занятость. После учета этих переменных
обнаружено, что чаще всего посетителями без определенной цели являются работающие
женщины, как правило, молодого возраста, причем с низким уровнем образования и дохода
и необязательно одиноки. Марктеологи определили, что большим размерам семьи соотвст-


1 ствуют меньшие значения индекса браузинга,
Посещение магазина людьми с низкими доходом указывает на то, что специализирован-
ные магазины в торговых центрах предлагают товары по умеренным ценам. Это может объяс- |
! нить низкий уровень банкротства среди таких магазинов торгового центра и стремление доро- j
1 гих специализированных магазинов размещаться только в престижных торговых центрах [24].



МУЛЬТИКОЛЛИНЕАРНОСТЬ
Пошаговую и множественную регрессию осложняет мультиколлинеарность. Фактически
всегда множественный регрессионный анализ в маркетинговых исследованиях имеет дело со
связанными между собой предикторами. Однако мультиколлинеарность (multicollmearity) воз-
никает тогда, когда связь между предикторами очень сильная [25].


Глава 17. Корреляция и регрессия 669
Мул ьтиколл и неарность (multicollinearity)
Состояние очень высокой степени корреляции между независимыми переменными,

Мул ьтиколл и неарность может привести к нескольким проблемам, включая следующие.
1. Частные коэффициенты регрессии нельзя точно определить. Значения стандартных оши-
бок скорее всего очень высокие.
2. Величины и знаки частных коэффициентов регрессии могут изменяться от выборки к
выборке.
3. Трудно оценить относительную важность независимых переменных при объяснении ва-
риации зависимой переменной,
4. Предикторы могут быть некорректно введены или исключены из уравнения регрессии в
ступенчатой регрессии.
Не всегда ясно, за счет чего существует сильная мул ьти коллинеарность, хотя в литературе
предлагается несколько эмпирических правил и процедур ее выявления. Чтобы справиться с
проблемой мул ьти коллинеарности, предлагается изменить уровень сложности [26]. Простая
процедура заключается в использовании только одной переменной из высоко коррелированно-
го набора переменных. Альтернативно, с помощью такого метода, как анализ главных компо-
нентов, можно преобразовать набор независимых переменных в новый набор предикторов,
взаимно независимых (глава 19). Кроме того, можно использовать специальные методы, такие
как гребневая регрессия и факторный анализ [27].


ОТНОСИТЕЛЬНАЯ ВАЖНОСТЬ ПРЕДИКТОРОВ
При мул ьти колл и неарности особое внимание следует уделить оценке относительной важно-
сти независимых переменных. При проведении маркетингового исследования целесообразно оп-
ределить относительную важность предикторов. Другими словами, насколько значимы независи-
мые переменные с точки зрения их вклада в вариацию зависимой переменной [28]? К сожалению,
из-за взаимосвязанности предикторов в регрессионном анализе не существует однозначного по-
казателя относительной важности предикторов [29]. Однако есть несколько широко распростра-
ненных подходов, используемых для оценки относительной важности независимых переменных.
1. Статистическая значимость. Если частный коэффициент регрессии переменной не являет-
ся значимым, что определяется приростным F-критерием, то эту переменную не считают
важной. Исключение из этого правила— веские теоретические причины, полагающие, что
эта переменная важная.
2. Квадрат линейного коэффициента корреляции. Этот показатель г2 представляет долю вариа-
ции зависимой переменной, которую можно объяснить независимой переменной в парной
зависимости.
3. Квадрат частного коэффициента корреляции. Этот показатель Кгу,г.1& представляет собой
коэффициент детерминации между зависимой и независимой переменными, при исклю-
чении эффектов от влияния других независимых переменных.
4. Квадрат частичного коэффициента корреляции. Этот коэффициент представляет увеличение
R2, когда переменную вводят в уравнение регрессии, которое содержит другие независимые
переменные.
5. Показатели, основанные на нормированных коэффициентах или взвешенных "бета"-
коэффициентах. Эти наиболее часто используемые показатели представляют собой абсо-
лютные значения взвешенных "бета"-коэффициентов IJ3J или значения квадратов коэф-
фициентов P2j. Поскольку это частные коэффициенты, то взвешенные "бета"-
коэффициенты учитывают эффект других независимых переменных. Чем выше корреля-


Часть III. Сбор, подготовка и анализ данных
670
ция между предсказанными переменными (с ростом мультиколлинеарности), тем нена-
дежнее эти показатели.
6. Пошаговая регрессия. Порядок ввода или вывода предикторов в уравнение регрессии ис-
пользуют для определения их относительной важности.
Принимая во внимание, что предикторы взаимосвязаны, по крайней мере, в некоторой
степени, фактически во всех регрессионных ситуациях, ни один из этих показателей не являет-
ся достаточно надежным. Кроме того, возможно, что разные показатели могут указывать на
различный порядок важности предикторов (могут располагать предикторы по степени важно-
сти в разном порядке) |30]. Однако если все показатели изучать совместно, то представление об
относительной важности предикторов будет достаточно ясным.


ПЕРЕКРЕСТНАЯ ПРОВЕРКА
Прежде чем оценить относительную важность предикторов или сделать какие-либо другие
выводы, необходимо подвергнуть регрессионную модель перекрестной проверке. Дело в том,
что для регрессии и других многомерных процедур характерно выявление случайных вариаций
переменных. Это приводит к тому, что уравнение регрессии становится чрезмерно чувстви-
тельным к конкретным данным, используемым для построения модели. Одним из подходов
для оценки модели из-за этой и других проблем, связанных с регрессией, — перекрестная про-
верка. Перекрестная проверка (cross-validation) позволяет проанализировать, действительно ли
регрессионная модель распространяется на сопоставимые данные, которые не использовались
для построения модели.

Перекрестная проверка (cross-validation)
Проверка достоверности модели, с помощью которой изучают, применима ли регрессион-
ная модель для анализа сопоставимых данных, не использовавшихся при построении ис-
ходной модели.

Типичная процедура перекрестной проверки, используемая в маркетинговых исследовани-
ях, состоит из следующих стадий.
1. Маркетологи рассчитывают регрессионную модель, используя полный набор данных.
2. Имеющиеся данные делят на две части: расчетную выборку и контрольную выборку. Расчет-
ная выборка обычно содержит от 50 до 90% данных общей выборки.
3. Регрессионную модель рассчитывают, используя только данные из расчетной выборки. Эту
модель сравнивают с моделью, рассчитанную по данным полной выборки, чтобы опреде-
лить их соответствие с точки зрения знаков и величин частных коэффициентов регрессии.
4. Рассчитанную модель применяют к данным из контрольной выборки чтобы определить
значения зависимой переменной У, для наблюдений в контрольной выборке.

5. Наблюдаемые значения ^ и расчетные теоретические значения У, в контрольной выборке
сопоставляют, чтобы определить линейный коэффициент детерминации г2. Его сравнивают
с коэффициентом R2 для полной выборки и с R1 — для расчетной выборки, чтобы оценить
степень сжатия.
Специальную форму проверки называют двойной перекрестной проверкой. При двойной
перекрестной проверке (double cross-validation) выборку делят на две равные половины.

Двойная перекрестная проверка (double cross-validation)
Специальная форма проверки, в которой выборку делят на две равные части. Одна поло-
вина служит расчетной выборкой, а вторая - контрольной. Затем роли выборок меняются, и
перекрестную проверку повторяют.


Глава 17. Корреляция и регрессия 671
При выполнении перекрестной проверки одна половина служит расчетной выборкой, вто-
рая — контрольной. Затем места расчетной и контрольной выборок меняются и перекрестную
проверку повторяют [31].


РЕГРЕССИЯ С ИСПОЛЬЗОВАНИЕМ ФИКТИВНЫХ
ПЕРЕМЕННЫХ
Перекрестная проверка представляет собой общую процедуру, которую можно применять
для некоторых специальных приложений регрессии, таких как регрессия с использованием
фиктивных переменных. В качестве предикторов можно использовать номинальные
(категориальные) переменные, закодировав их как фиктивные. Понятие фиктивных перемен-
ных введено в главе 14. В той главе мы объяснили, как категориальную переменную с четырьмя
уровнями (люди, которые много, средне, слабо потребляют товар и не используют) можно вы-
разить тремя фиктивными переменными: D}, D2, D}, как показано ниже,
Код фиктивной переменной
Категория код Ог D3
0,
потребителя товара исходной
переменной
Не использующие 1 1 0 О
Слабо 0
2 1 О
Средне 0
3 Ч 1

о о
Много 4 0
Предположим, что исследователя интересует регрессионный анализ зависимости отноше-
ния к торговой марке от степени потребления товара, Фиктивные переменные D,, D2 и D3 мож-
но использовать как предикторы. Регрессия с фиктивными переменными описывается таким
уравнением:
Y. = a + bjD, + Ь^2 + b3D}
В этом случае категория "много потребляющие" выбрана в качестве контрольной и поэтому
не включена непосредственно в уравнение регрессии. Обратите внимание, что для этой катего-
рии значения фиктивных переменных Db D2 и />3 определено равным нулю, и уравнение рег-
рессии принимает вид
Y, = а
Для не пользователей Д = 1 и D2 = D3 = 0 и уравнение регрессии запишем
Y, = а+Ь,
Таким образом, коэффициент ?, представляет собой разницу в вычисленном значении для
не пользователей по сравнению с пользователями, потребляющими много продукта. Коэффи-
циенты Ь2 и Ь3 интерпретируют аналогично. Хотя в этом примере уровень ''много потребляю-
щие пользователи" выбран как контрольный, в принципе для этой дели подходит любой из
трех уровней [32].


ДИСПЕРСИОННЫЙ И КОВАРИАЦИОННЫЙ АНАЛИЗ
С ИСПОЛЬЗОВАНИЕМ РЕГРЕССИИ
Регрессия с фиктивными переменными служит основой для понимания дисперсионного и
ковариационного анализа. Покажем, что регрессия с фиктивными переменными равнозначна


672 Часть III, Сбор, подготовка и анализ данных
однофакторному дисперсионному анализу. В регрессии с фиктивными переменными теорети-
чески определенное значение У для каждого уровня категориальной переменной представляет
собой среднее значение Г для каждого уровня. Чтобы проиллюстрировать использование фик-
тивной переменной, обозначающей использование товара, приведем ниже вычисленные У и
средние значения для каждого уровня.
Уровни потребителей продукта Вычисленное значение Y Среднее значение Y
a + Ь,
Не пользователь а + b?
а + Ьг а + Ъ?
Слабо потребляющие
а + Ьз а+Ьз
Средне потребляющие
Много потребляющие а а
Принимая во внимание данные равенства, легко проследить дальнейшую связь между
регрессией с фиктивными переменными и однофакторным дисперсионным анализом
AN OVA [33].
Регрессия с фиктивными переменными Однофакторный дисперсионный анализ
ж—ч / — *J^,
*. \˜




= SS.



Я2
Общий F-критерий = F-критерий

Таким образом, мы видим, что регрессионный анализ, в котором единственная независи-
мая переменная с с-уровнями (категориями) может быть записана с — 1 фиктивными пере-
менными, эквивалентен однофакторному регрессионному анализу. Аналогично можно пока-
зать, как выполнить многофакторные дисперсионный и ковариационный анализ, используя
регрессию с фиктивными переменными.
Регрессионный анализ в разных формах широко используют на практике. Врезка 17.1
"Практика маркетинговых исследований" показывает его применение для международ-
ного маркетингового исследования, а врезка 17.2 "Практика маркетинговых исследова-
ний" показывает, как использовать регрессию при изучении этики в маркетинговых ис-
следованиях.

Врезка 17.1. Практика маркетинговых исследований

Что необходимо аввиапассажиру
Длительное время авиакомпании из Азии сталкивались с неопределенностью и жесткой
конкуренцией со стороны авиаперевозчиков из США. Азиатские авиалинии, страдавшие от
снижения числа пассажиров, осознали необходимость объединения усилий для зашиты
своих интересов.
Вторичные данные показали, что к важным факторам, влияющим на выбор пассажи-
рами авиакомпании, относятся: иена авиабилета, соблюдение расписания полетов, пункт
назначения, наличие билетов, обеспечение питанием, сервис во время полета и тому по-
добное. Азиатские авиакомпании, как и конкуренты, предлагали такого рода услуги. Ис-
следование показало, что сервисное обслуживание (включая обеспечение питанием), ве-
роятно, было даже лучше, чем у конкурентов. Так почему же эти компании испытывали
давление со стороны конкурентов? Результаты фокус-групп продемонстрировали, что
программа для часто летаюших пассажиров была решающим фактором для пассажиров в
целом и особенно для бизнес-сегмента. Для анализа данных опроса пассажиров на меж-


673
Глава 17. Корреляция и регрессия
дународных авиалиниях маркетологи применили множественный регрессионный анализ.
Вероятность полета и показатели выбора пассажирами авиакомпании служили зависимой
переменной, а набор сервисных факторов, включая программу для часто летающих пасса-
жиров, были независимыми переменными. В результате маркетологи обнаружили, что,
программа для часто летающих пассажиров влияла на выбор авиалинии. Исходя из этих
исследований, авиакомпании Cathay Pacific, Singapore International Airlines, Thai Airways
International и Malaysian Airline systems ввели совместную программу для часто летающих
пассажиров под названием Asia Plus, доступную для всех пассажиров. Впервые в рамках
этой программы азиатские авиакомпании предлагали бесплатный полет для пассажиров,
регулярно пользующихся их услугами. Для продвижения программы Asia Plus компании
начали крупномасштабную маркетинговую и рекламную кампанию, в которую были
вложены миллионы долларов. Таким образом, у авиалиний Азии значительно увеличи-
лось число клиентов [34).


Врезка 17.2. Практика маркетинговых исследований

Этика и регрессионный анализ
С маркетинговыми исследованиями связано ряд этических проблем. В частности,
маркетологов, проводящих исследования, часто обвиняют в обмане, конфликте интере-
сов, нарушении анонимности, вмешательстве в частную жизнь, фальсификации данных,
распространении ложных результатов исследования, а также в использовании его для
продажи товара. Было выдвинуто предположение, что когда исследователь решается на
неэтичный поступок, на это влияют разного рода организационные факторы, непосредст-
венно связанные с деятельностью его компании. Для их изучения было предпринято ис-
следование с применением множественного регрессионного анализа. В качестве незави-
симых выбраны шесть организационных переменных: наличие этических проблем внут-
ри организации; отношение к этим проблемам руководства компании; этический кодекс,
класс организации, категория отрасли и роль организации. Зависимой переменной слу-
жила оценка респондентами степени распространения неэтичной исследовательской
практики. В результате регрессионного анализа данных выявлено, что четыре из шести
переменных оказывали влияние на степень распространения неэтичной исследователь-
ской практикой. Этими переменными оказались: распространение этических проблем
внутри организации, отношение к этим проблемам руководства компании, роль органи-
зации и категория отрасли [35].



INTERNET И ИСПОЛЬЗОВАНИЕ КОМПЬЮТЕРА
Существует несколько компьютерных программ для выполнения корреляционного анали-
за. В программе SPSS можно использовать CORRELATIONS для вычисления коэффициента
корреляции Пирсона, PARTIAL CORR— для вычисления частных корреляций и NONPAR
CORR — для вычислений коэффициентов ранговой корреляции Спирмена р и Кендалла т.
В программе SAS можно использовать CORR для вычисления коэффициентов корреляций
Пирсона, Спирмена, Кендалла и коэффициентов частных корреляций. В BMDP с помощью
PSD вычисляют коэффициент корреляции Пирсона, с помощью P3S — коэффициенты корре-
ляции Спирмена и Кендалла, с помощью P6R — частные корреляции. В Minitab можно вычис-
лить корреляцию, используя функцию Stat>Basic>Corre]ation. С ее помощью вычисляют коэф-
фициент корреляции Пирсона.
В Excel для определения корреляции обращаются к функции Tools>Data analysis>Corre]ation.
Используйте функцию Correlation Worksheet Function, чтобы определить коэффициент корреля-
ции для двух рядов ячеек.


Часть III. Сбор, подготовка и анализ данных
674
Компьютерные программы для анализа корреляции и регрессии
SPSS
С помощью программы REGRESSION вычисляют уравнения парной и множественной
регрессий, соответствующие статистики и графики. Она также позволяет легко проверить
значения остаточных членов. Можно выполнить и ступенчатую регрессию, Регрессионные
статистики также можно вычислить с помощью программы PLOT, которая строит диаграм-
мы рассеяния и другие виды диаграмм.
SAS
Программа REG является общей процедурой для выполнения регрессионного анализа,
которая подходит для парных и множественных регрессионных моделей при использовании
метода наименьших квадратов. Она позволяет вычислить все соответствующие статистики и
построить график расположения остаточных членов. Могут быть реализованы ступенчатые
методы. Метод ORTHOREG рекомендуют для регрессии в случае некорректных данных,
Программа GLM использует метод наименьших квадратов для подгонки общих линейных
моделей, ее также можно использовать для регрессионного анализа. С помощью программы
NLIN вычисляют параметры нелинейных моделей, используя методы наименьших квадра-
тов или взвешенных наименьших квадратов.
BMDP
Программа P1R вычисляет парные и множественные линейные регрессии. Также можно
вычислить соответствующие статистики и построить диаграммы остаточных членов. P2R —
программа для вычисления ступенчатой регрессии с помощью разных подходов. Можно
предопределить порядок ввода или вывода переменных, определить ввод или вывод пере-
менных по частям, исходя из значения критерия. P9R выполняет все возможные подмноже-
ства регрессии. Эта программа идентифицирует "наилучшие" подмножества предикторов, ее
можно использовать для множественной регрессии без выбора подмножеств. Программа
P4R вычисляет регрессионный анализ по набору главных компонентов, полученных из не-
зависимых переменных.
Mini tab
Регрессионный анализ с помощью функции Stats>Regression может выполнять простой,

<<

стр. 24
(всего 35)

СОДЕРЖАНИЕ

>>