Корреляционно регрессионный анализ пример

7.1 Дисперсионный анализ

Лекция 7. Аналитическая статистик

а

7.1 Дисперсионный анализ.

7.1.1 Однофакторный дисперсионный анализ для несвязанных выборок

7.1.2 Дисперсионный анализ для связанных выборок

7.2 Корреляционный анализ

7.2.1 Понятие корреляционной связи

7.2.2 Коэффициент корреляции Пирсона

7.3 Регрессионный анализ

Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).

Анализ временных рядов применим к одиночным или связанным времен­ным рядам и позволяет выделять различные формы периодичности и взаимовлияния временных процессов, а также осуществлять прогнозирование будущего поведения временного ряда.

Регрессионные процедуры позволяют рассчитать модель, описываемую некоторым уравнени­ем и отражающую функциональную зависимость между эксперименталь­ными количественными переменными, а также проверяют гипотезу об адекватности модели экспериментальным данным. По полученным резуль­татам можно оценить природу и степень зависимости переменных и пред­сказать новые значения зависимой переменной.

Корреляционный анализ – это группа статистических методов, направленная на выявление и математическое представление структурных зависимостей между выборками.

Кластерный анализ осуществляет разбиение объектов на заданное число удаленных друг от друга классов, а также строит дерево классификаций объектов посредством иерархического объединения их в группы (кластеры).

Основной задачей факторного анализа является нахождение в многомерном пространстве первичных переменных (значения которых регистрируются в эксперименте),
сокращенной системы вторичных переменных (факторов). Метод факторного анализа первоначально был разработан в психологии с целью выделения отдельных компонентов человеческого интеллекта из многомерных данных по измерению различных проявлений умственных способностей.

Методы контроля качества ­ предназначены для контроля выпускаемой продукции с целью выявления нарушений и узких мест в организации производства и в технологических процессах, ведущих к снижению качества продукции.


Дисперсионный анализ, предложенный Р. Фишером, является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты экспериментов.

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.

Сущность дисперсионного анализа заключается в расчлене­нии общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и про­верке гипотез о значимости влияния этих факторов на исследуе­мый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловле­на действием регулируемых факторов.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых фак­торов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты экспери­мента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).

Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным. (Суходольский Г.В., 1972; Шеффе Г., 1980).

7.1.1 Однофакторный дисперсионный анализ для несвязанных выборок

Изучается действие только одной переменной (фактора) на исследуемый признак. Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). Например, как изменяется время решения задачи при разных условиях мотивации испытуемых (низкой, средней, высокой мотивации) или при разных способах предъявления задачи (устно, письменно или в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в комнате с преподавателем, в классе). В первом случае фактором является мотивация, во втором – степень наглядности, в третьем – фактор публичности.

В данном варианте метода влиянию каждой из градаций подвергаются разные выборки испытуемых. Градаций фактора должно быть не менее трех.

Пример 1. Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью — 1 слово в 2 секунды, и третьей группе с большой скоростью — 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в табл. 1.

Таблица 1. Количество воспроизведенных слов (по J. Greene, M D’Olivera, 1989, p. 99)

№ испытуемого

Группа 1 низкая скорость

Группа 2 средняя скорость

Группа 3 высокая скорость

1

8

7

4

2

7

8

5

3

9

5

3

4

5

4

6

5

6

6

2

6

8

7

4

суммы

43

37

24

средние

7,17

6,17

4,00

Общая сумма

104

Дисперсионный однофакторный анализ позволяет проверить гипотезы:

H0: различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы

H1: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы.

Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок:

1. подсчитаем SSфакт — вариативность признака, обусловленную действи­ем исследуемого фактора. Часто встречающееся обозначе­ние SS — сокращение от «суммы квадратов» (sum of squares). Это со­кращение чаще всего используется в переводных источниках (см., на­пример: Гласс Дж., Стенли Дж., 1976).

, (1)

где Тс – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. табл. 1);

с – количество условий (градаций) фактора (=3);

n – количество испытуемых в каждой группе (=6);

N – общее количество индивидуальных значений (=18);

— квадрат общей суммы индивидуальных значений (=1042=10816)

Отметим разницу между , в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и , где индивидуальные значения сначала суммируются для получения об­щей суммы, а потом уже эта сумма возводится в квадрат.

По формуле (1) рассчитав фактическую вариативность признака, получаем:

2. подсчитаем SSобщ – общую вариативность признака:

(2)

3. подсчитаем случайную (остаточную) величину SSсл, обусловленную неучтенными факторами:

(3)

4. число степеней свободы равно:

=3-1=2 (4)

5. «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна:

(5)

6. значение статистики критерия Fэмп рассчитаем по формуле:

Для нашего примера имеем: Fэмп=15,72/2,11=7,45

7. определим Fкрит по статистическим таблицам Приложения 3 для df1=k1=2 и df2=k2=15 табличное значение статистики равно 3,68

8. если Fэмп< Fкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера Fэмп > Fкрит (7.45>3.68), следовательно принимается альтернативная гипотеза.

Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (р<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

7.1.2 Дисперсионный анализ для связанных выборок

Метод дисперсионного анализа для связанных выборок применяет­ся в тех случаях, когда исследуется влияние разных градаций фактора или разных условий на одну и ту же выборку испытуемых. Градаций фактора должно быть не менее трех.

В данном случае различия между испытуемыми — возможный са­мостоятельный источник различий. Однофакторный дисперсионный анализ для связанных выборок позволит определить, что перевешивает — тенденция, выраженная кривой изменения фактора, или индивидуальные различия между испытуемыми. Фактор индивидуальных различий может оказаться более значимым, чем фактор изменения экспериментальных условий.

Пример 2. Группа из 5 испытуемых была обследована с помощью трех экспериментальных заданий, направленных на изучение интеллектуальной, настойчивости (Сидоренко Е. В., 1984). Каждому испытуемому инди­видуально предъявлялись последовательно три одинаковые анаграммы: четырехбуквенная, пятибуквенная и шестибуквенная. Можно ли счи­тать, что фактор длины анаграммы влияет на длительность попыток ее решения?

Таблица 2. Длительность решения анаграмм (сек)

Код испытуемого

Условие 1. четырехбуквенная анаграмма

Условие 2. Пятибуквенная анаграмма

Условие 3. шестибуквенная анаграмма

Суммы по испытуемым

1

5

235

7

247

2

7

604

20

631

3

2

93

5

100

4

2

171

8

181

5

35

141

7

183

суммы

51

1244

47

1342

Сформулируем гипотезы. Наборов гипотез в данном случае два.

Набор А.

Н0(А): Различия в длительности попыток решения анаграмм разной длины являются не более выраженными, чем различия, обусловленные случайными причинами.

Н1(А): Различия в длительности попыток решения анаграмм разной длины являются более выраженными, чем различия, обусловлен­ные случайными причинами.

Набор Б.

Но(Б): Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами.

Н1(Б): Индивидуальные различия между испытуемыми являются более выраженными, чем различия, обусловленные случайными причи­нами.

Последовательность операций в однофакторном дисперсионном анализе для связанных выборок:

1. подсчитаем SSфакт — вариативность признака, обусловленную действи­ем исследуемого фактора по формуле (1).

,

2. подсчитаем SSисп — вариативность признака, обусловленную индивидуальными значения испытуемых.

3. подсчитаем SSобщ – общую вариативность признака по формуле (2):

4. подсчитаем случайную (остаточную) величину SSсл, обусловленную неучтенными факторами по формуле (3):

5. число степеней свободы равно (4):

; ; ;

6. «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна (5):

;

7. значение статистики критерия Fэмп рассчитаем по формуле (6 ):

;

9. Fэмп_факт > Fкрит_факт (6,872>4,46), следовательно принимается альтернативная гипотеза.

10. Fэмп_исп < Fкрит_исп (1,054<3,84), следовательно принимается нулевая гипотеза.

Вывод: различия в объеме воспроизведения слов в разных условиях являются более выраженными, чем различия, обусловленные случайными причинами (р<0,05). Индивидуальные различия между испытуе­мыми являются не более выраженными, чем различия, обусловленные случайными причинами.

7.2 Корреляционный анализ

7.2.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, могут ли учащиеся с высоким уровнем тревожности демонстрировать стабильные академичес­кие достижения, или связана ли продолжительность работы учителя в школе с размером его заработной платы, или с чем больше связан уровень умственного развития учащихся — с их успеваемостью по математике или по литературе и т.п.?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь — это согласованное изме­нение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью дру­гого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем боль­ше рост, тем больше вес человека. Однако из этого правила име­ются исключения, когда относительно низкие люди имеют из­быточный вес, и, наоборот, астеники, при высоком росте име­ют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи — это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статисти­ки. «Оба термина, — пишет Е.В. Сидоренко, — корреляционная связь и корреляционная зависимость — часто используются как синони­мы. Зависимость подразумевает влияние, связь — любые согласован­ные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость — это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака (Е.В. Сидоренко, 2000).

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (ли­нейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимо­сти полученных коэффициентов корреляции.

Корреляционные связи различаются по форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решае­мых задач в контрольной сессии. Криволинейной может быть, напри­мер, связь между уровнем мотивации и эффективностью выполнения задачи (см. рис. 1). При повышении мотивации эффективность вы­полнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутст­вует уже снижение эффективности.

Рис.1. Связь между эффективностью решения задачи

и силой мотивационной тен­денции (по J. W. Atkinson, 1974, р 200)

По направлению корреляционная связь может быть положитель­ной («прямой») и отрицательной («обратной»). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значе­ниям одного признака — низкие значения другого. При отрицательной корреляции соотношения обратные. При положительной корреляции коэффициент корреляции имеет положительный знак, например r=+0,207, при отрицательной корреля­ции — отрицательный знак, например r=—0,207.

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции.

Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

Максимальное воз­можное абсолютное значение коэффициента корреляции r=1,00; минимальное r=0,00.

Общая классификация корреляционных связей (по Ивантер Э.В., Коросову А.В., 1992):

сильная, или тесная при коэффициенте корреляции r>0,70;

средняя при 0,50<r<0,69;

умеренная при 0,30<r<0,49;

слабая при 0,20<r<0,29;

очень слабая при r<0,19.

Переменные Х и Y могут быть измерены в разных шкалах, именно это определяет выбор соответствующего коэффициента корреляции (см. табл. 3):

Таблица 3. Использование коэффициента корреляции в зависимости от типа переменных

Тип шкалы

Мера связи

Переменная X

Переменная У

Интервальная или отношений

Интервальная или отношений

Коэффициент Пирсона

Ранговая, интервальная или отношений

Ранговая, интервальная или отношений

Коэффициент Спирмена

Ранговая

Ранговая

Коэффициент Кендалла

Дихотомическая

Дихотомическая

Коэффициент «j»

Дихотомическая

Ранговая

Рангово-бисериальный

Дихотомическая

Интервальная или отношений

Бисериальный

7.2.2 Коэффициент корреляции Пирсона

Термин «корреляция» был введен в науку выдающимся анг­лийским естествоиспытателем Френсисом Гальтоном в 1886 г. Однако точную формулу для подсчета коэффициента корреля­ции разработал его ученик Карл Пирсон.

Коэффициент характеризует наличие только линейной свя­зи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчета коэффициента корреляции построена таким образом, что, если связь между признаками имеет ли­нейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициен­том линейной корреляции Пирсона. Если же связь между пере­менными X и Y не линейна, то Пирсон предложил для оценки тесноты этой связи так называемое корреляционное отношение.

Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 — являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 — следовательно произошла ошибка в вычислениях.

Знак коэффициента корреляции очень важен для интерпре­тации полученной связи. Подчеркнем еще раз, что если знак ко­эффициента линейной корреляции — плюс, то связь между кор­релирующими признаками такова, что большей величине одного признака (переменной) соответствует большая величина дру­гого признака (другой переменной). Иными словами, если один показатель (переменная) увеличивается, то соответственно уве­личивается и другой показатель (переменная). Такая зависимость носит название прямо пропорциональной зависимости.

Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого. Иначе гово­ря, при наличии знака минус, увеличению одной переменной (признака, значения) соответствует уменьшение другой пере­менной. Такая зависимость носит название обратно пропорцио­нальной зависимости.

В общем виде формула для подсчета коэффициента корреля­ции такова:

(7)

где хi — значения, принимаемые в выборке X,

yi — значения, принимаемые в выборке Y;

— средняя по X, — средняя по Y.

Расчет коэффициента корреляции Пирсона предполагает, что переменные Х и У распределены нормально.

В формуле (7) встречается величина при делении на n (число значений переменной X или Y) она называется ковариацией. Формула (7) предполагает также, что при расчете коэффициентов корреля­ции число значений переменной Х равно числу значений переменной Y.

Число степеней свободы k=n-2.

Пример 3. 10 школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли вза­имосвязь между временем решения этих задач? Переменная X — обозначает среднее время реше­ния наглядно-образных, а переменная Y— сред­нее время решения вербальных заданий тестов .

Решение. Представим исходные данные в виде таблицы 4, в которой введены дополнительные столб­цы, необходимые для расчета по формуле (7).

Таблица 4

Рассчитываем эмпирическую величину коэффициента корре­ляции по формуле (7):

Определяем критические значения для полученного коэффи­циента корреляции по таблице Приложения 3. При нахождении критических значений для вычисленного коэффициента линейной корреляции Пирсона число степе­ней свободы рассчитывается как k = n – 2 = 8.

ккрит=0,72 > 0,54 , следовательно, гипотеза Н1 отвергается и при­нимается гипотеза H0, иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана.

7.3 Регрессионный анализ

Это группа методов, направ­ленных на выявление и математическое выражение тех измене­ний и зависимостей, которые имеют место в системе случайных величин. Если такая система моделирует педагогическую, то, следовательно, путем регрессионного анализа выявляются и ма­тематически выражаются психолого-педагогические явления и зависимости между ними. Характеристики этих явлений изме­ряются в разных шкалах, что накладывает ограничения на спо­собы математического выражения изменений и зависимостей, которые изучаются педагогом-исследователем.

Методы регрессионного анализа рассчитаны, главным обра­зом, на случай устойчивого нормального распределе­ния, в котором изменения от опыта к опыту проявляются лишь в виде независимых испытаний.

Выделяются различные формальные задачи регрессионного анализа. Они могут быть простыми или сложными по формулировкам, по математиче­ским средствам и трудоемкости. Перечислим и рассмотрим на примерах те из них, которые представляются основными.

Первая задача — выявить факт изменчивости изучаемого яв­ления при определенных, но не всегда четко фиксированных условиях. В предыдущей лекции мы уже решали эту задачу с помощью параметрических и непараметрических критериев.

Вторая задача — выявить тенденцию как периодическое изменение признака. Сам по себе этот признак мо­жет быть зависим или не зависим от переменной-условия (он может зависеть от неизвестных или неконтролируемых иссле­дователем условий). Но это не важно для рассматриваемой за­дачи, которая ограничивается лишь выявлением тенденции и ее особенностей.

Проверка гипотез об отсутствии или наличии тенденции мо­жет выполняться с использованием кри­терия Аббе. Критерий Аббе предназначен для проверки гипотез о равенстве средних значений, установленных для 4<n<60 взаимно независимых нормально распределенных выборок.

Эмпирическое значение критерия Аббе вычисля­ется по формуле:

(8)

где — среднее арифметическое из выборки;

п – число значений в выборке.

Согласно критерию, гипотеза о равенстве средних отклоняется (принимается альтернативная гипотеза), если значение статистики . Табличное (критическое) значение статистики определяется из таблицы для q-критерия Аббе, которая с сокращениями заимствована из книги Л.Н. Болышева и Н.В. Смирнова (см. Приложение 3).

В качестве таких величин, для которых применим критерий Аббе, могут высту­пать выборочные доли или проценты, средние арифметические и другие статистики выборочных распределений, если они близ­ки к нормальному (или предварительно нормализованы). По­этому критерий Аббе может найти широкое применение в пси­холого-педагогических исследованиях. Рассмотрим пример вы­явления тенденции с помощью критерия Аббе.

Пример 4. В табл. 5 представлена динамика процента студентов IV курса, на «отлично» сдававших экзамены в зимние сессии на протяжении 10 лет работы одного из факультетов университета. Требуется установить, есть ли тенденция к повышению успеваемости.

Таблица 5. Динамика процента отличников четвертого курса за 10 лет работы факультета

Учебный год

%

1995-96

10,8

1996-97

16,4

1997-98

17,4

1998-99

22,0

1999-00

23,0

2000-01

21,5

2001-02

26,1

2002-03

17,2

2003-04

27,5

2004-05

33,0

В качестве нулевой проверяем гипотезу об отсутствии тенденции, т. е. о равенстве процентов.

Усредняем проценты, приведенные в табл. 5, находим, что =21,5. Вычисляем разности между последующими и предыдущими зна­чениями в выборке, возводим их в квадрат и суммируем:

Аналогично вычисляет знаменатель в формуле (8), суммируя квадраты разностей между каждым измерением и средним арифметическим:

Теперь по формуле (8) получаем:

В таблице критерия Аббе из Приложения 3 находим, что при n=10 и уровне значимости 0,05 критическое значение , что больше полученного нами 0,41, следовательно гипотезу о равенстве процента «отличников» приходится отклонить, и можно принять альтернативную гипотезу о наличии тенденции.

Третья задача – это выявление закономерности, выра­женной в виде корреляционного уравнения (регрессии).

Пример 5. Эстонский исследователь Я. Микк , изучая трудности по­нимания текста, установил «формулу читаемости», которая представляет собой множественную линейную регрессию:

— оценка трудности понимания текста,

где х1 — длина самостоятельных предложений в количестве печат­ных знаков,

х2 — процент различных незнакомых слов,

х3 — абстрактность повторяющихся понятий, выраженных существительными.

Сравнивая между собой коэффициенты регрессии, выражающие степень влияния факторов, можно видеть, что трудность понимания текста опреде­ляется прежде всего его абстрактностью. Вдвое мень­ше (0,27) трудность понимания текста зависит от числа незнакомых слов и практически она совсем не зависит от длины предложении.

Корреляции для начинающих

Апдейт для тех, кто сочтет статью полезной и занесет в избранное. Есть приличный шанс, что пост уйдет в минуса, и я буду вынужден унести его в черновики. Сохраняйте копию!
Краткий и несложный материал для неспециалистов, рассказывающий в наглядной форме о различных методах поиска регрессионных зависимостей. Это все и близко не академично, зато надеюсь что понятно. Прокатит как мини-методичка по обработке данных для студентов естественнонаучных специальностей, которые математику знают плохо, впрочем как и автор. Расчеты в Матлабе, подготовка данных в Экселе — так уж повелось в нашей местности

Введение

Зачем это вообще надо? В науке и около нее очень часто возникает задача предсказания какого-то неизвестного параметра объекта исходя из известных параметров этого объекта (предикторов) и большого набора похожих объектов, так называемой учебной выборки. Пример. Вот мы выбираем на базаре яблоко. Его можно описать такими предикторами: красность, вес, количество червяков. Но как потребителей нас интересует вкус, измеренный в попугаях по пятибалльной шкале. Из жизненного опыта нам известно, что вкус с приличной точностью равен 5*красность+2*вес-7*количество червяков. Вот про поиск такого рода зависимостей мы и побеседуем. Чтобы обучение пошло легче, попробуем предсказать вес девушки исходя из ее 90/60/90 и роста.

Исходные данные

В качестве объекта исследования возьму данные о параметрах фигуры девушек месяца Плейбоя. Источник — www.wired.com/special_multimedia/2009/st_infoporn_1702, слегка облагородил и перевел из дюймов в сантиметры. Вспоминается анекдот про то, что 34 дюйма — это как два семнадцатидюймовых монитора. Также отделил записи с неполной информацией. При работе с реальными объектами их можно использовать, но сейчас они нам только мешают. Зато их можно использовать для проверки адекватности полученных результатов. Все данные у нас непрерывные, то есть грубо говоря типа float. Они приведены к целым числам только чтобы не загромождать экран. Есть способы работы и с дискретными данными — в нашем примере это например может быть цвет кожи или национальность, которые принимают одно из фиксированного набора значений. Это больше имеет отношение к методам классификации и принятия решений, что тянет еще на один мануал. Data.xls В файле два листа. На первом собственно данные, на втором — отсеянные неполные данные и набор для проверки нашей модели.

Обозначения

W — вес реальный
W_p — вес, предсказанный нашей моделью
S — бюст
T — талия
B — бедра
L — рост
E — ошибка модели

Как оценить качество модели?

Задача нашего упражнения — получить некую модель, которая описывает какой-либо объект. Способ получения и принцип работы конкретной модели нас пока не волнует. Это просто функция f(S, T, B, L), которая выдает вес девушки. Как понять, какая функция хорошая и качественная, а какая не очень? Для этого используется так называемая fitness function. Самая классическая и часто используемая — это сумма квадратов разницы предсказанного и реального значения. В нашем случае это будет сумма (W_p — W)^2 для всех точек. Собственно, отсюда и пошло название «метод наименьших квадратов». Критерий не лучший и не единственный, но вполне приемлемый как метод по умолчанию. Его особенность в том, что он чувствителен по отношению к выбросам и тем самым, считает такие модели менее качественными. Есть еще всякие методы наименьших модулей итд, но сейчас нам это пока не надо.

Простая линейная регрессия

Самый простой случай. У нас одна переменная-предиктор и одна зависимая переменная. В нашем случае это может быть например рост и вес. Нам надо построить уравнение W_p = a*L+b, т.е. найти коэффициенты a и b. Если мы проведем этот расчет для каждого образца, то W_p будет максимально совпадать с W для того же образца. То есть у нас для каждой девушки будет такое уравнение:
W_p_i = a*L_i+b
E_i = (W_p-W)^2
Общая ошибка в таком случае составит sum(E_i). В результате, для оптимальных значений a и b sum(E_i) будет минимальным. Как же найти уравнение?

Матлаб

Для упрощения очень рекомендую поставить плагин для Excel под названием Exlink. Он в папке matlab/toolbox/exlink. Очень облегчает пересылку данных между программами. После установки плагина появляется еще одно меню с очевидным названием, и автоматически запускается Матлаб. Переброс информации из Экселя в Матлаб запускается командой «Send data to MATLAB», обратно, соответственно, — «Get data from MATLAB». Пересылаем в Матлаб числа из столбца L и отдельно из W, без заголовков. Переменные назовем так же. Функция расчета линейной регрессии — polyfit(x,y,1). Единица показывает степень аппроксимационного полинома. У нас он линейный, поэтому единица. Получаем наконец-то коэффициенты регрессии: regr=polyfit(L,W,1). a мы можем получить как regr(1), b — как regr(2). То есть мы можем получить наши значения W_p: W_p=L*repr(1)+repr(2). Вернем их назад в Эксель.

Графичек

Мда, негусто. Это график W_p(W). Формула на графике показывает связь W_p и W. В идеале там будет W_p = W*1 + 0. Вылезла дискретизация исходных данных — облако точек клетчатое. Коэффициент корреляции ни в дугу — данные слабо коррелированы между собой, т.е. наша модель плохо описывает связь веса и роста. По графику это видно как точки, расположенные в форме слабо вытянутого вдоль прямой облака. Хорошая модель даст облако растянутое в узкую полосу, еще более плохая — просто хаотичный набор точек или круглое облако. Модель необходимо дополнить. Про коэффициент корреляции стоит рассказать отдельно, потому что его часто используют абсолютно неправильно.

Расчет в матричном виде

Можно и без всяких полифитов справиться с построением регрессии, если слегка дополнить столбец с величинами роста еще одним столбцом, заполненным единицами: L(:,2)=1. Двойка показывает номер столбца, в который пишутся единицы. Тогда коэффициенты регрессии можно будет найти по такой формуле: repr=inv(L’*L)*L’*W. И обратно, найти W_p: W_p=L*repr. Когда осознаешь магию матриц, пользоваться функциями становится неприкольно. Единичный столбец нужен для расчета свободного члена регрессии, то есть просто слагаемого без умножения на параметр. Если его не добавлять, то в регрессии будет всего один член: W_p=a*L. Достаточно очевидно, что она будет хуже по качеству, чем регрессия с двумя слагаемыми. В целом, избавляться от свободного члена надо только в том случае, если он точно не нужен. По умолчанию он все-таки присутствует.

Мультилинейная регрессия

В русскоязычной литературе прошлых лет упоминается как ММНК — метод множественных наименьших квадратов. Это расширение метода наименьших квадратов для нескольких предикторов. То есть у нас в дело идет не только рост, но и все остальные, так сказать, горизонтальные размеры. Подготовка данных точно такая же: обе матрицы в матлаб, добавление столбца единиц, расчет по той же самой формуле. Для любителей функций есть b = regress(y,X). Эта функция также требует добавления столбца единиц. Повторяем расчет по формуле из раздела про матрицы, пересылаем в Эксель, смотрим.

Попытка номер два

А так получше, но все равно не очень. Как видим, клетчатость осталась только по горизонтали. Никуда не денешься, исходные веса были целыми числами в фунтах. То есть после конверсии в килограммы они ложатся на сетку с шагом около 0.5. Итого финальный вид нашей модели:
W_p = 0.2271*S + 0.1851*T + 0.3125*B + 0.3949*L — 72.9132
Объемы в сантиметрах, вес в кг. Поскольку у нас все величины кроме роста в одних единицах измерения и примерно одного порядка по величине (кроме талии), то мы можем оценить их вклады в общий вес. Рассуждения примерно в таком духе: коэффициент при талии самый маленький, равно как и сами величины в сантиметрах. Значит, вклад этого параметра в вес минимален. У бюста и особенно у бедер он больше, т.е. сантиметр на талии дает меньшую прибавку к массе, чем на груди. А больше всего на вес влияет объем задницы. Впрочем, это знает любой интересующийся вопросом мужчина. То есть как минимум, наша модель реальной жизни не противоречит.

Валидация модели

Название громкое, но попробуем получить хотя бы ориентировочные веса тех девушек, для которых есть полный набор размеров, но нет веса. Их 7: с мая по июнь 1956 года, июль 1957, март 1987, август 1988. Находим предсказанные по модели веса: W_p=X*repr
Что ж, по крайней мере в текстовом виде выглядит правдоподобно. А насколько это соответствует реальности — решать вам

Применимость

Если вкратце — полученная модель годится для объектов, подобных нашему набору данных. То есть по полученным корреляциям не стоит считать параметры фигур женщин с весом 80+, возрастом, сильно отличающимся от среднего по больнице итд. В реальных применениях можно считать, что модель пригодна, если параметры изучаемого объекта не слишком отличаются от средних значений этих же параметров для исходного набора данных. Могут возникнуть (и возникнут) проблемы, если у нас предикторы сильно коррелированы между собой. То есть, например это рост и длина ног. Тогда коэффициенты для соответствующих величин в уравнении регрессии будут определены с малой точностью. В таком случае надо выбросить один из параметров, или воспользоваться методом главных компонент для снижения количества предикторов. Если у нас малая выборка и/или много предикторов, то мы рискуем попасть в переопределенность модели. То есть если мы возьмем 604 параметра для нашей выборки (а в таблице всего 604 девушки), то сможем аналитически получить уравнение с 604+1 слагаемым, которое абсолютно точно опишет то, что мы в него забросили. Но предсказательная сила у него будет весьма невелика. Наконец, далеко не все объекты можно описать мультилинейной зависимостью. Бывают и логарифмические, и степенные, и всякие сложные. Их поиск — это уже совсем другой вопрос.

Планы на будущее

Если хорошо пойдет, то постараюсь в том же стиле изложить метод главных компонент для снижения размерности данных, регрессию на главные компоненты, метод PLS, начала кластерного анализа и методов классификации объектов. Если хабрапублика не очень хорошо примет, то буду стараться учесть замечания. Если вообще никак — то забью на просвещение ширнармасс вообще, мне и своих студентов хватит. До новых встреч!

Семинар по семи инструментам контроля качества (диаграмма Парето, причинно-следственная диаграмма, гистограммы, контрольные карты, форма для записи данных, корреляционная диаграмма и стратификация) 128 15 128  

При составлении корреляционной диаграммы следует учитывать следующие моменты  
Корреляционная диаграмма иллюстрирует, что точки, расположенные в I секторе, будут превышать средние значения, а точки, расположенные в III секторе, окажутся меньше средних значений, следовательно, при увеличении х в обоих секторах увеличивается и у, или при увеличении у увеличивается и х. С другой стороны, когда на этой диаграмме во II и IV секторах будет нанесено много точек, тогда, при увеличении х соответственно уменьшается у.  
Если заполнить корреляционную диаграмму, то она будет выглядеть так, как изображено на рис. 9.2. Рассматривая эту диаграмму, мы не видим значительно рассеянных точек. Поэтому можно полагать, что имеется корреляция.  
Взяв за основу ситуацию примера 9.1, описываем метод легко осуществимой проверки при помощи бумаги для биномиального распределения. На корреляционной диаграмме (см. рис. 9.2) с 20 нанесенными точками протягиваются медианы по отношению к х, у, которые разделяют диаграмму на четыре сектора, после чего производится подсчет точек. Поскольку пг = 9, 2 = 1, п3 = 9, п4 = 1, то определяется сумма по I и III секторам и сумма по II и IV секторам  
Построенные на прямоугольной координатной сетке графики или диаграммы связывают две переменные величины. Их используют для быстрого нахождения функции по соответствующему значению аргумента. В анализе применяют диаграммы временных рядов, диаграммы сравнения, кривые распределения, корреляционные поля. Особенно широко используют диаграммы для сравнения плановых показателей с отчетными, для характеристики изменения показателей во времени, для показа структуры того или иного явления.  
В экономическом анализе применяются почти все виды графиков диаграммы сравнения, диаграммы временных рядов, кривые распределения, графики корреляционного поля, статистические картограммы. Особенно широко распространены в анализе диаграммы сравнения — для сравнения отчетных показателей с плановыми, предшествующих периодов и передовых предприятий отечественных или зарубежных. Для наглядного изображения динамики экономических явлений (а в анализе с динамическими рядами приходится иметь дело очень часто) используются диаграммы временных рядов.  
Графики и диаграммы незаменимы для иллюстрации результатов экономико-математических методов, которые находят все более широкое применение в экономическом анализе. К ним относятся корреляционный и регрессионный анализ, линейное, динамическое и выпуклое программирование, теории игр и теории массового обслуживания, матричные методы, эвристические методы и др. Об этом более подробно — в следующей главе.  

Нормативы для серийного производства, установленные по диаграмме корреляционной зависимости межоперационного времени от коэффициента специализации рабочих мест и числа операций, проходимых деталями в процессе обработки, содержат определенную закономерность. Во-первых, чем выше коэффициент специализации рабочих мест, тем больше величина межоперационного времени.  
На рис. 13.5-13.8 показаны диаграммы корреляционных интегралов для четырех рынков. Линейные области на каждой диаграмме могут быть использованы для построения регрессий. На рис. 13.9-13.12 показана сходимость к фрактальной размерности. В табл. 13.1 дана сводка результатов.  
Обращаясь к диаграмме рассеяния (рис. 6.1), отметим, что через точки на графике можно провести несколько прямых линий, удовлетворяющих выражению (6.1), хотя в действительности невозможно построить одну прямую линию, которая пройдет через все точки корреляционного поля. Отсюда очевидно, что нужно выбрать лишь одну линию.  
IV. Диаграммы 1. Диаграммы кон- корреляционное поле точечные и фоновые ДГ  
Диаграммы степе- а) корреляционные эллипсы замкнутые контуры корреляционного  
По этим результатам с использованием компьютера строится диаграмма рассеивания в корреляционном поле. Если последовательность точек диаграммы рас-  
Диаграмма Парето — графический метод ранжирования факторов. Ранжирование можно осуществлять с применением корреляционно-регрессионного анализа, метода анализа структуры, экспертного метода. Порядок построения диаграммы Парето 1) выбор проблем (факторов, показателей и т.п.), которые необходимо проанализировать и решить 2) ранжирование проблем 3) выбор критерия сравнения и периода для анализа 4) построение диаграммы нарастающим итогом слева направо (рис. 17.4) 5) анализ диаграммы и разработка мероприятий по улучшению  
Для установления силы влияния (корреляции) одного фактора на другой и направленности взаимодействия строят корреляционные поля (диаграммы рассеяния) — рис. 17.8. Анализ рисунка показывает, что связь между Х и Y тесная, прямолинейная,  

Рис. 17.8. Корреляционные поля (диаграммы рассеяния)

Для установления силы влияния (корреляции) одного фактора на другой и направленности взаимодействия строят корреляционные поля (диаграммы рассеяния) — рис. 4.8.  
Диаграмма Парето — графический метод ранжирования факторов. Ранжирование можно осуществлять с применением корреляционно-регрессионного анализа, метода анализа структуры, экспертного метода. Порядок построения диаграммы Парето  
При ЭА находит применение табличное и графическое отражение аналитических данных. При этом каждая таблица должна иметь общий заголовок, систему горизонтальных строк и вертикальных граф. Подлежащее таблиц показывает, о чем идет речь (оно содержит перечень показателей, характеризующих явление), а сказуемое — указывает, какими признаками характеризуется подлежащее. Таблицы бывают простые, групповые и комбинированные (материал подлежащего разбивается на группы и подгруппы). Графическое отражение информации осуществляется с помощью диаграмм (столбиковых, круговых, фигурных и др.), кривых распределения, графиков корреляционного поля, статистических картограмм, что позволяет получить обобщающую картину положения дел в статике и динамике.  
Обычно корреляционной диаграммой (s atter diagram) называют такую диаграмму, на которую, как это показано на рис. 9.1, нанесены точки значений двух видов характеристик х и у, относя-  
Так, например, табл. 9.2 представляет собой корреляционную таблицу. взаимосвязи М ЖЩ ростом, человека х и массой ег.о хел.а1 . Ее легко построить, если на корреляционной диаграмме создать сетку в виде шахматной доски, пользуясь линиями, разграничивающими группы х.я у,, и определить число точек внутри каждой клетки. -. . . …….  
ДИАГРАММА РАССЕЯНИЯ в математической статистике — диаграмма, на которой в прямоугольной системе координат располагаются точки (х., у у, где/= 1, 2,…, п, ии — количество наблюдаемых пар значений переменных х и у. (Примеры Д.р. см. в ст. «Корреляционный анализ «.)  
В программу включены следующие вопросы элементарные сведения о качестве и его контроле, статистические методы, общая теория управления, политика управляющего и эффективность управленческой деятельности, организация и руководство кружками качества, цена качества, создание новых товаров и их совершенствование, постановка эксперимента, текущий контроль качества, инспекционный контроль, информационное обеспечение, система управления качеством, усложненные методы статконтроля, партионный контроль. При изучении статистических методов учащиеся знакомятся с гистограммами, диаграммами Парето, картами контроля, причинно-следственными зависимостями, диаграммами распределения и т. д. В изучение более сложных методов входит регрессионный и корреляционный анализы, карты статистических зависимостей и т. д. При обучении широко используются радио- и телепрограммы, посещение других предприятий, использующих всесторонний контроль качества1.  
В специальной литературе приводятся несколько вариантов набора инструментов качества. Например, в рассматривается семь инструментов качества метод расслоения информации по группам факторов, влияющих на качество процессов, графики, диаграммы Парето, причинно-следственные диаграммы (диаграмма Исикавы), гистограммы, диаграммы разброса, контрольные карты и контрольные листки. В этом же источнике приводятся семь дополнительных инструментов качества диаграммы сродства (сходства), диаграммы зависимостей, системные (древовидные) диаграммы, матричные диаграммы, сетевые графы, диаграммы планирования процессов, метод анализа матричных данных. В приведены девять инструментов качества 1) построение схемы процесса 2) контрольный листок 3) мозговая атака 4) диаграмма Парето 5) причинно-следственная диаграмма (диаграмма Исикавы) 6) временной ряд 7) гистограмма 8) диаграмма рассеяния (корреляционное поле) 9) контрольная карта.  
Совершенная мультиколлинеарность является скорее теоретическим примером. Реальна же ситуация, когда между объясняющими переменными существует довольно сильная корреляционная зависимость, а не строгая функциональная. Такая зависимость называется несовершенной мулътиколлинеарностъю. Она характеризуется высоким коэффициентом корреляции р между соответствующими объясняющими переменными. Причем, если значение р по абсолютной величине близко к единице, то говорят о почти совершенной мульти-коллинеарности. В любом случае мультиколлинеарность затрудняет разделение влияния объясняющих факторов на поведение зависимой переменной и делает оценки коэффициентов регрессии ненадежными. Данный вывод наглядно подтверждается с помощью диаграммы Вен-на (рис. 10.1).  
Система должна предусматривать наличие большого количества разнотипных двухмерных и трехмерных графоаналитических элементов и специализированной аналитической графики. К специализированной аналитической графике могут быть отнесены двухмерные и трехмерные линейные, символьные графики, круговые и кван-тильные диаграммы, гистограммы, периодограммы и многомерные спектры, корреляционные поля, кубы и т.п. Желательно наличие презентационной, например ленточной, графики, возможностей графической анимации изображений, а также интерактивного графического анализа данных.  

Метод корреляционно-регрессионного анализа

Корреляционно-регрессионный анализ — один из наиболее широко распространенных и гибких приемов обработки стати­стических данных. Данный метод начинает свой отсчет с 1795 г., когда английский исследователь Фрэнсис Гальтон предложил теоретические основы регрессионного метода, а в 1801 г. рассчи­тал с его помощью траекторию полета планеты Церера. Им же введен в статистику термин «корреляция». Можно также назвать

французского кристаллографа Огюста Браве, немецкого физика Густава Теодора Фехнера, английского экономиста и статистика Фрэнсиса Эджуорта, впервые высказывавших в середине—конце XIX в. идеи о количественном измерении связей явлений. В раз­ное время над теорией анализа работали известные в области теоретической статистики ученые Карл Фридрих Гаусс (Герма­ния), Адриен Мари Лежандр (Франция), Карл Пирсон (Англия) и др.

Корреляционно-регрессионный анализ состоит в построении и анализе экономико-математической модели в виде уравнения регрессии (корреляционной связи), характеризующего зависи­мость признака от определяющих его факторов.

Корреляционно-регрессионный анализ предполагает сле­дующие этапы:

• предварительный анализ (здесь формулируются основные направления всего анализа, определяется методика оценки ре­зультативного показателя и перечень наиболее существенных факторов);

• сбор информации и ее первичная обработка;

• построение модели (один из важнейших этапов);

• оценка и анализ модели.

Задачи корреляционного анализа сводятся к выделению важ­нейших факторов, которые влияют на результативный признак, измерению тесноты связи между факторами, выявлению неиз­вестных причин связей и оценке факторов, оказывающих макси­мальное влияние на результат.

Задачи регрессионного анализа заключаются в установлении формы зависимости, определении уравнения регрессии и его ис­пользовании для оценки неизвестных значений зависимой пере­менной, прогнозировании возможных значений результативного признака при задаваемых значениях факторных признаков.


При использовании корреляционно-регрессионного анализа необходимо соблюдать следующие требования.

1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.

2. Все факторные признаки должны иметь количественное (цифровое) выражение.

3. Необходимо наличие массовости значений изучаемых по­казателей.

4. Причинно-следственные связи между явлениями и процес­сами могут быть описаны линейной или приводимой к линейной формой зависимости.

5. Не должно быть количественных ограничений на парамет­ры модели связи.

6. Необходимо обеспечить постоянство территориальной и временной структуры изучаемой совокупности.

Корреляция — статистическая зависимость между случай­ными величинами, не имеющими строго функционального харак­тера, при которой изменение одной из случайных величин приво­дит к изменению математического ожидания другой.

В статистике принято различать следующие варианты зави­симостей.

1. Парная корреляция — связь между двумя признаками (ре­зультативным и факторным).

2. Частная корреляция — зависимость между результатив­ным и одним из факторных признаков при фиксированном значе­нии других факторных признаков.

3. Множественная корреляция — зависимость результатив­ного и двух или более факторных признаков, включенных в ис­следование.

Корреляционная связь — частный случай стохастической связи и состоит в том, что разным значениям одной переменной соответствуют различные средние значения другой.

Обязательное условие применения корреляционного метода — массовость значений изучаемых показателей, что позволяет вы­явить тенденцию, закономерность развития, форму взаимосвязи между признаками. Тогда, в соответствии с законом больших, чи­сел, влияние других факторов сглаживается, нейтрализуется. На­личие корреляционной связи присуще многим общественным явлениям.

Показатели тесноты связи между признаками называют ко­эффициентами корреляции. Их выбор зависит от того, в каких шкалах измерены признаки. Основными шкалами являются:

1) номинальная шкала (наименований) предназначена для описания принадлежности объектов к определенным социальным группам (например, коэффициенты ассоциации и контингенции, коэффициенты Пирсона и Чупрова);

2) шкала порядка (ординальная) применяется для измерения упорядоченности объектов по одному или нескольким признакам (например, коэффициенты Спирмена и Кенделла);

3) количественная шкала используется для описания количе­ственных показателей — например, линейный коэффициент кор­реляции и корреляционное отношение.

Корреляционный анализ — метод статистического исследо­вания экспериментальных данных, позволяющий определить сте­пень линейной зависимости между переменными.

Парная линейная корреляция — простейшая система корре­ляционной связи, представляющая линейную связь между двумя признаками. Ее практическое значение состоит в выделении од­ного важнейшего фактора, который и определяет вариацию ре­зультативного признака.

Для определения степени тесноты парной линейной зависи­мости служит линейный коэффициент корреляции, который был впервые введен в начале 1890-х гг. Пирсоном, Эджуортом и Велдоном. В теории разработаны и на практике применяются раз­личные варианты формул расчета данного коэффициента:

, где ,

где n — число наблюдений.

При малом числе наблюдений для практических вычислений линейный коэффициент корреляции удобнее исчислять по формуле:

,

где r принимает значения в пределах от -1 до 1.

Чем ближе линейный коэффициент корреляции по абсолют­ной величине к I, тем теснее связь. С другой стороны, если он ра­вен 1, то зависимость является не стохастической, а функциональ­ной. Знак при нем указывает направление связи: знак «-» соответ­ствует обратной зависимости, «+» — прямой. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.

Степень взаимного влияния факторов в зависимости от ко­эффициента корреляции приведена в табл. 1.

Таблица 1

Количественная оценка тесноты связи

при различных значениях коэффициента корреляции

После того, как с помощью корреляционного анализа выяв­лено наличие статистических связей между переменными и оце­нена степень их тесноты, обычно переходят к математическому описанию зависимостей, то есть к регрессионному анализу.

Термин «регрессия» (произошел от латинского regression — отступление, возврат к чему-либо) был также введен Ф. Гальтоном в 1886 г. Обрабатывая статистические данные в связи с ана­лизом наследственности роста, он отметил прямую зависимость между ростом родителей и их детей (наблюдение само по себе не слишком глубокое). Но относительно старших сыновей ему уда­лось установить более тонкую зависимость. Он рассчитал, что средний рост старшего сына лежит между средним ростом насе­ления и средним ростом родителей. Если рост родителей выше среднего, то их наследник, как правило, ниже; если средний рост родителей ниже среднего, то рост их потомка выше. Когда Гальтон нанес на график средний рост старших сыновей для различ­ных значений среднего роста родителей, он получил почти пря­мую линию, проходящую через нанесенные точки.

Поскольку рост потомства стремится двигаться к среднему, Гальтон назвал это явление регрессией к среднему состоянию, а ли­нию, проходящую через точки на графике, — линией регрессии.

Регрессивный анализ применяется в тех случаях, когда необ­ходимо отыскать непосредственно вид зависимости х и у. При этом предполагается, что независимые факторы не случайные величины, а результативный показатель у имеет постоянную, не­зависимую от факторов дисперсию и стандартное отклонение.

Одна из проблем построения уравнения регрессии — размер­ность, то есть определение числа факторных признаков, вклю­чаемых в модель. Их число должно быть оптимальным.

Сокращение размерности за счет исключения второстепен­ных, несущественных факторов позволяет получить модель, бы­стрее и качественнее реализуемую. В то же время построение мо­дели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.

При построении модели число факторных признаков должно быть в 5-6 раз меньше объема изучаемой совокупности.

Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависи­мость является линейной и выражается уравнением прямой.

Линейная регрессия сводится к нахождению уравнения вида:

где х — индивидуальное значение факторного признака; а0, а1 — параметры уравнения прямой (уравнения регрессии); ух — теоре­тическое значение результирующего фактора.

Данное уравнение показывает среднее значение изменения ре­зультативного признака х на одну единицу его измерения. Знак па­раметра показывает направление этого изменения. На практике по­строение линейной регрессии сводится к оценке ее параметров а0, а1.

При классическом подходе параметры уравнения а0, а1 нахо­дятся методом наименьших квадратов, который позволяет полу­чить такие оценки параметров, при которых сумма квадратов от­клонений фактических значений результативного признака у от расчетных, теоретических (ух) была бы минимальной.

Для нахождения минимума данной функции приравняем к нулю частные производные и тем самым получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

где

В уравнении прямой параметр а0 экономического смысла не имеет, параметр а1 является коэффициентом регрессии и показы­вает изменение результативного признака при изменении фак­торного на единицу.

Или по следующим формулам:

, где , , ,

Между линейным коэффициентом корреляции и коэффици­ентом регрессии существует определенная зависимость, выра­женная формулой

Часто исследуемые признаки имеют разные единицы измере­ния, поэтому для оценки влияния факторного признака на ре­зультативный применяется коэффициент эластичности. Он рас­считывается для каждой точки и в среднем по всей совокупности по формуле:

где у’х — первая производная уравнения регрессии.

Коэффициент эластичности показывает, на сколько процен­тов изменяется результативный признак при изменении фактор­ного признака на 1%.

Чтобы иметь возможность судить о сравнительной связи влияния отдельных факторов и о тех резервах, которые в них за­ложены, должны быть вычислены частные (средние) коэффициенты эластичности.

Различия в единицах измерения факторов устраняют с помо­щью частных (средних) коэффициентов эластичности, которые рассчитываются по формуле:

где аi — коэффициент регрессии при факторе х; — средние значения факторного и результативного признаков.

Частные коэффициенты эластичности показывают, на сколь­ко процентов в среднем изменяется анализируемый показатель с изменением на 1 % каждого фактора при фиксированном поло­жении других факторов.

Альтернативным показателем степени зависимости между двумя переменными является линейный коэффициент детерми­нации, представляющий собой квадрат линейного коэффициента корреляции r2. Его числовое значение всегда заключено в пределе от 0 до 1. Он характеризует долю вариации (разброса) зависимой переменной. Значение коэффициента детерминации непосредст­венно указывает степень влияния независимого фактора на ре­зультативный показатель.

Степень тесноты связи полностью соответствует теоретиче­скому корреляционному отношению, которое является универ­сальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.

С помощью теоретического корреляционного отношения из­меряется теснота связи любой формы, а посредством линейного коэффициента корреляции — только прямолинейной связи.

Теоретическое корреляционное отношение рассчитывается по формулам:

где — факторная дисперсия; — общая дисперсия.

Для упрощения расчетов меры тесноты корреляционной свя­зи часто применятся индекс корреляционной связи, который оп­ределяется по формулам:

где — остаточная дисперсия.

Линейные модели отличаются простой интерпретируемостью и хорошо разработанными приемами оценивания коэффициентов регрессии. Обычно для них все три наиболее распространенных метода статистического оценивания — максимального правдопо­добия, наименьших квадратов и моментов — дают оптимальные решения и соответственно приводят к оценкам, обладающим ли­нейностью, эффективностью, несмещенностью. Принимая во внимание, что линейные регрессионные модели не могут с оди­наково высокой степенью достоверности описывать многообраз­ные процессы, происходящие в реальности, их дополняет боль­шой класс нелинейных моделей. Для последних, однако, с учетом их сложности и специфичности приемов параметрического оце­нивания предпочтительным остается приведение к простой ли­нейной форме.

Корреляционный анализ. Подробный пример решения

Целью корреляционного анализа является выявление оценки силы связи между случайными величинами (признаками), которые характеризует некоторый реальный процесс.
Задачи корреляционного анализа:
а) Измерение степени связности (тесноты, силы, строгости, интенсивности) двух и более явлений.
б) Отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связности между явлениями. Существенные в данном аспекте факторы используют далее в регрессионном анализе.
в) Обнаружение неизвестных причинных связей.

Формы проявления взаимосвязей весьма разнообразны. В качестве самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи.
Корреляционная связь проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятностных значений независимой переменной. Связь называется корреляционной, если каждому значению факторного признака соответствует вполне определенное неслучайное значение результативного признака.
Наглядным изображением корреляционной таблицы служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения X, по оси ординат – Y, а точками показываются сочетания X и Y. По расположению точек можно судить о наличии связи.
Показатели тесноты связи дают возможность охарактеризовать зависимость вариации результативного признака от вариации признака-фактора.
Более совершенным показателем степени тесноты корреляционной связи является линейный коэффициент корреляции. При расчете этого показателя учитываются не только отклонения индивидуальных значений признака от средней, но и сама величина этих отклонений.

Ключевыми вопросами данной темы являются уравнения регрессионной связи между результативным признаком и объясняющей переменной, метод наименьших квадратов для оценки параметров регрессионной модели, анализ качества полученного уравнения регрессии, построение доверительных интервалов прогноза значений результативного признака по уравнению регрессии.

Использование графического метода.
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс — индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов). Решение ведем с использованием онлайн-калькулятора Уравнение регрессии.
Система нормальных уравнений.
a•n + b∑x = ∑y
a∑x + b∑x2 = ∑y•x
Для наших данных (см. таблицу расчетов ниже) система уравнений имеет вид:
46a + 17.3101 b = 18.3189
17.3101 a + 7.0687 b = 7.4742
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем b = 1.05, a = 0.0044
Уравнение регрессии: y = 1.05 x + 0.0044
1. Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая и прямая.
1.2. Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 1.05 x + 0.0044
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент b = 1.05 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 1.05.
Коэффициент a = 0.0044 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Коэффициент эластичности находится по формуле:
Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами — влияние Х на Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 0.9 среднеквадратичного отклонения Sy.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации — среднее отклонение расчетных значений от фактических:
Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Дисперсионный анализ.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(yi — ycp)2 = ∑(y(x) — ycp)2 + ∑(y — y(x))2
где
∑(yi — ycp)2 — общая сумма квадратов отклонений;
∑(y(x) — ycp)2 — сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
∑(y — y(x))2 — остаточная сумма квадратов отклонений.
Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy.
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R2= 0.89572 = 0.8023
т.е. в 80.23 % случаев изменения х приводят к изменению y. Другими словами — точность подбора уравнения регрессии — высокая. Остальные 19.77 % изменения Y объясняются факторами, не учтенными в модели.

Посмотреть расчетную таблицу
2. Оценка параметров уравнения регрессии.
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S2y = 0.0034 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 0.0583 — стандартная ошибка оценки (стандартная ошибка регрессии).
Sa — стандартное отклонение случайной величины a.
Sb — стандартное отклонение случайной величины b.
2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где
Xp = 0.3763 • 10% = 0.0376
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 0.0376
(0.0044 + 1.05*0.0376 ± 0.056)
(-0.0123;0.0998)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bxi ± ε)
где

Посмотреть расчетную таблицу
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит (n-m-1;α/2) = (44;0.025) = 2.009
Поскольку 13.36 > 2.009, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 0.14 < 2.009, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(1.0467 — 2.009 • 0.0783; 1.0467 + 2.009 • 0.0783)
(0.8893;1.204)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a — tкрит Sa; a + tкрит Sa)
(0.0044 — 2.009 • 0.0307; 0.0044 + 2.009 • 0.0307)
(-0.0573;0.0661)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистика. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
Fтабл — это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α — вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=44, Fтабл = 4
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:

Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Обнаружение автокорреляции
1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения εi с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения εi (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скорее всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости εi от εi-1

2. Коэффициент автокорреляции.
Если коэффициент автокорреляции rei < 0.5, то есть основания утверждать, что автокорреляция отсутствует.

3. Критерий Дарбина-Уотсона.
Этот критерий является наиболее известным для обнаружения автокорреляции.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой. При этом проверяется некоррелированность соседних величин εi.

Посмотреть расчетную таблицу
Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:
Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n = 46 и количества объясняющих переменных m=1.
Автокорреляция отсутствует, если выполняется следующее условие:
d1 < DW и d2 < DW < 4 — d2.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5 < DW < 2.5. Поскольку 1.5 < 2.09 < 2.5, то автокорреляция остатков отсутствует.
Для более надежного вывода целесообразно обращаться к табличным значениям.
По таблице Дарбина-Уотсона для n=46 и k=1 (уровень значимости 5%) находим: d1 = 1.50; d2 = 1.59.
Поскольку 1.50 < 2.09 и 1.59 < 2.09 < 4 — 1.59, то автокорреляция остатков отсутствует.

Проверка наличия гетероскедастичности.
1) Методом графического анализа остатков.
В этом случае по оси абсцисс откладываются значения объясняющей переменной X, а по оси ординат либо отклонения ei, либо их квадраты e2i.
Если имеется определенная связь между отклонениями, то гетероскедастичность имеет место. Отсутствие зависимости скорее всего будет свидетельствовать об отсутствии гетероскедастичности.

2) При помощи теста ранговой корреляции Спирмена.
Коэффициент ранговой корреляции Спирмена.
Присвоим ранги признаку ei и фактору X. Найдем сумму разности квадратов d2.
По формуле вычислим коэффициент ранговой корреляции Спирмена.

Посмотреть расчетную таблицу
Связь между признаком ei и фактором X слабая и обратная

Оценка коэффициента ранговой корреляции Спирмена.
Значимость коэффициента ранговой корреляции Спирмена
По таблице Стьюдента находим tтабл:
tтабл (n-m-1;α/2) = (44;0.05/2) = 2.009
Поскольку Tнабл < tтабл , то принимаем гипотезу о равенстве 0 коэффициента ранговой корреляции. Другими словами, коэффициент ранговой корреляции статистически — не значим.
Интервальная оценка для коэффициента корреляции (доверительный интервал).
Доверительный интервал для коэффициента ранговой корреляции
r(-0.3194;0.2727)
Проверим гипотезу H0: гетероскедастичность отсутствует.
Поскольку 2.009 > 0.16, то гипотеза об отсутствии гетероскедастичности принимается.

Пример 2

Система нормальных уравнений.
a•n + b∑x = ∑y
a∑x + b∑x2 = ∑y•x
Для наших данных система уравнений имеет вид
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем b = -3.46, a = 1379.33
Уравнение регрессии:
y = -3.46 x + 1379.33

2. Расчет параметров уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
1.1. Коэффициент корреляции
Ковариация.
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая и обратная.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
1.2. Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = -3.46 x + 1379.33

Коэффициент b = -3.46 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y понижается в среднем на -3.46.
Коэффициент a = 1379.33 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). В нашем примере связь обратная.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Коэффициент эластичности находится по формуле:
Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами — влияние Х на Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к уменьшению среднего значения Y на 0.74 среднеквадратичного отклонения Sy.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации — среднее отклонение расчетных значений от фактических:
Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Дисперсионный анализ.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(yi — ycp)2 = ∑(y(x) — ycp)2 + ∑(y — y(x))2
где
∑(yi — ycp)2 — общая сумма квадратов отклонений;
∑(y(x) — ycp)2 — сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
∑(y — y(x))2 — остаточная сумма квадратов отклонений.
Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy.
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R2= -0.742 = 0.5413
т.е. в 54.13 % случаев изменения х приводят к изменению y. Другими словами — точность подбора уравнения регрессии — средняя. Остальные 45.87 % изменения Y объясняются факторами, не учтенными в модели.

Посмотреть расчетную таблицу
2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=28 находим tкрит:
tкрит (n-m-1;α/2) = (28;0.025) = 2.048
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S2y = 33699.64 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 183.57 — стандартная ошибка оценки (стандартная ошибка регрессии).
Sa — стандартное отклонение случайной величины a.
Sb — стандартное отклонение случайной величины b.
2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 211
(1379.33 -3.46*211 ± 72.48)
(577.53;722.49)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bxi ± ε)
где

Посмотреть расчетную таблицу
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
tкрит (n-m-1;α/2) = (28;0.025) = 2.048
Поскольку 5.75 > 2.048, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 11.47 > 2.048, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
(-3.4565 — 2.048 • 0.6; -3.4565 + 2.048 • 0.6)
(-4.6881;-2.2249)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a — tкрит Sa; a + tкрит Sa)
(1379.3255 — 2.048 • 120.28; 1379.3255 + 2.048 • 120.28)
(1132.9836;1625.6673)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистика. Критерий Фишера.
где m – число факторов в модели.
где m=1 для парной регрессии.
Табличное значение критерия со степенями свободы k1=1 и k2=28, Fтабл = 4.2
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

Проверка на наличие автокорреляции остатков.

Рисунок – Обнаружение автокорреляции графическим методом

Судя по графику, определенной зависимости не наблюдается.
2. Коэффициент автокорреляции.
Если коэффициент автокорреляции rei < 0.5, то есть основания утверждать, что автокорреляция отсутствует.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Поскольку, rei < 0.1, то можно с уверенностью сказать, что автокорреляция отсутствует.
3. Критерий Дарбина-Уотсона.

Список литературы