Дисперсионный анализ

Содержание

Дисперсионный анализ: соединение теории и практики

  • Дисперсионный анализ: основные понятия
  • Однофакторный дисперсионный анализ: суть метода, формулы, примеры
  • Однофакторный дисперсионный анализ в MS Excel
  • Двухфакторный дисперсионный анализ без повторений: суть метода, формулы, пример
  • Двухфакторный дисперсионный анализ без повторений в MS Excel
  • Двухфакторный дисперсионный анализ с повторениями: суть метода, формулы, пример
  • Двухфакторный дисперсионный анализ с повторениями в MS Excel

Дисперсионный анализ: основные понятия

Для чего применяется дисперсионный анализ? Цель дисперсионного анализа — исследование наличия или отсутствия существенного влияния какого-либо качественного или количественного фактора на изменения исследуемого результативного признака. Для этого фактор, предположительно имеющий или не имеющий существенного влияния, разделяют на классы градации (говоря иначе, группы) и выясняют, одинаково ли влияние фактора путём исследования значимости между средними в наборах данных, соответствующих градациям фактора. Примеры: исследуется зависимость прибыли предприятия от типа используемого сырья (тогда классы градации — типы сырья), зависимость себестоимости выпуска единицы продукции от величины подразделения предприятия (тогда классы градации — характеристики величины подразделения: большой, средний, малый).

Минимальное число классов градации (групп) — два. Классы градации могут быть качественными либо количественными.

Почему дисперсионный анализ называется дисперсионным? При дисперсионном анализе исследуется отношение двух дисперсий. Дисперсия, как мы знаем — характеристика рассеивания данных вокруг среднего значения. Первая — дисперсия, объяснённая влиянием фактора, которая характеризует рассеивание значений между градациями фактора (группами) вокруг средней всех данных. Вторая — необъяснённая дисперсия, которая характеризует рассеивание данных внутри градаций (групп) вокруг средних значений самих групп. Первую дисперсию можно назвать межгрупповой, а вторую — внутригрупповой. Отношение этих дисперсий называется фактическим отношением Фишера и сравнивается с критическим значением отношения Фишера. Если фактическое отношение Фишера больше критического, то средние классов градации отличаются друг от друга и исследуемый фактор существенно влияет на изменение данных. Если меньше, то средние классов градации не отличаются друг от друга и фактор не имеет существенного влияния.

Как формулируются, принимаются и отвергаются гипотезы при дисперсионном анализе? При дисперсионном анализе определяют удельный вес суммарного воздействия одного или нескольких факторов. Существенность влияния фактора определяется путём проверки гипотез:

Если влияние фактора не существенно, то несущественна и разница между классами градации этого фактора и в ходе дисперсионного анализа нулевая гипотеза H0 не отвергается. Если влияние фактора существенно, то нулевая гипотеза H0 отвергается: не все классы градации имеют одно и то же среднее значение, то есть среди возможных разниц между классами градации одна или несколько являются существенными.

Ещё некоторые понятия дисперсионного анализа. Статистическим комплексом в дисперсионном анализе называется таблица эмпирических данных. Если во всех классах градаций одинаковое число вариантов, то статистический комплекс называется однородным (гомогенным), если число вариантов разное — разнородным (гетерогенным).

В зависимости от числа оцениваемых факторов различают однофакторный, двухфакторый и многофакторный дисперсионный анализ.

Однофакторный дисперсионный анализ: суть метода, формулы, примеры

Суть метода, формулы

Однофакторный дисперсионный анализ основан на том, что сумму квадратов отклонений статистического комплекса возможно разделить на компоненты:

SS = SSa + SSe,

где

SS — общая сумма квадратов отклонений,

SSa — объяснённая влиянием фактора a сумма квадратов отклонений,

SSe — необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки.

Если через ni обозначить число вариантов в каждом классе градации (группе) и a — общее число градаций фактора (групп), то — общее число наблюдений и можно получить следующие формулы:

общее число квадратов отклонений: ,

объяснённая влиянием фактора a сумма квадратов отклонений: ,

необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки: ,

где

— общее среднее наблюдений,

— среднее наблюдений в каждой градации фактора (группе).

Кроме того,

где — дисперсия градации фактора (группы).

Чтобы провести однофакторный дисперсионный анализ данных статистического комплекса, нужно найти фактическое отношение Фишера — отношение дисперсии, объяснённой влиянием фактора (межрупповой), и необъяснённой дисперсии (внутригрупповой):

и сравнить его с критическим значением Фишера .

Дисперсии рассчитываются следующим образом:

— объяснённая дисперсия,

— необъяснённая дисперсия,

при этом

va = a − 1 — число степеней свободы объяснённой дисперсии,

ve = n − a — число степеней свободы необъяснённой дисперсии,

v = n − 1 — общее число степеней свободы.

Критическое значение отношения Фишера с определёнными значениями уровня значимости и степеней свободы можно найти в статистических таблицах или рассчитать с помощью функции MS Excel F.ОБР (рисунок ниже, для его увеличения щёлкнуть по нему левой кнопкой мыши).

Функция требует ввести следующие данные:

Вероятность — уровень значимости α,

Степени_свободы1 — число степеней свободы объяснённой дисперсии va,

Степени_свободы2 — число степеней свободы необъяснённой дисперсии ve.

Если фактическое значение отношения Фишера больше критического (), то нулевая гипотеза отклоняется с уровнем значимости α. Это означает, что фактор существенно влияет на изменение данных и данные зависимы от фактора с вероятностью P = 1 − α.

Если фактическое значение отношения Фишера меньше критического (), то нулевая гипотеза не может быть отклонена с уровнем значимости α. Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α.

Однофакторный дисперсионный анализ: примеры

Пример 1. Требуется выяснить, влияет ли тип используемого сырья на прибыль предприятия. В шести классах градации (группах) фактора (1-й тип, 2-й тип и т.д.) собраны данные о прибыли от производства 1000 единиц продукции в миллионах рублей в течении 4 лет.

Среднее Дисперсия
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

Число классов градации фактора (групп) a = 6 и в каждом классе (группе) ni = 4 наблюдения. Общее число наблюдений n = 24.

Числа степеней свободы:

va = a − 1 = 6 − 1 = 5,

ve = n − a = 24 − 6 = 18,

v = n − 1 = 24 − 1 = 23.

Вычислим суммы квадратов отклонений:

Вычислим дисперсии:

Вычислим фактическое отношение Фишера:

Критическое значение отношения Фишера:

Так как фактическое отношение Фишера больше критического:

,

с уровнем значимости α = 0,05 делаем вывод, что прибыль предприятия в зависимости от вида сырья, использованного в производстве, существенно отличается.

Или, что то же самое, отвергаем основную гипотезу о равенстве средних во всех классах градации фактора (группах).

В только что рассмотренном примере в каждом классе градации фактора было одинаковое число вариантов. Но, как говорилось во вступительной части, число вариантов может быть и разным. И это ни в коей мере не усложняет процедуру дисперсионного анализа. Таков следующий пример.

Пример 2. Требуется выяснить, существует ли зависимость себестоимости выпуска единицы продукции от величины подразделения предприятия. Фактор (величина подразделения) делится на три класса градации (группы): малые, средние, большие. Обобщены соответствующие этим группам данные о себестоимости выпуска единицы одного и того же вида продукции за некоторый период.

малый средний большой
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Среднее 58,6 54,0 51,0
Дисперсия 128,25 65,00 107,60

Числа степеней свободы:

va = a − 1 = 2,

ve = n − a = 17 − 3 = 14,

v = n − 1 = 16.

Вычислим суммы квадратов отклонений:

Вычислим дисперсии:

,

Вычислим фактическое отношение Фишера:

Критическое значение отношения Фишера:

Так как фактическое значение отношения Фишера меньше критического: , делаем вывод, что размер подразделения предприятия не оказывает существенного влияния на себестоимость выпуска продукции.

Или, что то же самое, с вероятностью 95% принимаем основную гипотезу о том, что средняя себестоимость выпуска единицы одной и той же продукции в малых, средних и крупных подразделениях предприятия существенно не различается.

Однофакторный дисперсионный анализа в MS Excel

Однофакторный дисперсионный анализ можно провести с помощью процедуры MS Excel Однофакторный дисперсионный анализ. Используем его для анализа данных о связи типа используемого сырья и прибыли предприятия из примера 1.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Однофакторный дисперсионный анализ.

В окошке Входной интервал указываем область данных (в нашем случае это $A$2:$E$7). Указываем, как сгруппирован фактор — по столбцам или по строкам (в нашем случае по строкам). Если первый столбец содержит названия классов фактора, помечаем галочкой окно Метки в первом столбце. В окне Альфа указываем уровень значимости α = 0,05.

В результате действия процедуры выводятся две таблицы. Первая таблица — Итоги. В ней содержатся данные обо всех классах градации фактора: число наблюдений, суммарное значение, среднее значение и дисперсия.

Во второй таблице — Дисперсионный анализ — содержатся данные о величинах для фактора между группами и внутри групп и итоговых. Это сумма квадратов отклонений (SS), число степеней свободы (df), дисперсия (MS). В последних трёх столбцах — фактическое значение отношения Фишера(F), p-уровень (P-value) и критическое значение отношения Фишера (F crit).

Дисперсионный анализ
Источник вариации SS df
Между группами 2,9293 5
Внутри групп 1,5303 18
Итого 4,4596 23
MS F P-value F crit
0,58585 6,891119 0,000936 2,77285
0,085017

Так как фактическое значение отношения Фишера (6,89) больше критического (2,77), с вероятностью 95% отклоняем нулевую гипотезу о равенстве средних производительности при использовании всех типов сырья, то есть делаем вывод о том, что тип используемого сырья влияет на прибыль предприятия.

Двухфакторный дисперсионный анализ без повторений: суть метода, формулы, пример

Двухфакторный дисперсионный анализ применяется для того, чтобы проверить возможную зависимость результативного признака от двух факторов — A и B. Тогда a — число градаций фактора A и b — число градаций фактора B. В статистическом комплексе сумма квадратов остатков разделяется на три компоненты:

SS = SSa + SSb + SSe,

где

— общая сумма квадратов отклонений,

— объяснённая влиянием фактора A сумма квадратов отклонений,

— объяснённая влиянием фактора B сумма квадратов отклонений,

— необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки,

— общее среднее наблюдений,

— среднее наблюдений в каждой градации фактора A,

— среднее число наблюдений в каждой градации фактора B.

Дисперсии вычисляются следующим образом:

— дисперсия, объяснённая влиянием фактора A,

— дисперсия, объяснённая влиянием фактора B,

— необъяснённая дисперсия или дисперсия ошибки,

где

va = a − 1 — число степеней свободы дисперсии, объяснённой влиянием фактора A,

vb = b − 1 — число степеней свободы дисперсии, объяснённой влиянием фактора B,

ve = (a − 1)(b − 1) — число степеней свободы необъяснённой дисперсии или дисперсии ошибки,

v = ab − 1 — общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов выдвигаются две нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора A:

H0: μ1A = μ2A = … = μaA,

H1: не все μiA равны;

для фактора B:

H0: μ1B = μ2B = … = μaB,

H1: не все μiB равны.

Чтобы определить влияние фактора A, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Чтобы определить влияние фактора B, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Если фактическое отношение Фишера больше критического отношения Фишера, то следует отклонить нулевую гипотезу с уровнем значимости α. Это означает, что фактор существенно влияет на данные: данные зависят от фактора с вероятностью P = 1 − α.

Если фактическое отношение Фишера меньше критического отношения Фишера, то следует принять нулевую гипотезу с уровнем значимости α. Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α.

Двухфакторный дисперсионный анализ без повторений: пример

Пример 3. Дана информация о среднем потреблении топлива на 100 километров в литрах в зависимости от объёма двигателя и вида топлива.

Бензин со свинцом
1001-1500 см³ 9,3
1501-2000 см³ 9,4
Более 2000 см³ 12,6
Среднее 10,42
Бензин без свинца Дизельное топливо Среднее
8,9 6,5 8,23
9,1 7,1 8,53
9,8 8,0 10,13
9,27 7,2

Требуется проверить, зависит ли потребление топлива от объёма двигателя и вида топлива.

Решение. Для фактора A число классов градации a = 3, для фактора B число классов градации b = 3.

Вычисляем суммы квадратов отклонений:

,

,

,

Соответствующие дисперсии:

,

,

Фактическое отношение Фишера для фактора A , критическое значение отношения Фишера: . Так как фактическое отношение Фишера меньше критического, с вероятностью 95% принимаем гипотезу о том, что объём двигателя не влияет на потребление топлива. Однако, если мы выбираем уровень значимости α = 0,1, то фактическое значение отношения Фишера и тогда с вероятностью 95% можем принять, что объём двигателя влияет на потребление топлива.

Фактическое отношение Фишера для фактора B , критическое значение отношения Фишера: . Так как фактическое отношение Фишера больше критического значения отношения Фишера, с вероятностью 95% принимаем, что вид топлива влияет на его потребление.

Двухфакторный дисперсионный анализ без повторений в MS Excel

Двухфакторный дисперсионный анализ без повторений можно провести с помощью процедуры MS Excel Двухфакторный дисперсионный анализ без повторений. Используем его для анализа данных о связи типа вида топлива и его потребления из примера 3.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Двухфакторный дисперсионный анализ без повторений.

Заполняем данные также, как и в случае с однофакторным дисперсионным анализом.

В результате действия процедуры выводятся две таблицы. Первая таблица — Итоги. В ней содержатся данные обо всех классах градации фактора: число наблюдений, суммарное значение, среднее значение и дисперсия.

Во второй таблице — Дисперсионный анализ — содержатся данные об источниках вариации: рассеивании между строками, рассеивании между столбцами, рассеивании ошибки, общем рассеивании, сумма квадратов отклонений (SS), число степеней свободы (df), дисперсия (MS). В последних трёх столбцах — фактическое значение отношения Фишера(F), p-уровень (P-value) и критическое значение отношения Фишера (F crit).

Дисперсионный анализ
Источник вариации SS df
Строки 6,26 2
Столбцы 16,08667 2
Погрешность 2,373333 4
Итого 24,72 8
MS F P-value F crit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

Фактор A (объём двигателя) сгурппирован в строках. Так как фактическое отношение Фишера 5,28 меньше критического 6,94, с вероятностью 95% принимаем, что потребление топлива не зависит от объёма двигателя.

Фактор B (вид топлива) сгруппирован в столбцах. Фактическое отношение Фишера 13,56 больше критического 6,94, поэтому с вероятностью 95% принимаем, что потребление топлива зависит от его вида.

Двухфакторный дисперсионный анализ с повторениями: суть метода, формулы, пример

Двухфакторный дисперсионный анализ с повторениями применяется для того, чтобы проверить не только возможную зависимость результативного признака от двух факторов — A и B, но и возможное взаимодействие факторов A и B. Тогда a — число градаций фактора A и b — число градаций фактора B, r — число повторений. В статистическом комплексе сумма квадратов остатков разделяется на четыре компоненты:

SS = SSa + SSb + SSab + SSe,

где

— общая сумма квадратов отклонений,

— объяснённая влиянием фактора A сумма квадратов отклонений,

— объяснённая влиянием фактора B сумма квадратов отклонений,

— объяснённая влиянием взаимодействия факторов A и B сумма квадратов отклонений,

— необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки,

— общее среднее наблюдений,

— среднее наблюдений в каждой градации фактора A,

— среднее число наблюдений в каждой градации фактора B,

— среднее число наблюдений в каждой комбинации градаций факторов A и B,

n = abr — общее число наблюдений.

Дисперсии вычисляются следующим образом:

— дисперсия, объяснённая влиянием фактора A,

— дисперсия, объяснённая влиянием фактора B,

— дисперсия, объяснённая взаимодействием факторов A и B,

— необъяснённая дисперсия или дисперсия ошибки,

где

va = a − 1 — число степеней свободы дисперсии, объяснённой влиянием фактора A,

vb = b − 1 — число степеней свободы дисперсии, объяснённой влиянием фактора B,

vab = (a − 1)(b − 1) — число степеней свободы дисперсии, объяснённой взаимодействием факторов A и B,

ve = ab(r − 1) — число степеней свободы необъяснённой дисперсии или дисперсии ошибки,

v = abr − 1 — общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов выдвигаются три нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора A:

H0: μ1A = μ2A = … = μaA,

H1: не все μiA равны;

для фактора B:

H0: μ1B = μ2B = … = μaB,

H1: не все μiB равны;

для взаимодействия факторов A и B:

H0: ABij = 0,

H1: ABij ≠ 0 для всех i и j.

Чтобы определить влияние фактора A, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Чтобы определить влияние фактора B, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Чтобы определить влияние взаимодействия факторов A и B, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Если фактическое отношение Фишера больше критического отношения Фишера, то следует отклонить нулевую гипотезу с уровнем значимости α. Это означает, что фактор существенно влияет на данные: данные зависят от фактора с вероятностью P = 1 − α.

Если фактическое отношение Фишера меньше критического отношения Фишера, то следует принять нулевую гипотезу с уровнем значимости α. Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α.

Двухфакторный дисперсионный анализ с повторениями: пример

Пример 4. Торговое предприятие имеет три магазина — A, B и C. Проводятся две рекламные кампании. Требуется выяснить, зависят ли средние дневные доходы магазинов от двух рекламных кампаний. Для процедуры проверки случайно выбраны по 3 дня каждой рекламной кампании (то есть число повторений r = 3). Результаты обобщены в таблице:

Рекламная кампания Магазин A
Рекламная кампания 1 12,05
23,94
14,63
Рекламная кампания 2 25,78
17,52
18,45
Среднее 18,73
Магазин B Магазин C Среднее
15,17 9,48 14,53
18,52 6,92
19,57 10,47
21,40 7,63 15,86
13,59 11,90
20,57 5,92
18,14 8,72

Факторы, подлежащие проверке: магазин (A, B и C) и рекламная кампания (1 и 2). Пусть эти факторы не зависят друг от друга.

Вычислим суммы квадратов отклонений:

SS = 592,47

SSa = 8,01,

SSb = 378,38,

SSab = 13,85,

SSe = 192,22.

Числа степеней свободы:

va = a − 1 = 2 − 1 = 1,

vb = b − 1 = 3 − 1 = 2,

vab = (a − 1)(b − 1) = 2,

ve = ab(r − 1) = 2 ⋅ 3 ⋅ (3 − 1) = 12,

v = abr − 1 = 2 ⋅ 3 ⋅ 3 − 1 = 17.

Дисперсии:

,

,

,

Фактические отношения Фишера:

для фактора A:

для фактора B:

для взаимодействия факторов A и B: .

Критические значения отношения Фишера:

для фактора A: ,

для фактора B:

для взаимодействия факторов A и B: .

Делаем выводы:

о влиянии фактора A: фактическое отношение Фишера меньше критического значения, следовательно, рекламная кампания существенно не влияет на дневные доходы магазина с вероятностью 95%,

о влиянии фактора B: фактическое отношение Фишера больше критического, следовательно, доходы существенно различаются между магазинами,

о взаимодействии факторов A и B: фактическое отношение Фишера меньше критического, следовательно, взаимодействие рекламной кампании и конкретного магазина не существенно.

Двухфакторный дисперсионный анализ с повторениями в MS Excel

Двухфакторный дисперсионный анализ с повторениями можно провести с помощью процедуры MS Excel Двухфакторный дисперсионный анализ с повторениями. Используем его для анализа данных о связи доходов магазина с выбором конкретного магазина и рекламной кампанией из примера 4.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Двухфакторный дисперсионный анализ с повторениями.

Заполняем данные также, как и в случае с двухфакторным дисперсионным анализом без повторений, с тем дополнением, что в окне число строк для выборки нужно ввести число повторений.

В результате действия процедуры выводятся две таблицы. Первая таблица состоит из трёх частей: две первые соответствуют каждой из двух рекламных кампаний, третья содержит данные об обеих рекламных кампаниях. В столбцах таблицы содержится информация обо всех классах градации второго фактора — магазина: число наблюдений, суммарное значение, среднее значение и дисперсия.

Во второй таблице — данные о сумме квадратов отклонений (SS), числе степеней свободы (df), дисперсии (MS), фактическом значение отношения Фишера(F), p-уровне (P-value) и критическом значении отношения Фишера (F crit) для различных источниках вариации: двух факторах, которые даны в строках (выборка) и столбцах, взаимодействии факторов, ошибки (внутри) и суммарных показателях (итого).

Дисперсионный анализ
Источник вариации SS df
Выборка 8,013339 1
Столбцы 378,3808 2
Взаимодействие 13,8504 2
Внутри 192,2233 12
Итого 592,4681 17

Для фактора A фактическое отношение Фишера меньше критического значения, следовательно, рекламная кампания существенно не влияет на дневные доходы магазина с вероятностью 95%.

Для фактора B фактическое отношение Фишера больше критического, следовательно, с вероятностью 95% доходы существенно различаются между магазинами.

Для взаимодействия факторов A и B фактическое отношение Фишера меньше критического, следовательно, с вероятностью 95% взаимодействие рекламной кампании и конкретного магазина не существенно.

Всё по теме «Математическая статистика»

Решение задач по дисперсионному анализу

Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную. В этом разделе мы приведем примеры решенных учебных задач по однофакторному дисперсионному анализу.

Суть дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.

Лучшее спасибо — порекомендовать эту страницу

Примеры решений по ДА онлайн

Пример 1. При уровне значимости α=0,05 методом дисперсионного анализа проверить нулевую гипотезу о влиянии фактора на качество объекта на основании пяти измерений для трех уровней фактора Ф1 – Ф3.
Номер измерения Ф1 Ф2 Ф3
1 18 24 36
2 28 36 12
3 12 28 22
4 14 40 45
5 32 16 40

Пример 2. Используя анализ однофакторной модели, проверить гипотезу о влиянии методик на оценку качества признака.

Исследуется эффективность обучения тремя различными методами. Студентам дается задание изучить тему «Денежная система в Англии». Для этого 10 студентов конспектируют первоисточник, 10 изучают ее по программированному учебнику, 10 – с помощью обучающих компьютерных программ. По окончании их уровень знаний проверяется с помощью теста, состоящего из 100 вопросов. Результаты представлены в таблице:

Вопросы:
1) Влияет ли методика изучения темы на результат? Есть ли значимые различия между тремя выборками по уровню усвоения материала?
2) Есть ли статистически значимая тенденция возрастания показателей в порядке «первоисточник» — «учебник» — «компьютер»?

Пример 3. В течение шести лет использовались четыре различных технологии по выращиванию сельскохозяйственной культуры. Необходимо установить влияние различных технологий на урожайность культуры по данным таблиц. Задачу просчитать вручную и на ПЭВМ.

Нужно решить задачи по дисперсионному анализу?

Полезные ссылки

  • Статистические таблицы и формулы
  • Решение задач по математической статистике на заказ
  • Решенные контрольные по математической статистике

Двухфакторный дисперсионный анализ

В двухфакторном дисперсионном анализе проверяется гипотеза о равенстве математических ожиданий выходного контролируемого параметра y при различных уровнях двух факторов.

Назначение сервиса. С помощью онлайн-калькулятора можно:

  • провести двухфакторный дисперсионный анализ (см. также одномерный дисперсионный анализ);
  • ответить на вопрос — совпадают или нет средние значения экспериментов, влияют ли факторы на результат;
  • при выбранном уровне значимости подтвердить или опровергнуть нулевую гипотезу H0 о равенстве групповых средних и дисперсий (по критерию Кохрена);
  • Решение онлайн
  • Видеоинструкция

Инструкция. Укажите число измерений фактора A, количество уровней фактора B. Полученное решение сохраняется в файле Word.

При применении двухфакторного дисперсионного анализа исследователь проверяет влияние двух независимых переменных (факторов) на зависимую переменную. Может быть изучен также эффект взаимодействия двух переменных.
Исследуемые группы называют эффектами обработки. Схема двухфакторного дисперсионного анализа имеет несколько нулевых гипотез: одна для каждой независимой переменной и одна для взаимодействия.

Условия применения двухмерного дисперсионного анализа:

  1. Генеральные совокупности, из которых извлечены выборки, должны быть нормально распределены.
  2. Выборки должны быть независимыми.
  3. Дисперсии генеральных совокупностей, из которых извлекались выборки, должны быть равными.
  4. Группы должны иметь одинаковый объем выборки.

Результаты вычислений представляют в виде следующей таблицы:

Сумма квадратов df Среднее квадратичное F
Фактор A SSA m-1 MSA FA
Фактор B SSB k-1 MSB FB
Взаимодействие, AxB SSAB (m-1)(k-1) MSAB FAB
Ошибка SSerror m*k(n-1) MSerror
ИТОГО

SSA сумма квадратов для фактора А
SSB — сумма квадратов для фактора В
SSAxB — сумма квадратов для взаимодействия факторов
SSerror — сумма квадратов для ошибки
m- количество уровней фактора А
k- количество уровней фактора В
n- количество объектов в каждой группе

Пример. В химической лаборатории проверяется влияние температуры (фактор А) и катализатора (фактор В) на выход продукта химического синтеза. Полученные результаты приведены в таблице. Проведите двухфакторный дисперсионный анализ. При уровне значимости a = 0,05 проверьте гипотезу о влиянии факторов А и В и их комбинации на указанный признак. Предварительно проверьте по критерию Кочрена равенство дисперсий в группах.

Решение.
Шаг №1. Формулировка гипотез.
Гипотезы для взаимодействия:
Н0: Фактор A (температура) и фактор B (катализатор) не оказывают эффекта взаимодействия на результат Y (продукт химического синтеза).
Н1: Фактор A и фактор B оказывают эффекта взаимодействия на результат Y.
Гипотезы для фактора A:
Н0: Для всех режимов температуры Ai нет разницы между средним результатом продукта химического синтеза Y.
Н1: Для всех типов Ai существует разница между средним результатом Y.
Гипотезы для фактора B:
Н0: Для всех типов катализатора Bj нет разницы между средним результатом Y.
Н1: Для всех типов Bj существует разница между средним результатом Y.
Шаг №2. Расчет данных.
Фактор А принимает m = 4 различных значений.
Фактор B принимает k = 3 различных значений.
На каждом из сочетаний уровней имеется n = 4 наблюдений выходной величины.
Расчет средних.

yi1 yi2 yi3 yi
y1j 17 16.25 15.75 16.33
y2j 21.5 21 18.25 20.25
y3j 18.25 18.25 18 18.17
y4j 22 19.5 20.25 20.58
yj 19.69 18.75 18.06 y = 18.83

Сумма квадратов отклонений под влиянием m уровней фактора А:
Сумма квадратов отклонений под влиянием k уровней фактора B:
Сумма квадратов отклонений взаимодействия факторов A и B:
Остаточная сумма квадратов:
Оценка дисперсии уровней A (влияние фактора A на продукт химического синтеза):
Оценка дисперсии уровней B (влияние фактора B на продукт химического синтеза):
Наличие двух факторов позволяет использовать еще одну оценку дисперсии – взаимодействия:
Оценка дисперсии ошибки (учитывает влияние всех факторов, в том числе и не учтенных):
Шаг №3. Анализ результатов.
Степени свободы для каждого фактора:
Фактор А: v1 = m-1 = 4 — 1 = 3
Фактор B: v2 = k-1 = 3 — 1 = 2
Взаимодействие(AxB): v3 = (m-1)(k-1) = (4-1)(3 — 1) = 6
Ошибка внутри группы: vош = m • k(n-1) = 4 • 3(4-1) = 36
Табличное значение критерия со степенями свободы v1=3 и v2=36, Fтабл = 2.84
10.722 > Fтабл, следовательно, данные противоречат гипотезе H0, и следует считать, что режимы температуры оказывают влияния на средний результат химического синтеза.
Табличное значение критерия со степенями свободы v1=2 и v2=36, Fтабл = 3.23
3.234 > Fтабл, следовательно, данные противоречат гипотезе H0, и следует считать, что типы катализаторов оказывают влияния на средний результат химического синтеза.
Табличное значение критерия со степенями свободы v1=6 и v2=36, Fтабл = 2.34
2.994 > Fтабл, следовательно, данные противоречат гипотезе H0, и следует считать, что уровни факторов A и B оказывают влияния на средний результат y.
Поскольку нулевая гипотеза об эффекте взаимодействия была отвергнута, можно сделать вывод о том, что сочетание температуры и катализаторов оказывает существенное влияние на продукт химического синтеза.
Критерий Кохрена используется для оценки однородности (отсутствия выбросов) дисперсий результатов испытаний. Расчетное значение критерия Кохрена находится по формуле:
где Smax — наибольшее значение среднего квадратического отклонения в одной из всех анализируемых групп; Si — среднее квадратическое отклонение результатов испытаний в группах, определяемое по формуле:
где
ni — число результатов измерений в i-ой группе на данном уровне;
yik — k-ый из этих результатов измерений;
y — среднее арифметическое значение результатов измерений в i-ой группе.
Рассчитаем показатели разброса (расхождения) в базовых элементах:

Дисперсионный анализ, Юденков В.А., 2013

Дисперсионный анализ, Юденков В.А., 2013.
Дисперсионный анализ — универсальный метод исследования, способный решать задачи большого множества самых различных областей знаний.
В данной книге изложена теория дисперсионного анализа, схемы и примеры необходимых вычислений при его выполнении от одно- до многофакторного.
Предназначена для студентов, аспирантов, преподавателей, научных работников, специалистов таких областей знаний, как экономика, социология, физика, химия, медицина, биология, технология, промышленное производство, сельское хозяйство, спорт, менеджмент, коммерция и многих других.

ДИСПЕРСИОННЫЙ АНАЛИЗ.
Постановка задачи.
В практической деятельности, различных областях науки и техники мы часто сталкиваемся с необходимостью выявить и оценить влияние отдельных факторов на изменчивость какого-то признака, значения которого могут быть получены из опыта в виде некоторой случайной величины X.
Под факторами будем понимать различные независимые источники изменчивости признака.
Очевидно, что при самом тщательном исследовании нам не удастся выявить все источники изменчивости, а иногда в этом нет необходимости и смысла. Однако, при наличии определенного опыта, в зависимости от цели исследования, мы всегда сможем выдвинуть гипотезу о существовании влияния тех или иных факторов.
Дисперсионный анализ дает возможность установить, существенное ли влияние на изменчивость признака оказывает тот или иной из рассматриваемых факторов или их взаимодействие, а также оценить количественно удельный вес каждого из источников изменчивости в их общей совокупности. Причем он позволяет дать лишь положительный ответ о наличии существенного влияния. Если такой результат не получен, вопрос остается открытым и требует дополнительного исследования (как правило, увеличения числа наблюдений).
Предисловие
Общие вопросы
Часть 1. Методы оценки
1. Введение
2. Критерии значимости
Часть 2. Дисперсионный анализ
1. Введение
1.1. Постановка задачи
1.2. Сущность дисперсионного анализа
2. Однофакторный дисперсионный анализ.
2.1. Общие сведения
2.2. Суммы квадратов эффектов
2.3. Степени свободы
2.4. Вычисление исправленных дисперсий
2.5. Схема однофакторного дисперсионного анализа
2.6. Проверка нулевой гипотезы Но
2.7. Сравнение средних по уровням фактора
2.8. Замечание о вычислениях
2.9. Пример однофакторного дисперсионного анализа
3. Двухфакторный дисперсионный анализ
3.1. Общие сведения
3.2 Суммы квадратов эффектов
3.3. Степени свободы. Исправленные дисперсии
3.4. Схема двухфакторного дисперсного анализа
3.5. Пример двухфакторного дисперсного анализа
4. Трехфакторный дисперсионный анализ
4.1. Общие сведения
4.2. Суммы квадратов эффектов
4.3. Степени свободы. Исправленные дисперсии
4.4. Схема трехфакторного дисперсионного анализа
4.5. Пример трехфакторного дисперсионного анализа
5. Многофакторный дисперсионный анализ
Замечание
Приложения
Рекомендуемая литература.

Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
— fileskachat.com, быстрое и бесплатное скачивание.
Ниже можно купить эту книгу по лучшей цене со скидкой с доставкой по всей России.Купить эту книгу
— pdf — Яндекс.Диск.Дата публикации: 18.12.2016 18:20 UTC
учебник по математике :: математика :: Юденков

Дисперсионный анализ

Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).

Типы дисперсионного анализа

Суть дисперсионного анализа сводится к изучению влияния одной или нескольких независимых переменных, обычно именуемых факторами, на зависимую переменную. Зависимые переменные представлены значениями абсолютных шкал (шкала отношений). Независимые переменные являются номинативными (шкала наименований), то есть отражают групповую принадлежность, и могут иметь две или более градации (или уровня). Примерами независимой переменной X i {\displaystyle X_{i}} с двумя градациями могут служить пол (женский: X 1 {\displaystyle X_{1}} , мужской: X 2 {\displaystyle X_{2}} ) или тип экспериментальной группы (контрольная: X 1 {\displaystyle X_{1}} , экспериментальная: X 2 {\displaystyle X_{2}} ). Градации, соответствующие независимым выборкам объектов, называются межгрупповыми, а градации, соответствующие зависимым выборкам, — внутригрупповыми.

В зависимости от типа и количества переменных различают:

  • однофакторный и многофакторный дисперсионный анализ (одна или несколько независимых переменных);
  • одномерный и многомерный дисперсионный анализ (одна или несколько зависимых переменных);
  • дисперсионный анализ с повторными измерениями (для зависимых выборок);
  • дисперсионный анализ с постоянными факторами, случайными факторами, и смешанные модели с факторами обоих типов;

Математическая модель дисперсионного анализа

x i , j = μ i + a i , j + e i , j {\displaystyle x_{i,j}=\mu _{i}+a_{i,j}+e_{i,j}} ,

где:

x ∗ , j = 1 n ∑ i x i , j , {\displaystyle x_{*,j}={\frac {1}{n}}\sum _{i}x_{i,j},}

x i , ∗ = 1 m ∑ j x i , j , {\displaystyle x_{i,*}={\frac {1}{m}}\sum _{j}x_{i,j},}

x ∗ , ∗ = 1 n m ∑ i , j x i , j {\displaystyle x_{*,*}={\frac {1}{nm}}\sum _{i,j}x_{i,j}} )

выражаются как:

s 2 = 1 n m ∑ i ∑ j ( x i , j − x ∗ , ∗ ) 2 {\displaystyle s^{2}={\frac {1}{nm}}\sum _{i}\sum _{j}(x_{i,j}-x_{*,*})^{2}}

s 0 2 = 1 n m ∑ i ∑ j ( x i , j − x i , ∗ − x ∗ , j + x ∗ , ∗ ) 2 {\displaystyle s_{0}^{2}={\frac {1}{nm}}\sum _{i}\sum _{j}(x_{i,j}-x_{i,*}-x_{*,j}+x_{*,*})^{2}}

s 1 2 = 1 n ∑ i ( x i , ∗ − x ∗ , ∗ ) 2 {\displaystyle s_{1}^{2}={\frac {1}{n}}\sum _{i}(x_{i,*}-x_{*,*})^{2}}

s 2 2 = 1 m ∑ j ( x ∗ , j − x ∗ , ∗ ) 2 {\displaystyle s_{2}^{2}={\frac {1}{m}}\sum _{j}(x_{*,j}-x_{*,*})^{2}}

и удовлетворяют тождеству:

s 2 = s 0 2 + s 1 2 + s 2 2 {\displaystyle s^{2}=s_{0}^{2}+s_{1}^{2}+s_{2}^{2}}

Процедура дисперсионного анализа состоит в определении соотношения систематической (межгрупповой) дисперсии к случайной (внутригрупповой) дисперсии в измеряемых данных. В качестве показателя изменчивости используется сумма квадратов отклонения значений параметра от среднего: S S {\displaystyle SS} (от англ. Sum of Squares). Можно показать, что общая сумма квадратов S S total {\displaystyle SS_{\textrm {total}}} раскладывается на межгрупповую сумму квадратов S S bg {\displaystyle SS_{\textrm {bg}}} и внутригрупповую сумму квадратов S S wg {\displaystyle SS_{\textrm {wg}}} :

S S total = S S bg + S S wg {\displaystyle SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}}

Тогда уравнение x i , j = μ i + a i , j + e i , j {\displaystyle x_{i,j}=\mu _{i}+a_{i,j}+e_{i,j}} может быть представлено в следующем виде:

x i , j = M + ( M j − M ) + ( x i , j − M j ) {\displaystyle x_{i,j}=M+(M_{j}-M)+(x_{i,j}-M_{j})} , или

x i , j − M = ( M j − M ) + ( x i , j − M j ) {\displaystyle x_{i,j}-M=(M_{j}-M)+(x_{i,j}-M_{j})} .

Тогда

где

S S total = ∑ i = 1 n j ( x i , j − M ) 2 {\displaystyle SS_{\textrm {total}}=\sum _{i=1}^{n_{j}}(x_{i,j}-M)^{2}}

S S bg = ∑ i = 1 n j ( M j − M ) 2 {\displaystyle SS_{\textrm {bg}}=\sum _{i=1}^{n_{j}}(M_{j}-M)^{2}}

S S wg = ∑ i = 1 n j ( x i , j − M j ) 2 {\displaystyle SS_{\textrm {wg}}=\sum _{i=1}^{n_{j}}(x_{i,j}-M_{j})^{2}}

Следовательно

S S total = S S bg + S S wg . {\displaystyle SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}.}

Аналогичным образом раскладываются степени свободы:

d f total = d f bg + d f wg , {\displaystyle df_{\textrm {total}}=df_{\textrm {bg}}+df_{\textrm {wg}},} где

d f total = N − 1 , {\displaystyle df_{\textrm {total}}=N-1,}

d f bg = J − 1 , {\displaystyle df_{\textrm {bg}}=J-1,}

d f wg = N − J , {\displaystyle df_{\textrm {wg}}=N-J,}

и N {\displaystyle N} есть объём полной выборки, а J {\displaystyle J} — количество групп.

Тогда дисперсия каждой части, именуемая в модели дисперсионного анализа как «средний квадрат», или M S {\displaystyle MS} (от англ. Mean Square), есть отношение суммы квадратов к числу их степеней свободы:

M S total = S S total N − 1 {\displaystyle MS_{\textrm {total}}={\frac {SS_{\textrm {total}}}{N-1}}}

M S bg = S S bg J − 1 {\displaystyle MS_{\textrm {bg}}={\frac {SS_{\textrm {bg}}}{J-1}}}

M S wg = S S wg N − J , {\displaystyle MS_{\textrm {wg}}={\frac {SS_{\textrm {wg}}}{N-J}},}

Соотношение межгрупповой и внутригрупповой дисперсий имеет F-распределение (распределение Фишера) и определяется при помощи (F-критерия Фишера):

F d f bg , d f wg = M S bg M S wg . {\displaystyle F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.}

Принципы и применение

Исходными положениями дисперсионного анализа являются

  • нормальное распределение значений изучаемого признака в генеральной совокупности;
  • равенство дисперсий в сравниваемых генеральных совокупностях;
  • случайный и независимый характер выборки.

Нулевой гипотезой в дисперсионном анализе является утверждение о равенстве средних значений:

H 0 : μ 1 = μ 2 = ⋯ = μ j . {\displaystyle H_{0}{:}\quad \mu _{1}=\mu _{2}=\dots =\mu _{j}.}

При отклонении нулевой гипотезы принимается альтернативная гипотеза о том, что не все средние равны, то есть имеются, по крайней мере, две группы, отличающиеся средними значениями:

H 1 : μ 1 ≠ μ 2 ≠ ⋯ ≠ μ j . {\displaystyle H_{1}{:}\quad \mu _{1}\neq \mu _{2}\neq \dots \neq \mu _{j}.}

При наличии трёх и более групп для определения различий между средними применяются post-hoc t-тесты или метод контрастов.

Однофакторный дисперсионный анализ

Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному t-критерию Стьюдента для независимых выборок, и величина F-статистики равна квадрату соответствующей t-статистики.

Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (Levene’s test). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки соотношения межгрупповой и внутригрупповой изменчивости применяется F-критерий Фишера:

F d f bg , d f wg = M S bg M S wg . {\displaystyle F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.}

Если F-статистика превышает критическое значение, то нулевая гипотеза не может быть принята (отвергается) и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть интерпретированы непосредственно после применения критерия Фишера.

При наличии трёх и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними. Априорный анализ включает метод контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов:

S S bg = S S ψ 1 + S S ψ 2 + . . . + S S ψ n , {\displaystyle SS_{\textrm {bg}}=SS_{\psi _{1}}+SS_{\psi _{2}}+…+SS_{\psi _{n}},}

где ψ {\displaystyle \psi } есть контраст между средними двух групп, и затем при помощи критерия Фишера проверяется соотношение среднего квадрата для каждого контраста к внутригрупповому среднему квадрату:

F 1 , d f wg = M S ψ i M S wg . {\displaystyle F_{1,df_{\textrm {wg}}}={\frac {MS_{\psi _{i}}}{MS_{\textrm {wg}}}}.}

Апостериорный анализ включает post-hoc t-критерии по методам Бонферрони или Шеффе, а также сравнение разностей средних по методу Тьюки. Особенностью post-hoc-тестов является использование внутригруппового среднего квадрата M S wg {\displaystyle MS_{\textrm {wg}}} для оценки любых пар средних. Тесты по методам Бонферрони и Шеффе являются наиболее консервативными, так как они используют наименьшую критическую область при заданном уровне значимости α {\displaystyle \alpha } .

Помимо оценки средних дисперсионный анализ включает определение коэффициента детерминации R 2 {\displaystyle R^{2}} , показывающего, какую долю общей изменчивости объясняет данный фактор:

R 2 = S S bg S S total . {\displaystyle R^{2}={\frac {SS_{\textrm {bg}}}{SS_{\textrm {total}}}}.}

Многофакторный дисперсионный анализ

  • Многофакторный анализ позволяет проверить влияние нескольких факторов на зависимую переменную. Линейная модель многофакторной модели имеет вид:

x i , j , k = μ i + a i , j + b i , k + . . . + ( a b ) i , j , k + e i , j , k {\displaystyle x_{i,j,k}=\mu _{i}+a_{i,j}+b_{i,k}+…+(ab)_{i,j,k}+e_{i,j,k}} , где:

В отличие от однофакторной модели, где имеется одна межгрупповая сумма квадратов, модель многофакторного анализа включает суммы квадратов для каждого фактора в отдельности и суммы квадратов всех взаимодействий между ними. Так, в двухфакторной модели межгрупповая сумма квадратов раскладывается на сумму квадратов фактора A {\displaystyle A} , сумму квадратов фактора B {\displaystyle B} и сумму квадратов взаимодействия факторов A {\displaystyle A} и B {\displaystyle B} :

S S total = S S A + S S B + S S A B + S S wg . {\displaystyle SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{AB}+SS_{\textrm {wg}}.}

S S total = S S A + S S B + S S C + S S A B + S S B C + S S A C + S S A B C + S S wg . {\displaystyle SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{C}+SS_{AB}+SS_{BC}+SS_{AC}+SS_{ABC}+SS_{\textrm {wg}}.}

Степени свободы раскладываются аналогичным образом:

d f total = d f A + d f B + d f A B + d f wg , {\displaystyle df_{\textrm {total}}=df_{A}+df_{B}+df_{AB}+df_{\textrm {wg}},} где

d f total = N − 1 , {\displaystyle df_{\textrm {total}}=N-1,}

d f A = J − 1 , {\displaystyle df_{A}=J-1,}

d f B = K − 1 , {\displaystyle df_{B}=K-1,}

d f A B = ( J − 1 ) ( K − 1 ) , {\displaystyle df_{AB}=(J-1)(K-1),}

d f wg = N − J K , {\displaystyle df_{\textrm {wg}}=N-JK,}

В ходе анализа проверяются несколько нулевых гипотез:

Каждая гипотеза проверяется с помощью критерия Фишера:

F d f A , d f wg = M S A M S wg ; {\displaystyle F_{df_{A},df_{\textrm {wg}}}={\frac {MS_{A}}{MS_{\textrm {wg}}}};}

F d f B , d f wg = M S B M S wg ; {\displaystyle F_{df_{B},df_{\textrm {wg}}}={\frac {MS_{B}}{MS_{\textrm {wg}}}};}

F d f A B , d f wg = M S A B M S wg . {\displaystyle F_{df_{AB},df_{\textrm {wg}}}={\frac {MS_{AB}}{MS_{\textrm {wg}}}}.}

При отвержении нулевой гипотезы о влиянии отдельного фактора принимается утверждение, что присутствует главный эффект фактора A {\displaystyle A} ( B , {\displaystyle B,} и т. д.). При отвержении нулевой гипотезы о взаимодействии факторов принимается утверждение о том, что влияние фактора A {\displaystyle A} проявляется по-разному на разных уровнях фактора B {\displaystyle B} . Обычно в таком случае результаты общего анализа признаются не имеющими силы, и влияние фактора A {\displaystyle A} проверяется отдельно на каждом уровне фактора B {\displaystyle B} с помощью однофакторного дисперсионного анализа или t-критерия.

Примечания

  1. Дисперсионный анализ. Архивировано 23 июля 2012 года.
  2. Большев, Л. Н.. Дисперсионный анализ // Большая советская энциклопедия.
  3. А. Д. Наследов. Математические методы психологического исследования. СПб, 2008. ISBN 5-9268-0275-X

Литература