Дисперсионный анализ при помощи системы MINITAB для WINDOWS

–PAGE_BREAK–Определим зависимость износа оборудования от отрасли промышленности.
В этом случае в диалоговом окне указываются следующие значения
Response:  d
Factor:  field
Результаты дисперсионного анализа включают таблицу анализа дисперсии, таблицу средних значений уровней факторов, индивидуальные доверительные интервалы для каждого уровня и общее стандартное отклонение. На рис.1 представлен листинг результатов вычислений. На рисунке используются следующие обозначения:
DF – число степеней свободы,
SS  — сумма квадратов,
MS – средний квадрат,
F     — отношение Фишера,
P     — уровень значимости для вычисленного F,
Level – уровень фактора,
Mean – среднее значение,
StDev – стандартное отклонение.
Рис.1 Листинг результатов вычислений для однофакторной модели
Если значения выходной переменной разбито на группы и каждая группа записана в отдельном столбце, то для проведения однофакторного дисперсионного анализа необходимо выбрать из меню Stat > ANOVA > Oneway [Unstacked] и заполнить следующее диалоговое  окно.
Диалоговое окно
1.                 Отклик в нескольких столбцах Responses [in separate columns] — выберите столбцы, содержащие выходную (зависимую) переменную. Столбцы должны содержать только числовые значения. Система не требует, чтобы в каждом столбце было одинаковое число наблюдений.
2.                 Графики представляют данные в виде точечных и блочных диаграмм для каждой группы с отмеченным средним значением.
  Пример 2 Пусть данные о проценте износа оборудования для 12 предприятий двух отраслей промышленности (пищевая — field1, машиностроение — field2) представлены в табл.5.
Таблица 5.
Исходные данные Field1
Field2
31
59
49
56
37
47
47
51
57
53
53
43
В этом случае в диалоговом окне указываются следующие значения.
Responses [in separate columns]:    field1    field2
Результатом дисперсионного анализа будет таблица представленная на рис.2.
Рис.2 Листинг результатов вычислений
Из полученных результатов видно, что P> (=0.05), значит  принимается нулевая гипотеза и мы можем сделать вывод о том, что влияние фактора отрасли на уровень износа оборудования незначимо.
Если в опции  Graphs> указать Dotplots of data:Ö, то будет построен следующий график (чертой отмечено среднее значение для группы).

 

Рис.3 Представление экспериментальных данных
  3.2.2. Двухфакторный дисперсионный анализ Для проведения двухфакторного дисперсионного анализа необходимо подготовить данные, выбрать из меню Stat> ANOVA> Balanced ANOVA и заполнить открывшееся диалоговое окно.
Эта функция позволяет проводить, как одномерный, так и многомерный анализ дисперсии. Факторы могут быть связаны как перекрестно, так и иерархически, они могут быть детерминированными и случайными, однако данные должны быть сбалансированы. Это значит, что для каждого уровня A должны быть одинаковые уровни фактора B, и в том же количестве.
Диалоговое окно.
1.                 Отклики (Responses) – выберите столбцы, содержащие выходные (зависимые) переменные. Система позволяет анализировать до 50 выходных переменных.
2.                 Модель (Model) – укажите переменные или их комбинацию, которые включаются в модель.
3.                 Случайные факторы (Random Factors) – укажите столбец, содержащий случайную переменную.
Пример 3 Пусть данные о проценте износа оборудования для 12 предприятий разных отраслей промышленности и форм собственности представлены в табл.1. Определим, как влияют отрасль промышленности, форма собственности и их взаимодействие на процент износа оборудование. Для этого выберем из меню Stat > ANOVA > Balanced ANOVA  и заполним диалоговое окно следующим образом
Responses: d
Model: field owner  field*owner
Результаты дисперсионного анализа представлены на рис.4.
Рис.4 Листинг результатов вычислений для двухфакторной модели Проанализируем  полученные результатs/
Для фактора отрасли P> (=0.05), значит  принимается нулевая гипотеза о том, что фактор отрасли не влияет на уровень износа оборудования.
Для фактора формы собственности P> (=0.05), значит  принимается нулевая гипотеза о том, что фактор формы собственности не влияет на уровень износа оборудования. Аналогичным образом делаем вывод о том, что на уровень износа оборудование не влияет взаимодействие факторов.
Для анализа многофакторных моделей по несбалансированным данным необходимо выбрать из меню Stat> ANOVA> GeneralLinearModel.

4 Выполнение дисперсионного анализа в Excel
Рассмотрим дисперсионный анализ на следующем примере: за месяц известны данные о выработке рабочего за время работы в первую и во вторую смены.
Таблица 2 –  Исходные данные
Смена
Выработка рабочего, нормо-час
1
12,1;  11,1;  12,6;  12,9;  11,6;  13,1;  12,6;  12,4;  11,6;  17,3;  12,9;  11,6;  12,4
2
9,9;  11,4;  13,4;  10,4;  12,9;  12,6;  13,9;  13,4;  12,4;  9,9; 10,2; 11,2; 9,7
Можно ли считать, что расхождение между уровнями выработки рабочего в первую и во вторую смены несущественно, т.е. можно ли считать, что генеральные средние в двух подгруппах одинаковы и, следовательно, выработка рабочего может быть охарактеризована общей средней.
Решение.
Для того чтобы ответить на поставленные вопросы, рассчитаем среднюю выработку рабочих в каждой смене. Величина выработки в первую и вторую смены различна. Теперь возникает вопрос о том, насколько существенны эти расхождения, нужно проверить предположение о возможном влиянии сменности на выработку рабочих. Результаты расчетов сведены в таблицу 3.
Таблица 3 – Промежуточные расчеты для проведения дисперсионного анализа
Смена
Средняя выработка, нормо-часы

Число смен в месяце

Сумма квадратов отклонений вариантов от групповой средней

Квадраты отклонений групповых средних от общей средней

1
12.6308
13
28.09
3,2001
2
11.6385
13
28.08
3,2008
Итого

26
=56.1585
=6,4008
Используя данные таблицы, рассчитаем  и .
Число степеней свободы для расчета внутригрупповой дисперсии равно () 24 (26-2), а для расчета межгрупповой дисперсии число степеней свободы равно  –  1 (2-1).

Рассчитаем значение критерия Фишера по следующей формуле:
                                       (4)

В соответствии с числом степеней свободы для расчета внутригрупповой и межгрупповой дисперсий (24 и 1) в таблице F-распределения для α=5% находим Fтабл = 4.26.
При этом выдвигается две гипотезы. Нулевая гипотеза гласит о том, что различия выработки рабочего в первую и вторую смены несущественны. Альтернативная гипотеза: существуют существенные различия в значении выработки рабочего в первую и во вторую смены.
Так как расчетное значение критерия Фишера значительно меньше табличного значения критерия Фишера, то гипотеза о несущественности различия выработки рабочего в первую и вторую смены не опровергается, т.е. сменность не оказывает влияния на уровень выработки рабочего.
Для того, чтобы провести дисперсионный анализ в Excel, необходимо активировать команду «Анализ данных». Для этого проходится следующий путь: Сервис -> Надстройки -> Пакет анализа. После этого в меню «Сервис» появляется команда «Анализ данных» и выбирается команда «Однофакторный дисперсионный анализ».
Далее необходимо заполнить окно «Однофакторный дисперсионный анализ»:
«Входной интервал» — вводится ссылка на диапазон, содержащий анализируемые данные. Ссылка должна состоять не менее чем из двух смежных диапазонов данных, данные в которых расположены по строкам или столбцам.
«Группирование» — установите переключатель в положение. По столбцам или По строкам в зависимости от расположения данных во входном диапазоне.
«Метки в первой строке/Метки в первом столбце» — если первая строка исходного диапазона содержит названия столбцов, установите переключатель в положение Метки в первой строке. Если названия строк находятся в первом столбце входного диапазона, установите переключатель в положение Метки в первом столбце. Если входной диапазон не содержит меток, то необходимые заголовки в выходном диапазоне будут созданы автоматически.
«Альфа» — введите уровень значимости, необходимый для оценки критических параметров F-статистики. Уровень альфа связан с вероятностью возникновения ошибки типа I (опровержение верной гипотезы).
«Выходной диапазон» — введите ссылку на левую верхнюю ячейку выходного диапазона. Размеры выходной области будут рассчитаны автоматически, и соответствующее сообщение появится на экране в том случае, если выходной диапазон занимает место существующих данных или его размеры превышают размеры листа.
«Новый лист» — установите переключатель, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки A1. Если в этом есть необходимость, введите имя нового листа в поле, расположенном напротив соответствующего положения переключателя.
«Новая книга» — установите переключатель, чтобы открыть новую книгу и вставить результаты анализа в ячейку A1 на первом листе в этой книге.
Пример заполнения окна «Однофакторный дисперсионный анализ» представлен на рисунке 2.
Рисунок 2 – Пример заполнения окна «Однофакторный дисперсионный анализ»
Результаты расчетов однофакторного дисперсионного анализа представлены на рисунке 3.
Однофакторный дисперсионный анализ
ИТОГИ
Группы
Счет
Сумма
Среднее
Дисперсия
Столбец 1
13
164,2
12,63077
2,34064103
Столбец 2
13
151,3
11,63846
2,33923077
Дисперсионный анализ
Источник вариации
SS
df
MS
F
P-Значение
F критическое
Между группами
6,400385
1
6,400385
2,73528203
0,111176312
4,259675279
Внутри групп
56,15846
24
2,339936
Итого
62,55885
25
Рисунок 3 – Результаты расчетов по однофакторному дисперсионному анализу
Интерпретация результатов:
«Группы» — данные по выработке в первую и вторую смены.
«Счет» — количество наблюдений в каждой из групп.
«Сумма» — сумма элементов каждой из групп.
«Среднее» — средняя выработка в каждой из групп.
«Дисперсия» — рассчитывается дисперсия по каждой из групп;
SS — сумма квадратов;
df — число степеней свободы;
MS – средний квадрат;
F – расчетное значение отношения Фишера;
P — уровень значимости для вычисленного F;
F критическое – табличное значение отношения Фишера.
Результаты расчетов аналогичны результатам, полученным при расчетах вручную.
Двухфакторный дисперсионный анализ в MSExel
Используя данный предыдущего примера, предположим, что у нас есть данные о поле работников. Для проведения двухфакторного дисперсионного анализа в MS Exel необходимо представить данные в виде перекрестной классификации:
1
2
муж
12,1
9,9
11,1
11,4
12,6
13,4
12,9
10,4
11,6
12,9
13,1
12,6
12,6
13,9
жен
12,4
13,4
11,6
12,4
17,3
9,9
12,9
10,2
11,6
11,2
12,4
9,7
13,1
12,6
В меню «Сервис» выбрать команду «Анализ данных» и команду «Двухфакторный дисперсионный анализ с повторениями».
Далее необходимо заполнить окно «Двухфакторный дисперсионный анализ с повторениями»:
«Входной интервал» — вводится ссылка на диапазон, содержащий анализируемые данные.Необходимо отметить не только сами числа, но и заголовок таблицы.
«Число строк для выборки» — необходимо ввести количество повторений в одной ячейке. (Для нашего примера — 7)
«Альфа» — введите уровень значимости, необходимый для оценки критических параметров F-статистики. Уровень альфа связан с вероятностью возникновения ошибки типа I (опровержение верной гипотезы).
«Выходной диапазон» — введите ссылку на левую верхнюю ячейку выходного диапазона. Размеры выходной области будут рассчитаны автоматически, и соответствующее сообщение появится на экране в том случае, если выходной диапазон занимает место существующих данных или его размеры превышают размеры листа.
«Новый лист» — установите переключатель, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки A1. Если в этом есть необходимость, введите имя нового листа в поле, расположенном напротив соответствующего положения переключателя.
«Новая книга» — установите переключатель, чтобы открыть новую книгу и вставить результаты анализа в ячейку A1 на первом листе в этой книге.
Пример заполнения окна «Однофакторный дисперсионный анализ» представлен на рисунке 2.
Рисунок 2 – Пример заполнения окна «Двухфакторный дисперсионный анализ»
Результаты расчетов двухфакторного дисперсионного анализа представлены на рисунке 3.
Дисперсионный анализ
Источник вариации
SS
df
MS
F
P-Значение
F критическое
Выборка
0,001429
1
0,001429
0,000643
0,979986
4,259677
Столбцы
6,412857
1
6,412857
2,884498
0,102366
4,259677
Взаимодействие
3,862857
1
3,862857
1,73751
0,199898
4,259677
Внутри
53,35714
24
2,223214
Итого
63,63429
27
    продолжение
–PAGE_BREAK–