Статистические методы обработки данных

Лабораторнаяработа №1
 
СТАТИСТИЧЕСКИЕМЕТОДЫ ОБРАБОТКИ ОПЫТНЫХ ДАННЫХ. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВБОРКИ
Цель: Научиться основным методамобработки данных, представленных выборкой. Изучить графические представленияданных. Овладеть навыками расчета с помощью ЭВМ основных числовых характеристиквыборки.
Основным объектомисследования в эконометрике является выборка. Выборкой объемаnназываются числа х1.х2….хn получаемые на практике при n – краткомповторении эксперимента в неизменных условиях. На практике выборку чаще всегопредставляют статистическим рядом. Для этого вся числовая ось, на которой лежатзначения выборки, разбивается на kинтервалов( это число выбирается произвольно от 5 до 10), которые обычно равны,вычисляются середины интервалов zn и считается число элементов выборки, попадающих в каждыйинтервал n1. статистическим рядом называется последовательность пар(z1.n1). Рассмотрим решение задачи на ЭВМ и ППП EXCEL на следующей примере.
ПРИМЕР. Дана выборка чисел выручки магазиназа 30 дней:72 74 69 71 73 68 73 77 76 77 76 76 76 64 65 75 70 75 71 69 72 69 78 72 67 72 81 75 72 69
Построим статистическийряд, полигон, гистограмму и кумулятивную кривую.
Откроем книгу программы EXCEL. Введем в первый столбец (ячейкиА1-А30) исходные данные. Определим область чисел, на какой лежат данные. Дляэтого найдем максимальный и минимальный элементы выборки. Введем в В1«Максимум», а в В2 «Минимум», а в соседних ячейках С1 и С2 определим функции«МАХ» и «МIN», в качестве аргументов которых (в графе «число») обведем областьданных (ячейки А1-А30). Результатом будут 64 и 81. видно, что все данныеукладываются на отрезке [64;81]. Разделим его на 9 (выбирается произвольно от 5 до 10) интервалов:
64-66; 66-68: 68-70: 70-72:72-74, 74-76, 76-78, 78-80, 80-82. в ячейке D1-D10 вводим верхниеграницы интегралов группировки – числа 66, 68, 70, 72, 74, 76, 78, 80, 82. Длявычисления частот n1 используют функцию ЧАСТОТА, находящуюся вкатегории «Статистические». Введем ее в ячейку Е1. в строке «Массив данных»введем диапазон выборки (ячейки А1-А30). В строке «Двоичный массив» введемдиапазон верхних границ интервалов группировки (ячейки D1-D9). Результатфункции является массивом и выводится в ячейках Е1-Е9. для полного выбора (нетолько первого числа в Е1) нужно выделить ячейки Е1-Е9, обведя их мышью, инажать F2, а далее одновременноCTRL+SHIFT+ENTER. Результат – частоты интервалов 2,2,5,7,3,7,3,0,1.
Для построениягистограммы нужно выбрать ВСТАВКА/ДИАГРАММА или нажать на соответствующийзначок на основной панели (при этом курсор должен стоять в свободной ячейке) далеевыбрать тип: ГИСТОГРАММА, вид по выборке, нажать «ДАЛЕЕ», в строке «ПОДПИСИ ОСИХ» ввести интервалы ячейках D1-D5, нажать «ДАЛЕЕ» ввести название«ГИСТОГРАММА», подписи осей «ИНТЕВАЛЫ» и «ЧАСТОТА», нажать «ГОТОВО». Длясоздания полигона сделать то же самое, только вместо типа диаграммы«ГИСТОГРАММА», выбрать «ГРАФИК». Для построения кумулятивной кривой нужнопосчитать накопленные частоты. Для этого в ячейку F1 вводим «=Е1», в F2 – вводим «=F1+Е2» иавтозаполнением перетаскиваем эту ячейку до F9. далее строим график как и в случае полигона, но в строке«ДИАПАЗОН» вводим накопленные частоты, ссылаясь на          F1- F9, а на вкладке «РЯД», в строке «ПОДПИСИ ОСИ Х» вводиминтервалы в ячейках D1-D9.
Находим основные числовыехарактеристики выборки. Для их ввода выделяем два столбца, например G и H, в первом вводим название характеристики, во втором –функцию, в которой в качестве массива данных (строка»ЧИСЛО1»), указать ссылкуна А1-А30
Характеристика
Функция Объем выборки 30 Выборочное среднее 72,46666667 Дисперсия 15,63678161 Стандартное отклонение 3,954337063 Медиана 72 Мода 72 Коэффициент эксцесса -0,214617804 Коэффициент асимметрии -0,154098799 Персентиль 40% 72 Персентиль 80% 76
Существует другой способвычисления числовых характеристик выборки. Для этого ставим курсор в свободнуюячейку (например D11). Затемвызываем в меню «Сервис» подменю «Анализ данных». Если в меню «Сервис»отсутствует этот пункт, то в меню «Сервис» нужно выбрать пункт «Надстройки» м внем поставить флажок напротив пункта «Пакет анализа». В окне «Анализ данных»нужно выбрать пункт «Описательная статистика». В появившемся окне в поле«Входной интервал» делаем ссылку на выборку А1-А23. Оставляем группирование «Постолбцам» в разделе «Параметры вывода» ставим флажок на «Выходной интервал» и всоседнем поле создаем ссылку на верхнюю левую ячейку области вывода (например D11), ставим флажок напротив«Описательная статистика», нажимаем «ОК». результат – основные характеристикивыборки (сделайте шире столбцов D,переместив его границу в заголовок).

/>
/>
/>

Лабораторнаяработа № 2
 
ПРОВЕРКАСТАТИСТИЧЕСКИХ ГИПОТЕЗ
Цель: Ознакомиться с методом проверкиосновных статистических гипотез, используемых в экономике, с помощью ЭВМ.
1.ПРОВЕРКА ГИПОТЕЗЫ О СООТВЕТСТВИИ (КРИТЕРИЙ СОГЛАСИЯ)
 
Используется для проверкипредположения о том, что полученные в результате наблюдений данныесоответствуют нормам. Рассматривается гипотеза о том, что отклонения от нормневелики, и ими можно пренебречь. При этом задается доверительная вероятность p которая имеет смысл вероятности неошибиться при принятии гипотезы. Рассмотрим проверку на примере.
ПРИМЕР: 1. при производстве микросхемпроцессоров используются кристаллы кварца. Стандартом предусмотрено, чтобы 50%образцов не было обнаружено ни одного дефекта кристаллической структуры, у 15%- один дефект, у 13% — 2 дефекта, у 12% — 3 дефекта, у 10% более 3 дефектов.При анализе выборочной партии оказалось, что из 100 экземпляров распределениепо дефектам партии оказалось, что из 1000 экземпляров распределение по дефектамследующего (вариант соответствует ЭВМ): Можно ли с вероятностью 0,99 считать,что партия соответствует стандарту?
Введем в А1 заголовок«НОРМА» и ниже в А2-А6 показатели – числа 500, 150, 130, 120, 100. в ячейку В1введем заголовок «НАБЛЮДЕНИЯ» и ниже в В2-В6 наблюдаемые показатели 516, 148,131, 110, 95. в третьем столбце вводятся формулы для критерия: С1 заголовок«КРИТЕРИЙ», в С2 формулу «=(А2-В2)*(А2-В2)/А2». Автозаполнением размножим этуформулу на С3-С6. в ячейку С7 запишем общее значение критерия – сумму столбцаС2-С6. для этого поставим курсор в С6 и вызвав функцию в категории«Математический» найдем СУММ и в аргументе «Число 1» укажем ссылку на С2-С6.получиться результат критерия Z=1,629692308. Для ответа на вопрос, соответствуют ли опытные показатели нормам, Z сравнивают с критическим значением Zkp. Вводим в D1 текст “критическое значение» в Е1 вводим функцию ХИ2ОБР(категория «Статистические») у которой два аргумента: «Вероятность» — вводимуровень значимости α =1-p и«Степени свободы» — вводят число n-1, где n – число норм). Результат 13,27670414.видно, что критическое значение больше критерия, следовательно опытные данные соответствуютстандартным и партия с заданной вероятностью можно отнести как соответствующуюстандарту. Норма Наблюдения Критерий Критическое значение 13,27670414 500 516 0,512 150 148 0,026666667 130 131 0,007692308 120 110 0,833333333 100 95 0,25 1000 1,629692308
2. ПРОВЕРКАГИПОТЕЗЫ О РАВЕНСТВЕ ДИСПЕРСИЙ
Используется в случае,если нужно проверить различается ли разброс данных (дисперсии) у двух выборов.Это может использоваться при сравнении точностей обработки деталей на двухстанках, равномерности продаж товара в течении некоторого периода в двухгородах и т.д. Для проверки статистической гипотезы, о равенстве дисперсийслужит F – критерий Фишера. Основной характеристикой критерия является уровеньзначимости α, которой имеет смысла вероятности ошибиться, предполагая, чтодисперсии и, следовательно, точность, различаются. Вместо α в задачах также иногда задают доверительную вероятность p=1- α, имеющую смысл вероятности того, что дисперсии и всамом деле равны. Обычно выбирают критическое значение уровня значимости,например 0,05 или 0,1, и если α больше критического значения, то дисперсиисчитаются равными, в противном случае, различны. При этом критерий может бытьодносторонним, когда нужно проверить, что дисперсия конкретной выделеннойвыборки больше, чем у другой, и двусторонним, когда просто нужно показать, чтодисперсии не равны. Существует два способа проверки таких гипотез. Рассмотримих на примерах.
ПРИМЕР 2. четыре станка в цеху обрабатываютдетали. Для проверки точности обработки, взяли выборку размеров деталей укаждого станка. Необходимо сравнить с помощью F-теста попарно точности обработки всех станков (рассмотретьпары 1-2, 1-3, 1-4, 2-3, 2-4, 3-4) и сделать вывод, для каких станков точностиобработки (дисперсии) равны, для каких нет. Взять уровень значимости α=0,02.1 станок 29,1 26,2 30,7 33,8 33,6 35,2 23,4 29,3 33,3 26,7 2 станок 29,0 28,9 34,0 29,7 39,4 28,5 35,9 32,6 37,1 28,0 3 станок 25,7 27,5 25,4 28,9 29,9 30,1 29,0 36,6 24,8 27,8 4 станок 32,1 31,0 27,2 29,3 30,4 31,7 30,4 27,3 35,7 31,5
Уровень значимости α=0,02.вводим данные выборок (без подписей) в 4 строчки в ячейки А1-J1 и А2-J2 и т.д. соответственно. Для вычисления ФТЕСТ (массив1; массив2). Вводим А5 подпись А5 «Уровень значимости», а в В5функцию, ФТЕСТ, аргументами которой должны быть ссылки на ячейку А1-J1 и А2-J2 соответственно. Результат 0,873340161 говорит о том, чтовероятность ошибиться, приняв гипотезу о различии дисперсий, около 0,9, что большекритического значения, заданного в условии задачи 0,02. следовательно, можноговорить что опытные данные с большей вероятностью подтверждают предположения отом, что дисперсии одинаковы и точность обработки станков одинакова, такие жерезультаты показало сравнение остальных пар. Следует отметить, что функцииФТЕСТ выходит уровень значимости двустороннего критерия и если нужноиспользовать односторонний, то результат необходимо уменьшить вдвое.29,1 26,2 30,7 33,8 33,6 35,2 23,4 29,3 33,3 26,7 29 28,9 34 29,7 39,4 28,5 35,9 32,6 37,1 28 25,7 27,5 25,4 28,9 29,9 30,1 29 36,6 24,8 27,8 32,1 31 27,2 29,3 30,4 31,7 30,4 27,3 35,7 31,5 Уровень значимости 1 — 2 0,873340161 1 — 3 0,688084317 1 — 4 0,190932274 2 — 3 0,575576041 2 — 4 0,144572063 3 — 4 0,357739717
3.ПРОВЕРКА ГИПОТЕЗЫ О РАВЕНСТВЕ СРЕДНИХ
 
Используется для проверкипредложения о том, что среднее значения двух показателей, представленныхвыборками, значимо различаются. Существует три разновидности критерия: один –для связанных выборок, и два для несвязных выборок (с одинаковыми и разнымидисперсиями). Если выборки не связны, то предварительно нужно проверитьгипотезу о равенстве дисперсий, чтобы определить, какой из критериевиспользовать. Так же как и в случае сравнения дисперсий имеются 2 способарешения задачи, которые рассмотрим на примере.
ПРИМЕР 3. имеются данные о количестве продажтовара в двух городах. Проверить на уровне значимости 0,01 статистическуюгипотезу о том, что среднее число продаж товара в городах различно.23 25 23 22 23 24 28 16 18 23 29 26 31 19 22 28 26 26 35 20 27 28 28 26 22 29

Используем пакет «Анализданных». В зависимости от типа критерия выбирается один из трех: «Парныйдвухвыборочный t-тест для средних» — для связных выборок, и «Двухвыборочныхt-тест с одинаковыми дисперсиями» или «Двухвыборочных t-тест с разнымидисперсиями» — для несвязных выборок. Вызовите тест с одинаковыми дисперсиями,в открывшемся окне в полях «Интервал переменной 1» и «Интервал переменной 2»вводят ссылки на данные (А1-N1 иА2-L2, соответственно), если имеютсяподписи данных, то ставят флажок у надписи «Метки» (у нас их нет, поэтомуфлажок не ставится). Далее вводят уровень значимости в поле «Альфа» — 0,01.Поле «Гипотетическая средняя разность» оставляют пустыми. В разделе «Параметрывывода» ставят метку около «Выходной интервал» и поместив курсор в появившемсяполе напротив надписи, щелкают левой кнопкой в ячейке В7. вывод результатабудет осуществляться начиная с этой ячейки. Нажав на «ОК» появляется таблицарезультата. Сдвиньте границу между столбцами В и С, С и D, D и Е увеличив ширину столбцов В, С и D так, чтобы умещались все надписи. Процедура выводит основныехарактеристики выборки, t-статистику,критические значения этих статистик и критические уровни значимости «Р(Т