АНАЛИЗ РЯДОВ РАСПРЕДЕЛЕНИЯ
Содержание
Введение
1. Характеристики центра распределения
1.1 Мода
1.2 Медиана
1.3 Показатели дифференциации
2. Характеристикивариации
2.1 Абсолютные характеристики вариации
2.1.1 Расчет дисперсии способом моментов
2.1.2 Расчет дисперсии альтернативного признака
2.1.3 Межгрупповая дисперсия.Правило сложения дисперсий
2.2 Относительные характеристики вариации
3. Теоретические кривые распределения
3.1 Нормальное распределение
3.2 Выравнивание эмпирического распределения по кривойнормального распределения
3.3 Критерии согласия
3.4 Характеристики неравномерности распределения
Введение
Ряд распределения (т.е. упорядоченноераспределение единиц изучаемой совокупности на группы по определенномуварьирующему признаку) характеризует состав, структуру совокупности поопределенному признаку. Его строят для того, чтобы выявить характерраспределения единиц совокупности по варьирующему признаку, определитьзакономерности в этом распределении.
Для анализа ряда распределенияиспользуют ряд статистических характеристик:
частотные характеристики;
характеристики центрараспределения;
характеристики вариации;
характеристики неравномерностираспределения.
Частотные характеристики рядараспределения, а именно, частоты /> ичастости /> (или другое название — доля/>), накопленные (иликумулятивные) частоты />и частости />, абсолютная /> и относительная /> плотность распределения,были рассмотрены в теме «Сводка и группировка статистических данных».
1. Характеристики центра распределения
К характеристикам центрараспределенияотносят среднюю, моду и медиану. Эти характеристикипринято также называть структурными средними, они определяют вид полигона игистограммы, эмпирического закона распределения.
В качестве средней дляхарактеристики центра распределениячаще всего используют среднююарифметическую простую или взвешенную.
1.1 Мода
Мода (Мо) — это варианта,которая чаще всего встречается в изучаемой совокупности. Мода не зависит открайних значений вариант и может применяется для характеристики центра в рядахраспределения с неопределенными границами.
В дискретном вариационном рядумода определяется визуально и равна варианте с наибольшей частотой иличастостью. Данные распределения рабочих по стажу работы (см. лекцию «Сводкаи группировка статистических данных») показывают, что наибольшее рабочихимеют стаж работы 4 года, т.е. варианта, равная 4, является модой признака. Мо= 4.
В интервальных рядахраспределения для нахождения моды сначала по наибольшей частоте определяютмодальный интервал, т.е. интервал, содержащий моду, азатем приблизительно рассчитывают ее по формуле:
/>,
где /> -нижняя граница модального интервала;
/> — величина модальногоинтервала;
/> -частоты соответственно в предыдущем и следующим за модальным интервалах.
Встречаются ряды, которые имеютдве моды (бимодальный ряд) или несколько (полимодальный).
Рассчитаем моду интервальногоряда распределения рабочих по размеру заработной платы (см. лекцию «Сводкаи группировка статистических данных»).
В этом вариационном рядуинтервал 900-1000 грн., в который попало максимальное количество рабочих (9 чел),является модальным.
/> грн.
Полученное значение модысвидетельствует о том, что в рассматриваемой совокупности наиболее типичнойявляется заработная плата 914,29 грн., что выше ранее рассчитанной среднейзарплаты (870 грн).
Для ряда с неравными интерваламимодальный интервал определяется по наибольшей плотности распределения, а врасчетной формуле моды вместо частот используют абсолютные плотностираспределения.
Для интервальных вариационныхрядов с равными интервалами моду можно приближенно определить графически.
Для этого на гистограмме этогоряда (см. гистограмму в лекции «Сводка и группировка статистических данных»)выбирают самый высокий прямоугольник, который и является модальным.
Далее правую верхнюю вершинупрямоугольника, предшествующего модальному (частота fMо-1),соединяют с правой верхней вершиной модального прямоугольника (частота fMо),а левую верхнюю вершину этого прямоугольника — с левой верхней вершинойпрямоугольника, следующего за модальным (частота fMо+1).
Из точки пересечения опускаютперпендикуляр на горизонтальную ось. Основание перпендикуляра покажет значениемоды Мо. Точность определения зависит от масштаба графика.
1.2 Медиана
Медианой Ме называют такоезначение признака, которое приходится на середину ранжированного ряда и делитего на две равные по числу единиц части. Таким образом, в ранжированном рядураспределения одна половина ряда имеет значения признака, превышающие медиану,другая — меньше медианы. Медиану используют вместо средней арифметической,когда крайние варианты ранжированного ряда (наименьшая и наибольшая) посравнению с остальными оказываются чрезмерно большими или чрезмерно малыми.
В дискретном вариационном ряду,содержащем нечетное число единиц, медиана равна варианте признака, имеющейномер
/>:
/>,
где N — число единиц совокупности.
В дискретном ряду, состоящем изчетного числа единиц совокупности, медиана определяется как средняя из вариант,имеющих номера
/> и/>: />.
В распределении рабочих по стажуработы медиана равна средней из вариант, имеющих в ранжированном ряду номера 10:2 = 5 и 10: 2 + 1 = 6. Варианты пятого и шестого признака равны 4 годам, такимобразом
/>года
При вычислении медианы винтервальном ряду сначала находят медианный интервал, (т.е. содержащий медиану),для чего используют накопленные частоты или частости. Медианным являетсяинтервал, накопленная частота которого равна или превышает половину всегообъема совокупности. Затем значение медианы рассчитывается по формуле:
/>,
где /> -нижняя граница медианного интервала; /> -ширина медианного интервала; /> -накопленная частота интервала, предшествующего медианному; /> – частота медианногоинтервала.
Рассчитаем медиану рядараспределения рабочих по размеру зарплаты (см. лекцию «Сводка игруппировка статистических данных»).
Медианным является интервалзаработной платы 800-900 грн., поскольку его кумулятивная частота равна 17, чтопревышает половину суммы всех частот (/>).Тогда
Ме=800+100/>грн.
Полученное значение говорит отом, половина рабочих имеют заработную плату ниже 875 грн., но это вышесреднего ее размера.
Для определения медианы можновместо кумулятивных частот /> использоватькумулятивные частости />.
Медиана, как и мода, не зависитот крайних значений вариант, поэтому также применяется для характеристикицентра в рядах распределения с неопределенными границами.
Свойство медианы: суммаабсолютных величин отклонений вариант от медианы меньше, чем от любой другойвеличины (в том числе и от средней арифметической):
/>
Это свойство медианыиспользуется на транспорте при проектировании расположения трамвайных итроллейбусных остановок, бензоколонок, сборочных пунктов и т. д.
Пример. На шоссе длиной100 км расположено 10 гаражей. Для проектирования строительства бензоколонкибыли собраны данные о числе предполагаемых ездок на заправку по каждому гаражу.
Таблица 2 — Данные о количествеездок на заправку по каждому гаражу. Километр шоссе, на котором расположен гараж 7 26 28 37 40 46 60 78 86 92 Всего ездок Проектируемое число ездок 10 15 5 20 5 25 15 30 10 65 200
Нужнопоставить бензоколонку так, чтобы общий пробег автомашин на заправку былнаименьшим.
Вариант1. Если бензоколонку поставить в середине шоссе, т.е. на 50-ом километре (центрдиапазона изменения признака), то пробеги с учетом числа ездок составят:
а) водном направлении:
/>;
б) впротивоположном:
/>;
в) общийпробег в оба направления: />.
Вариант2. Если бензоколонку поставить на среднем участке шоссе, определенном поформуле средней арифметической с учетом числа ездок:
/>
Тогдапробеги составят:
а) водном направлении:
/>/>
б) впротивоположном:
/>;
в) общийпробег в оба направления, равный /> меньше, чем в первом варианте на 438,5 км.
Вариант3. Если поставить бензоколонку на 78-м километре, что будет соответствоватьмедиане по количеству ездок (накопленное число ездок для 60 км — 95, для 78 км — 125).
Тогдапробеги составят:
а) водном направлении:
/>
б) впротивоположном:
/>;
в) общийпробег: />, меньше общих пробегов, рассчитанных по предыдущимвариантам.
Такимобразом, медиане соответствует наилучший результат, т.е. минимальный общийпробег.
Медиануможно определить графически, по кумуляте (см. лекцию «Сводка и группировкастатистических данных»). Для этого последнюю ординату, равную сумме всехчастот или частостей, делят пополам. Из полученной точки восстанавливаютперпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения и даетзначение медианы.1.3 Показатели дифференциации
Если возникает необходимостьизучить структуру вариационного ряда более подробно, вычисляют значенияпризнака, аналогичные медиане. Такие значения признака, которые делят всеединицы распределения на равные численности, называют квантилями, илиградиентами. Квартили и децили — частные случаи квантилей.
Квартилями (Q)называют значения признака, которые делят совокупность на четыре равные почислу единиц части. Децили (D) — признаки, делящиесовокупность на десять равных частей.
Следовательно, кроме медианы, вряду распределения имеются три квартиля и девять децилей. Медиана одновременноявляется вторым квартилем и пятым децилем. Расчет первого (Q1)и третьего (Q3) квартилей аналогичен расчетумедианы, только вместо медианного интервала берется для первого квартиляинтервал, в котором находится варианта, отсекающая ¼ численности частот,а для третьего квартиля — ¾ численности частот:
/> и />.
Логика построения квинтилей идецилей аналогична.
2. Характеристикивариации
Показатели вариациихарактеризует колеблемость индивидуальных значений признака по отношению ксреднему значению, что не менее важно, чем определение самой средней. Средняяне показывает строения совокупности, как располагаются около нее вариантыосредняемого признака, сосредоточены ли они вблизи средней или значительноотклоняются от нее. Средняя величина признака в двух совокупностях может бытьодинаковой, но в одном случае все индивидуальные значения отличаются от неемало, а в другом эти отличия велики, т.е. в одном случае вариация признакамала, а в другом велика.
Это можно показать на такомпримере. Предположим, что две бригады из 3-х человек каждая выполняютодинаковую работу. Количество деталей, изготовленных за смену отдельнымирабочими, составило:
в первой бригаде — 95, 100, 105;
во второй бригаде — 75, 100, 125.
Средняя выработка на одногорабочего в бригадах составила
/>, />.
Средняя выработка одинакова, ноколеблемость выработки отдельных рабочих в первой бригаде значительно меньше,чем во второй.
Следовательно, чем большеварианты отдельных единиц совокупности различаются между собой, тем больше ониотличаются от своей средней, и наоборот — варианты, мало отличающиеся друг отдруга, более близки по значению к средней, которая в таком случае будет болеереально представлять всю совокупность.
Поэтому для характеристики и измерениявариации признака в совокупности кроме средней используют следующие показатели:
абсолютные — вариационныйразмах, среднее линейное и среднее квадратическое отклонение, дисперсию;
относительные — коэффициентывариации.
2.1 Абсолютные характеристики вариации
Вариационный размах (или размахвариации) — это разница между максимальным и минимальным значениями признака:
/>
В нашем примере размах вариациисменной выработки рабочих составляет: в первой бригаде R=105-95=10 дет., вовторой бригаде R=125-75=50 дет. (в 5 раз больше). Это говорит о том, чтовыработка 1-й бригады более «устойчива», но резервов роста выработкибольше у второй бригады, т.к в случае достижения всеми рабочими максимальнойдля этой бригады выработки, ею может быть изготовлено 3*125=375 деталей, а в1-й бригаде только 105*3=315 деталей.
Если крайние значения признакане типичны для совокупности, то используют квартильный или децильный размахи. Квартильныйразмах RQ= Q3-Q1 охватывает 50% объемасовокупности, децильный размах первый RD1 = D9-D1охватывает 80% данных, второй децильныйразмах RD2= D8-D2 — 60%.
Недостатком показателявариационного размаха является, но что его величина не отражает все колебанияпризнака.
Простейшим обобщающимпоказателем, отражающим все колебания признака, является среднее линейноеотклонение, представляющее собой среднюю арифметическую абсолютных отклоненийотдельных вариант от их средней величины: для несгруппированных данных
/>,
для сгруппированных данных
/>,
где хi – значение признака в дискретном ряду илисередина интервала в интервальном распределении.
В вышеприведенных формулахразности в числителе взяты по модулю, иначе, согласно свойству среднейарифметической, числитель всегда будет равен нулю. Поэтому среднее линейноеотклонение в статистической практике применяют редко, только в тех случаях,когда суммирование показателей без учета знака имеет экономический смысл. С егопомощью, например, анализируется состав работающих, рентабельностьпроизводства, оборот внешней торговли.
Дисперсия признака — это среднийквадрат отклонений вариант от их средней величины:
простая дисперсия
/>,
взвешенная дисперсия
/>.
Формулу для расчета дисперсииможно упростить:
/>
Таким образом, дисперсия равнаразности средней из квадратов вариант и квадрата средней из вариантсовокупности:
/>.
Однако, вследствие суммированияквадратов отклонений дисперсия дает искаженное представление об отклонениях,поэтому ее на основе рассчитывают среднее квадратическое отклонение, котороепоказывает, на сколько в среднем отклоняются конкретные варианты признака от ихсреднего значения. Вычисляется путем извлечения квадратного корня из дисперсии:
для несгруппированных данных
/>,
для вариационного ряда
/>
Чем меньше значение дисперсии исреднего квадратического отклонения, тем однороднее совокупность, тем болеенадежной (типичной) будет средняя величина.
Среднее линейное и среднееквадратичное отклонение — именованные числа, т.е. выражаются в единицахизмерения признака, идентичны по содержанию и близки по значению. Рассчитыватьабсолютные показатели вариации рекомендуется с помощью таблиц.
Таблица 3 — Расчет характеристик вариации (на примере срока данных о сменной выработкерабочих бригады) Группы рабочих по выработке, шт.
Число рабочих, />
Середина интервала, />
Расчетные значения
/>
/>
/>
/>
/> 170-190 10 180 1800 -36 360 1296 12960 190-210 20 200 4000 -16 320 256 5120 210-230 50 220 11000 4 200 16 800 230-250 20 240 4800 24 480 576 11520
Итого: 100 – 21600 – 1360 – 30400
Среднесменнаявыработка рабочих:
/>
Среднеелинейное отклонение:
/>
Дисперсиявыработки:
/>
Среднееквадратическое отклонение выработки отдельных рабочих от средней выработки:
/>.
2.1.1 Расчет дисперсии способом моментов
Вычисление дисперсий связано сгромоздкими расчетами (особенно если средняя величина выражена большим числом снесколькими десятичными знаками). Расчеты можно упростить, если использоватьупрощенную формулу и свойства дисперсии.
Дисперсия обладает следующимисвойствами:
если все значения признакауменьшить или увеличить на одну и ту же величину А, то дисперсия от этого неуменьшится:
/>,
если все значения признакауменьшить или увеличить в одно и то же число раз (h раз), то дисперсия соответственно уменьшится или увеличитсяв /> раз.
То есть, если дисперсиюуменьшенных значений признака описать следующим выражением
/>, то /> или />
Используя свойства дисперсии исначала уменьшив все варианты совокупности на величину А, а затем разделив навеличину интервала h, получим формулу вычислениядисперсии в вариационных рядах с равными интервалами способом моментов:
/>,
где />-дисперсия, исчисленная по способу моментов;
h — величина интервала вариационного ряда;
/> -новые (преобразованные) значения вариант;
А — постоянная величина,в качестве которой используют середину интервала, обладающего наибольшейчастотой; либо вариант, имеющий наибольшую частоту;
/> — квадрат момента первогопорядка;
/> -момент второго порядка.
Выполним расчет дисперсии способоммоментов на основе данных о сменной выработке рабочих бригады.
Таблица 4 — Расчет дисперсии поспособу моментовГруппы рабочих по выработке, шт.
Число рабочих, />
Середина интервала, />
Расчетные значения
/>
/>
/> 170-190 10 180 -2 -20 40 190-210 20 200 -1 -20 20 210-230 50 220 230-250 20 240 1 20 20 Итого
100
–
–
-20
80
Порядокрасчета:
определяемпостоянное число А, это варианта с наибольшей частотой: А=220;
определяем/>;
рассчитываем/> и/>;
определяеммоменты 1-го и 2-го порядка:
/>
/>
рассчитываемдисперсию:
/>
2.1.2 Расчет дисперсии альтернативного признака
Среди признаков, изучаемыхстатистикой, есть и такие, которым свойственны лишь два взаимно исключающихзначения.
Это альтернативные признаки.
Им придается соответственно дваколичественных значения: варианты 1 и 0.
Частостью варианты 1, котораяобозначается p, является доля единиц, обладающих даннымпризнаком. Разность 1-р=q является частостью варианты 0.Таким образом,
хi
wi 1 p q
Средняяарифметическая альтернативного признака
/>, т.к p+q=1.
Дисперсияальтернативного признака
/>,т.к1-р=q
Такимобразом, дисперсия альтернативного признака равна произведению доли единиц,обладающих данным признаком, и доли единиц, не обладающих этим признаком.
Еслизначения 1 и 0 встречаются одинаково часто, т.е. p=q, дисперсия достигаетсвоего максимума pq=0,25.
Дисперсияальтернативного признака используется в выборочных обследованиях, например,качества продукции.
2.1.3 Межгрупповая дисперсия. Правило сложениядисперсий
Дисперсия, в отличие от другиххарактеристик вариации, является аддитивной величиной. То есть в совокупности,которая разделена на группы по факторному признаку х, дисперсиярезультативного признака y может быть разложена на дисперсию в каждой группе (внутригрупповую)и дисперсию между группами (межгрупповую). Тогда, наряду с изучением вариациипризнака по всей совокупности в целом, становится возможным изучение вариации вкаждой группе, а также между этими группами.
Общая дисперсия/>измеряет вариацию признакау по всей совокупности под влиянием всех факторов, вызвавших эту вариацию (отклонения).Она равна среднему квадрату отклонений отдельных значений признака у от общейсредней /> и может быть вычислена какпростая или взвешенная дисперсия.
Межгрупповая дисперсия /> характеризует вариациюрезультативного признака у, вызванную влиянием признака-фактора х, положенногов основу группировки. Она характеризует вариацию групповых средних и равнасреднему квадрату отклонений групповых средних /> отобщей средней />:
/>,
где /> -средняя арифметическая i-той группы;
/> -численность единиц в i-той группе (частота i-той группы);
/> -общая средняя совокупности.
Внутригрупповая дисперсия /> отражает случайнуювариацию, т.е. ту часть вариации, которая вызвана влиянием неучтенных факторови не зависит от признака-фактора, положенного в основу группировки. Онахарактеризует вариацию индивидуальных значений относительно групповых средних,равна среднему квадрату отклонений отдельных значений признака у внутри группыот средней арифметической этой группы (групповой средней) /> и вычисляется как простаяили взвешенная дисперсия для каждой группы:
/> или />,
где /> -число единиц в группе.
На основании внутригрупповыхдисперсий по каждой группе можно определить общую среднюю из внутригрупповыхдисперсий:
/>.
Взаимосвязь между тремядисперсиями получила название правила сложения дисперсий, согласно которомуобщая дисперсия равна сумме межгрупповой дисперсии и средней из внутригрупповыхдисперсий:
/>
Пример. При изучениивлияния тарифного разряда (квалификации) рабочих на уровень производительностиих труда получены следующие данные.
Таблица 5 — Распределениерабочих по среднечасовой выработке.
№
п/п Рабочие 4-го разряда
№
п/п Рабочие 5-го разряда
Выработка
рабочего, шт., />
/>
/>
Выработка
рабочего, шт., />
/>
/>
1
2
3
4
5
6
7
9
9
10
12
13
7-10=-3
9-10=-1
1
2
3
9
1
1
4
9
1
2
3
4
14
14
15
17
14-15=-1
1
2
1
1
4
/> 60 – 24 S 60 – 6
Вданном примере рабочие разделены на две группы по факторному признаку х-квалификации, которая характеризуется их разрядом. Результативный признак /> -выработка — варьируется как под его влиянием (межгрупповая вариация), так и засчет других случайных факторов (внутригрупповая вариация). Задача заключается визмерении этих вариаций с помощью трех дисперсий: общей, межгрупповой ивнутригрупповой.
Определяемгрупповые и общую средние выработки, шт:
попервой группе />шт.,
повторой группе />шт.,
подвум группам />шт.
Рассчитываеми заносим в таблицу /> и />.
Рассчитываемвнутригрупповые дисперсии:
попервой группе />,
повторой группе />
Внутригрупповыедисперсии показывают вариации выработки в каждой группе, вызванные всемивозможными факторами (состояние оборудования, обеспеченность материалами иинструментами, возраст рабочих и т.д.), кроме различий в квалификации, т.к внутригруппы все рабочие имеют одинаковый разряд.
Вычисляемсреднюю из внутригрупповых дисперсий:
/>
Средняядисперсия отражает вариацию выработки, обусловленную всеми факторами, кромеквалификации, но в среднем по совокупности.
Межгрупповаядисперсия, характеризует вариацию среднегрупповых выработок, вызваннуюразличием групп рабочих по квалификационному разряду:
/>
Вычисляемобщую дисперсию совокупности, которая отражает суммарное влияние всех возможныхфакторов на общую вариацию выработки изделий всеми рабочими:
/>
Определяемобщую дисперсию по правилу сложения дисперсий:
/>
Очевидно,что чем выше доля межгрупповой дисперсии /> в общей дисперсии />, тем сильнее влияние факторного признака (разряда) нарезультативный (выработку).
Этадоля характеризуется эмпирическим коэффициентом детерминации:
/>
Эмпирическийкоэффициент детерминации показывает долю вариации результативного признака упод влиянием факторного признака х. Остальная часть общей вариации у вызванаизменением прочих факторов.
Впримере эмпирический коэффициент детерминации равен:
/> или66,7%,
Этоозначает, что на 66,7% вариация производительности труда рабочих обусловленаразличиями в квалификации, а на 33,3% — влиянием прочих факторов.
Эмпирическоекорреляционное отношение показывает тесноту связи между группировочным ирезультативными признаками. Рассчитывается как корень квадратный изэмпирического коэффициента детерминации:
/>
Эмпирическоекорреляционное отношение />, как и />, может принимать значения от 0 до 1.
Еслисвязь отсутствует, то />=0. В этом случае />=0, то есть групповые средние равны между собой имежгрупповой вариации нет. Значит группировочный признак — фактор не влияет наобразование общей вариации.
Еслисвязь функциональная, то />=1. В этом случае дисперсия групповых средних равна общейдисперсии (/>), то есть внутригрупповой вариации нет. Это означает, чтогруппировочный признак полностью определяет вариацию изучаемого результативногопризнака.
Чемближе значение корреляционного отношения к единице, тем теснее, ближе кфункциональной зависимости связь между признаками.
Длякачественной оценки тесноты связи между признаками пользуются соотношениямиЧэддока.
/> 0-0,2 0,2-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99 1 Сила связи отсутствует очень слабая слабая умеренная заметная тесная весьма тесная
функцио-
нальная
Впримере />, что свидетельствует о тесной связи междупроизводительностью труда рабочих и их квалификацией.
2.2 Относительные характеристики вариации
При сравнении вариации различныхпризнаков или одного признака в различных совокупностях, используютотносительные характеристики вариации — коэффициенты вариации.
Коэффициенты вариациирассчитываются как отношение абсолютных характеристик вариации (R,d,s) к центру распределения и часто выражаютсяпроцентами. Линейный коэффициент вариации: />.Квадратичный коэффициент вариации: />. Коэффициентосциляции: />
Квадратичный коэффициентвариации используют как критерий однородности совокупности. Совокупностьсчитается однородной, если />
Если центр распределенияпредставлен медианой, то используют квартильный коэффициент вариации:
/>
3. Теоретические кривые распределения
В вариационных рядахраспределения существует определенная связь между изменением частот и значенияварьирующего признака: частоты с ростом значения признака сначалаувеличиваются, а затем после достижения какой-то максимальной величины всередине ряда уменьшаются. Значит, частоты в рядах изменяются закономерно всвязи с изменением варьирующего признака. Такого рода закономерные изменениячастот в вариационных рядах называются закономерностями распределения.
Анализ вариационных рядовпредполагает выявление такой закономерности распределения, определение ее типаи построение теоретической кривой распределения, характеризующей данный типраспределения. Под кривой распределения понимают графическое изображение в виденепрерывной линии изменения частот в вариационном ряду, функциональносвязанного с изменением вариант. Эмпирической (фактической) кривой распределенияявляется полигон. Под теоретическим распределением понимают вероятностноераспределение частот в наблюдаемом вариационном ряду.
В практике статистическогоисследования встречаются распределения: нормальное, логарифмическое,биноминальное, Пуассона и др.3.1 Нормальное распределение
При построении статистическихмоделей наиболее часто применяется нормальное распределение. Распределениенепрерывной случайной величины х называют нормальным, если описываетсяследующей кривой:
/>
где /> -ордината кривой нормального распределения (частости);
е=2,7182 — основаниенатурального логарифма;
p=3,1415- постоянное число:
/>-нормированное отклонение.
Кривая нормального распределениясимметрична относительно />,поэтому величину />называют центромраспределения. На ее вид влияют значения /> иs. Чем больше s при неизменной />, темболее плоской и растянутой вдоль оси абсцисс становится кривая, и наоборот.
Если s остается неизменной, а /> изменяется,то кривые нормального распределения имеют одинаковую форму, но отличаютсяположением максимальной ординаты.
Особенности кривой нормальногораспределения (рис.2):
Кривая симметрична и имеет максимумв точке, где />.
Кривая асимптотическиприближается к оси абсцисс, продолжаясь в обе стороны до бесконечности.
Кривая имеет две точки перегибапри t = ±1, т.е.при таких значениях х, когда отклонение варианты от средней равно среднемуквадратическому отклонению: />.
При нормальном распределении 68,3%всех исследуемых частот находятся в пределах от /> до/>. В промежутке,ограниченном точками />, находится 95,4%,а в промежутке />, соответственно,99,7% всех частот исследуемой совокупности (рис.1).
y
/>
/>
s s х
Рис.1. Кривая нормальногораспределения
3.2 Выравнивание эмпирического распределения покривой нормального распределения
В анализе распределения большоезначение имеет, насколько эмпирическое распределение признака соответствуетнормальному. Для этого частоты фактического распределения нужно сравнить стеоретическими, которые характерны для нормального распределения. Значит, нужнопо фактическим данным вычислить теоретические частоты кривой нормальногораспределения, являющиеся функцией нормированных отклонений (см. уравнениекривой />).
Иначе говоря, эмпирическуюкривую распределения нужно выравнить кривой нормального распределения.
Порядок расчета теоретическихчастот кривой нормального распределения:
по эмпирическим даннымрассчитывают среднюю арифметическую ряда /> исреднее квадратическое отклонение s; находятнормированное отклонение t каждой варианты от средней арифметической;по таблице распределения функции /> определяютее значения; вычисляют теоретические частоты по формуле:
/>,
где N — объем совокупности,
і — длина интервала;
строят и сравнивают графикиэмпирические и теоретических частот (кривых распределения).
Сумма теоретических и эмпирическихчастот должна быть равной, но может не совпадать из-за округлений в расчетах.
3.3 Критерии согласия
Так как все предположения охарактере того или иного распределения — это гипотезы, то они должны бытьподвергнуты статистической проверке с помощью критериев согласия, которые даютвозможность установить, когда расхождения между теоретическими и эмпирическимичастотами следует признать несущественными, т.е. случайными, а когда — существенными (неслучайными). Таким образом, критерии согласия позволяютотвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезыо характере распределения в эмпирическом ряду.
Существует ряд критериевсогласия. Чаще применяют критерии Пирсона, Романовского и Колмогорова.
Критерий согласия Пирсона/> — один из основных:
/>
где k — число групп, на которые разбито эмпирическое распределение,
/>-наблюдаемая частота признака в i-й группе,
/> — теоретическая частота.
Для распределения /> составлены таблицы, гдеуказано критическое значение критерия согласия />длявыбранного уровня значимости /> истепеней свободы df. (или />)
Уровень значимости /> – вероятность ошибочногоотклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнутаправильная гипотеза. В статистике пользуются тремя уровнями: a= 0,10, тогда Р=0,90 (в 10 случаях их 100может быть отвергнута правильная гипотеза); a=0,05, тогда Р=0,95; a= 0,01, тогдаР=0,99.
Число степеней свободы df определяется как число групп в ряду распределения минусчисло связей: df = k -z. Под числом связей понимаетсячисло показателей эмпирического ряда, использованных при вычислениитеоретических частот, т.е. показателей, связывающих эмпирические итеоретические частоты.
Например, при выравнивании покривой нормального распределения имеется три связи:
/>;/>; />.
Поэтому при выравнивании покривой нормального распределения число степеней свободы определяется как df = k -3.
Для оценки существенностирасчетное значение /> сравнивается стабличным />.
При полном совпадении теоретическогои эмпирического распределений />, впротивном случае />>0. Если />>/>, то при заданном уровнезначимости и числе степеней свободы гипотезу о несущественности (случайности) расхожденийотклоняем.
В случае, если />, заключаем, чтоэмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределениии с вероятностью Р= (1-a) можноутверждать, что расхождение между теоретическими и эмпирическими частотамислучайно.
Критерий согласия Пирсона используется,если объем совокупности достаточно велик />,при этом частота каждой группы должна быть не менее 5.
Критерий Романовского соснован на использовании критерия Пирсона, т.е. уже найденных значений />, и числа степеней свободы df:
/>
Он удобен при отсутствии таблицдля />.
Если с3, то не случайны и теоретическоераспределение не может служить моделью для изучаемого эмпирическогораспределения.
Критерий Колмогорова l основан на определении максимальногорасхождения между накопленными частотами и частостями эмпирических итеоретических распределений:
/> или/>,
где D и d — соответственно максимальнаяразность между накопленными частотами /> инакопленными частостями /> эмпирическогои теоретического рядов распределений;
N — число единиц совокупности.
Рассчитав значение l, по таблице Р (l) определяют вероятность, с которой можно утверждать, чтоотклонения эмпирических частот от теоретических случайны. Вероятность Р (l) может изменяться от 0 до 1. При Р (l) =1 происходит полное совпадение частот, Р(l) =0 — полное расхождение. Если l принимает значения до 0,3, то Р (l) =1.
Основное условие использованиякритерия Колмогорова — достаточно большое число наблюдений.
3.4 Характеристики неравномерности распределения
Симметричный вариационный ряд — эторяд, в котором частоты вариант, равностоящих от средней влево и вправо, равнымежду собой.
/>
Необходимым, но недостаточнымусловием симметричности является равенство трех характеристик: среднейарифметической, моды и медианы: />= Ме=Mо
Этим соотношением пользуются дляраспознавания симметричности вариации.
Нормальное распределение, какотмечалось, характеризуется симметричностью. Поэтому сравнение фактическогораспределения с нормальным прежде всего констатирует отсутствие или наличие внем асимметрии распределения. Асимметричные распределения встречаются чаще, чемсимметричные.
Асимметричный вариационный ряд — это ряд, в котором частоты вариант, равностоящих от средней влево и вправо, неравны между собой и изменяются по-разному. Часто такой ряд называют скошенным
Различают правостороннюю и левостороннююасимметрию (скошенность).
Ряд с правосторонней асимметриейимеет такой вид распределения частот
/>
В рядах с правостороннейасимметрией />>Ме>Mо, то естьнаименьшим является значение моды, а наибольшим — средней.
Ряд с левосторонней асимметриейимеет такой вид распределения частот:
/>
В рядах с левостороннейасимметрией />
Как видно из приведенныхрисунков, асимметрию легко определить визуально по виду полигона илигистограммы распределения. При левосторонней асимметрии относительно центрараспределения наблюдается длинная левая ветвь кривой распределения, тогда какпри правосторонней асимметрии — правая ветвь этой кривой.
В качестве показателя асимметрииприменяется коэффициент асимметрии Пирсона:
/>.
Если Ка >0, скошенность правосторонняя, если Ка
Кроме симметричностирасположения кривой относительно ординаты средней арифметической, сравнениефактического распределения с нормальным производится и на эксцесс. Подэксцессом распределения понимается высоковершинность или, наоборот,низковершинность фактической кривой распределения по сравнению с нормальнымраспределением:
/>
Высоковершинность означаетположительный эксцесс и характеризует скопление частот в середине. Низковершинностьозначает отрицательный эксцесс и большую разбросанность членов ряда.