Самарский государственныйаэрокосмический университет имени академика С.П.КоролеваКафедра высшей математики
Расчетно-пояснительнаязаписка к курсовойработе по математике
г. Самара
/>Определение законов распределения и числовыххарактеристик случайной величины на основе опытных данных
Задание
В протокол внесено n=100 измерений случайной величины Х.
1. По выборке построитьстатистический ряд и гистограмму.
2. Найти статистическуюфункцию распределения />и построить её график.
3. Вычислить числовыехарактеристики статистического ряда />.
4. Выровнять полученноераспределение с помощью нормального закона.
Построить график теоретической кривой распределения />в одной системе координатс гистограммой.
Построить график теоретической функции распределения />в одной системе координатс графиком функции/>.
5. Найти доверительныйинтервал/>, вкотором находится точное значение математического ожидания m случайной величины Х с доверительной вероятностью />.
6. С помощью критериясогласия />проверитьсогласованность статистического и выбранного теоретического (нормального) распределения.
Генеральная совокупность и выборка, статистический ряди гистограмма
Генеральной совокупностью-называется совокупность всех подлежащихизучению объектов или возможных результатов всех наблюдений, производимых в одинаковыхусловиях над одним объектом.
Выборочной совокупностьюили выборкой называетсясовокупность объектов или результатов наблюдения над объектом, отобранных случайнымобразом из генеральной совокупности.
Объемом выборки называется число объектов или наблюденийв выборке.
Конкретные значения выборкиназываются наблюдаемыми значениями случайной величины Х. Наблюдаемые значения заносятсяв протокол. Протокол представляет собой таблицу. Составленный протокол являетсяпервичной формой записи обработки полученного материала. Для получения достоверных,надежных выводов выборка должна быть достаточно представительной по объему. Большаявыборка – это неупорядоченное множество чисел. Для исследования выборку приводятк наглядному упорядоченному виду. Для этого в протоколе находят наибольшее и наименьшеезначения случайной величины. Выборка, отсортированная по возрастанию, приведенав таблице 1.
Таблица 1. Протокол-8,66 -5,49 -4,11 -3,48 -2,9 -2,32 -1,82 -1,09 -0,44 0,64 -8,31 -4,71 -3,92 -3,41 -2,85 -2,31 -1,82 -1,01 -0,43 0,71 -8,23 -4,68 -3,85 -3,33 -2,83 -2,29 -1,8 -0,99 -0,43 0,73 -7,67 -4,6 -3,85 -3,25 -2,77 -2,27 -1,77 -0,95 -0,31 0,99 -6,64 -4,43 -3,81 -3,08 -2,72 -2,25 -1,73 -0,89 -0,3 1,03 -6,6 -4,38 -3,8 -3,07 -2,67 -2,19 -1,38 -0,7 0,04 1,05 -6,22 -4,38 -3,77 -3,01 -2,6 -2,15 -1,32 -0,56 0,08 1,13 -5,87 -4,25 -3,73 -3,01 -2,49 -2,09 -1,3 -0,51 0,15 1,76 -5,74 -4,18 -3,59 -2,99 -2,37 -2,01 -1,28 -0,49 0,26 2,95 -5,68 -4,14 -3,49 -2,98 -2,33 -1,91 -1,24 -0,48 0,53 4,42
Размахом выборки называется разность между наибольшими наименьшим значением случайной величины Х:
/>
Размах выборки разбивают наk интервалов – разрядов. Число разрядовустанавливают в зависимости от величины размаха выборки от 8 до 25, в этой курсовойработе примем k = 10.
Тогда длина интервала будетравна:
/>
В протоколе подсчитаем числонаблюдаемых значений, попавших в каждый интервал, обозначим их m1, m2,…,m10.
/>.
Назовем mi частотой попадания случайной величины в i интервал. Если какое-либо наблюдаемое значение случайной величинысовпадает с концом интервала, то это значение случайной величины по договоренностиотносят в один из интервалов.
После того как определиличастоты mi, определим частости случайнойвеличины, т.е. найдем отношение частот mi к общему числу наблюдаемых значений n.
/> – частость, условие полноты – />
Найдем середину каждого интервала:
/>.
Составим таблицу 2
Таблица значений границ интервалов/>и соответствующихчастостей />,где i = 1, 2, 3, …, k, называется статистическим рядом. Графическимизображением статистического ряда называется гистограмма. Она строится следующимобразом: по оси абсцисс откладывают интервалы и на каждом таком интервале, как наосновании, строится прямоугольник, площадь которого равна соответствующей частости/>.
/>, /> – высота прямоугольника, />.
ТаблицаНомер интервала Левая граница интервала Правая граница интервала Интервал Середина интервала Частота интервала Частость интервала Высота прямо-угольника 1 -8,66 -7,352 (-8,66; -7,352) -8,006 4 0,04 0,0306 2 -7,352 -6,044 (-7,352; -6,044) -6,698 3 0,03 0,0229 3 -6,044 -4,736 (-6,044; -4,736) -5,39 4 0,04 0,0306 4 -4,736 -3,428 (-4,736; -3,428) -4,082 20 0,2 0,1529 5 -3,428 -2,12 (-3,428; -2,12) -2,774 26 0,26 0,1988 6 -2,12 -0,812 (-2,12; -0,812) -1,466 18 0,18 0,1376 7 -0,812 0,496 (-0,812; 0,496) -0,158 14 0,14 0,1070 8 0,496 1,804 (0,496; 1,804) 1,15 9 0,09 0,0688 9 1,804 3,112 (1,804; 3,112) 2,458 1 0,01 0,0076 10 3,112 4,42 (3,112; 4,42) 3,766 1 0,01 0,0076 Сумма 100 1
/>/>
Рисунок 1.
Статистическая функцияраспределения
Статистической функциейраспределения называетсячастость случайной величины, не превосходящая заданного значения Х:
/>
Для дискретной случайной величиныХ статистическая функция распределения находится по формуле:
/>
Запишем статистическую функциюраспределения в развернутом виде:
/>
где/> — это серединаинтервала i, а /> – это соответствующие частости, гдеi=1, 2,…, k.
/>
Графикстатистической функции распределения есть ступенчатая линия, точками разрыва которойявляются середины интервалов, а конечные скачки равны соответствующим частотам (Рисунок2).
/>
Рисунок2
Вычисление числовых характеристикстатистического ряда/>
/> — статистическое математическое ожидание,
/> — статистическая дисперсия,
/> — статистическое среднеквадратическоеотклонение.
Статистическим математическиможиданием или статистическимсредним называется среднеарифметическое наблюдаемых значений случайной величиныХ.
/>/>
Статистической дисперсиейназывается среднеарифметическое значение величины/>или
/>/>
При большом объеме выборкивычисления по формулам и приводят к громоздким выкладкам. Дляупрощения расчетов используют статистический ряд с границами /> и частостями />, где i = 1, 2, 3, …, k, находятсередины интервалов />, а затем все элементы выборки/>, которые попалив интервал/>,заменяют единственным значением/>, тогда таких значений будет/>в каждом интервале/>.
/>
где/> — среднее значение соответствующегоинтервала/>;/> — частость интервала/>
/>
/>
/>
/>
Вычисление числовых характеристикстатистического ряда сведем в таблицу 3.
Таблица 3. Числовые характеристикиНомер интервала Середина интервала Xi Частость Pi XiPi (Xi-m)^2 (Xi-m)^2*Pi 1 -8,006 0,04 -0,3202 31,48691 1,2595 2 -6,698 0,03 -0,2009 18,51856 0,5556 3 -5,39 0,04 -0,2156 8,97194 0,3589 4 -4,082 0,20 -0,8164 2,84705 0,5694 5 -2,774 0,26 -0,7212 0,14388 0,0374 6 -1,466 0,18 -0,2639 0,86245 0,1552 7 -0,158 0,14 -0,0221 5,00274 0,7004 8 1,15 0,09 0,1035 12,56476 1,1308 9 2,458 0,01 0,0246 23,54850 0,2355 10 3,766 0,01 0,0377 37,95398 0,3795
Статистическое математическое ожидание/> -2,3947
Статистическая дисперсия/> 5,3822
Статистическое среднее квадратическое отклонение/> 2,3200
/> определяет положение центра группировкинаблюдаемых значений случайной величины.
/>, />характеризуют рассеяние наблюдаемыхзначений случайной величины вокруг />
Выравнивание (сглаживание)статистического ряда и статистической функции распределения с помощью нормальногозакона
Выравниваниестатистического ряда
Во всяком статистическом распределениинеизбежно присутствуют элементы случайности. Однако при очень большом числе наблюденийэти случайности сглаживаются, и случайные явления обнаруживают присущую ему закономерность.
При обработке статистическогоматериала приходится решать вопрос о том, как подобрать для данного статистическогоряда теоретическую кривую. Эта теоретическая кривая распределения должна выражатьсущественные черты статистического распределения – эта задача называется задачейсглаживания иливыравнивания статистического ряда.
Иногда общий вид распределенияслучайной величины Х вытекает из самой природы этой случайной величины.
Пусть случайная величина Х– это результат измерения некоторой физической величины прибора.
Х = точное значение физическойвеличины + ошибка прибора.
Случайная ошибка прибора приизмерении имеет суммарную природу и распределена по нормальному закону. Следовательнотакое же распределение имеет случайная величина Х, т.е. нормальное распределениес плотностью вероятности:
/>, где />, />, />.
Параметры />и />определяются так, чтобы числовыехарактеристики теоретического распределения были равны соответствующим числовымхарактеристикам статистического распределения. При нормальном распределении полагают,что />,/>,/>,, тогда функциянормального распределения примет вид:
/>
Вычисления сведем в таблицу4.
Таблица 4.Выравнивающая криваяНомер интервала Середина интервала Xi
/>
Табулированная функция/>
Нормальная кривая /> 1 -8,0060 -2,4187 0,0214 0,0092 2 -6,6980 -1,8549 0,0714 0,0308 3 -5,3900 -1,2911 0,1734 0,0747 4 -4,0820 -0,7273 0,3062 0,1320 5 -2,7740 -0,1635 0,3936 0,1697 m -2,3947 0,3989 0,1720 6 -1,4660 0,4003 0,3682 0,1587 7 -0,1580 0,9641 0,2507 0,1080 8 1,1500 1,5279 0,1242 0,0535 9 2,4580 2,0917 0,0448 0,0193 10 3,7660 2,6555 0,0117 0,0051
Теоретическую нормальную кривуюстроим по точкам />на одном графике с гистограммой статистическогоряда (Ошибка! Источник ссылки не найден.).
/>
Рисунок 3
Выравнивание статистической функции распределения />
Статистическую функцию распределения/>выравниваемфункцией распределения нормального закона:
/>, где/>,/>,/> — функция Лапласа.
Вычисления сведем в таблицу5.
Таблица 5.Функция распределенияНомер интервала Середина интервала Xi
/>
Функция Лапласа
/>
Функция распределения/> 1 -8,0060 -2,4187 -0,4922 0,0078 2 -6,6980 -1,8549 -0,4682 0,0318 3 -5,3900 -1,2911 -0,4017 0,0983 4 -4,0820 -0,7273 -0,2665 0,2335 5 -2,7740 -0,1635 -0,0649 0,4351 m -2,3947 0,5000 6 -1,4660 0,4003 0,1555 0,6555 7 -0,1580 0,9641 0,3325 0,8325 8 1,1500 1,5279 0,4367 0,9367 9 2,4580 2,0917 0,4818 0,9818 10 3,7660 2,6555 0,4960 0,9960
Строим график теоретическойфункции распределения по точкам/>вместе с графиком статистической функциираспределения.
/>
Рисунок 4.
Точечные и интервальныеоценки параметров распределения
Точечные оценкичисловых характеристик случайной величины
Пусть изучается случайнаявеличина Х с математическим ожиданием />и дисперсией/>, оба параметра неизвестны.
Пусть х1, х2, х3, …, хn – выборка, полученная в результате проведения n независимых наблюдений случайной величины Х. Чтобы подчеркнутьслучайный характер величин х1, х2, х3, …, хn перепишем их в виде:
Х1, Х2, Х3, …, Хn, где Хi – значение случайной величины Х в i-ом опыте.
Требуется на основании этихопытных данных оценить математическое ожидание и дисперсию случайной величины. Такиеоценки называются точечными, в качестве оценки m и D можно принять статистическое математическоеожидание /> истатистическую дисперсию />, где
/>, />
До проведения опыта выборкаХ1, Х2, Х3, …, Хn есть совокупность независимых случайныхвеличин, которые имеют математическое ожидание и дисперсию, а значит распределениевероятности такие же как и сама случайная величина Х. Таким образом:
/>,/>, где i=1, 2, 3, …, n.
Исходя из этого, найдем математическоеожидание и дисперсию случайной величины />(пользуясь свойствами математическогоожидания).
/>
/>
Таким образом математическоеожидание статистического среднего />равно точному значению математическогоожидания m измеряемой величины, а дисперсия статистическогосреднего />вn раз меньше дисперсии отдельных результатовизмерений.
/>при/>
Это значит, что при большом объеме выборки Nстатистическоесредние /> являетсявеличиной почти неслучайной, оно лишь незначительно отклоняется от точного значенияслучайной величины m. Этот закон называетсязаконом больших чисел Чебышева.
Точность статистическойоценки. Доверительная вероятность (надежность оценки), доверительный интервал
Точечные оценки неизвестныхзначений математического ожидания и дисперсии имеют большое значение на первоначальномэтапе обработки статических данных. Их недостаток в том, что неизвестно с кокойточностью они дают оцениваемый параметр.
Пусть по данной выборке Х1,Х2, Х3, …, Хn получены точные статистические оценки/>и/>, тогда числовыехарактеристики случайной величины Х будут приближенно равны />. Для выборки небольшогообъема вопрос поточности оценки существенен, т.к между m и/>, D и /> будут недостаточно большие отклонения.Кроме того при решении практических задач требуется не только найти приближенныезначения m и D, но и оценить их точность и надежность. Пусть />, т.е />является точечной оценкойдля m. Очевидно, что/>тем точнее определяет m, чем меньше модуль разности />. Пусть />, где ε>0, тогда, чем меньше ε, тем точнееоценка m. Таким образом, ε>0 характеризуетточность оценки параметра. Однако статистические методы не позволяют категорическиутверждать, что оценка истинного значения m удовлетворяет/>, можно лишь говорить о вероятностиα, с которой это неравенство выполняется:/>
Таким образом, α- этодоверительная вероятность или надежность оценки, значение α выбираютсязаранее в зависимости от решаемой задачи. Надежность α принято выбирать 0.9;0.95; 0.99; 0.999. События с такой вероятностью являются практически достоверными.По заданной доверительной вероятности можно найти число ε>0 из />.
Тогда получим интервал/>, который накрываетс вероятностью α истинное значение математического ожидания m, длина этого интервала равна 2ε.Этот интервал называется доверительным интервалом. А такой способ оценкинеизвестного параметра m – интервальным.
/>
Доверительныйинтервал для математического ожидания нормального распределения случайной величиныпри известном σ.
Пусть дана выборка Х1, Х2,Х3, …, Хn, и пусть по этой выборке найдено />,/>,/>.
Требуется найти доверительныйинтервал/>дляматематического ожидания m с доверительной вероятностьюα. Величина /> есть величина случайная с математическиможиданием/>,/>.
Случайная величина /> имеет суммарнуюприроду, при большом объеме выборки она распределена по закону близкому к нормальному.Тогда вероятность попадания случайной величины в интервал/>будет равна:
/>, где/>
Где/> — функция Лапласа.
Из формулы (3) и таблиц функцииЛапласа находим число ε>0 и записываем доверительный интервал для точногозначения />случайнойвеличины Х с надежностью α.
В этой курсовой работе значениеσ заменим/>, и тогда формула (3) примет вид:
/>
Найдем доверительный интервал/>, в которомнаходится математическое ожидание. При α = 0.99, n = 100, />,/>.
/>
/>
по таблицам Лапласа находим:
/>
Отсюда ε = 0,5986.
/> — доверительный интервал, в которомс вероятностью 99% находится точное значение математического ожидания.
Понятия о критериях согласия
Во многих случаях закон распределенияслучайной величины неизвестен, но на основании опытных данных делается предположениео виде закона распределения случайной величины Х. Однако для окончательного решениявопроса о виде распределения следует проверить согласуются ли результаты наблюденияс высказанным предположением. При этом, если даже предположение о виде распределениясделано правильно, закон распределения наблюдаемой случайной величины будет отличатьсяот теоретического закона, т.к. число наблюдений ограничено.
Поэтому следует выяснить:является ли расхождение между статистическим и теоретическим законами распределениятолько следствием ограниченного числа наблюдений, или оно является чем-то болеесущественным.
Для решения этой задачи служиткритерий согласия. Существует несколько видов критерия согласия: критерий согласияПирсона, Колмогорова, Смирного, Фишера и т.д.
Для проверки гипотезы о законераспределения случайной величины применим критерий согласия Пирсона или c2.
1. Найдем число />
Где/> — частота каждого интервалаили разряда,
n – объем выборки (n = 100),
/> — теоретическая вероятность попаданияслучайной величины в i интервал.
/>
где/>,/> — границы интервалов.
/> – статистическое математическое ожидание,
/> – статистическое среднеквадратическоеотклонение.
/> — функция Лапласа.
Формула (4) следует из формулывероятности попадания случайной величины Х, распределенной по нормальному закону,в интервал (a;b):
/>
2. Определим число степенейсвободы />, гдеK – число интервалов или разрядов, 3 – числосвязей наложенных при выборе теоретического закона распределения. Связи:
1) Условие полноты />,
2) />,
3) />
Замечание: частота mi каждого интервала должна быть не меньше 5 — 8, т.е. в этот интервалдолжно попадать не меньше 5 — 8 значений случайной величины. Если это не выполняется,то малочисленные интервалы следует объединить в один интервал или присоединить ксоседнему, суммируя частоты.
По найденному значению c2 и числу степеней свободы r по таблице вероятностей c2 получим искомое значение вероятности Р и сравним его с выбраннымусловием значимости β = 0.05. Если Р 0.05, то статистический итеоретический законы распределения наблюдаемой случайной величины согласуются, следовательно,нормальное распределение может быть принято в качестве аппроксимирующего закона.Вычисления сведем в таблицу 6.
ТаблицаНомер интервала Левая граница интервала Правая граница интервала
/>
/>
/> mi npi
/> -8,66 -2,7006 -0,4965 1 -8,66 -4,736 -1,0092 -0,3436 0,1530 11 15,2977 1,2074 2 -4,736 -3,428 -0,4454 -0,1720 0,2702 20 27,0156 1,8218 3 -3,428 -2,12 0,1184 0,0471 0,2191 26 21,9110 0,7631 4 -2,12 -0,812 0,6822 0,2524 0,2053 18 20,5320 0,3123 5 -0,812 0,496 1,2460 0,3936 0,1412 14 14,1174 0,0010 6 0,496 4,42 2,9374 0,4983 0,1047 10 10,4726 0,0213
/> 4,1269
Определим число степеней свободы/>.
K = 6, т.к. произошло объединение трёх первыхи трёх последних интервалов в один, так как частота mi каждого интервала должна быть не меньше 5 — 8.
По найденному значению c2 и числу степеней свободы r по таблице вероятностей c2 получим искомое значение вероятности Р = 0,25.
Сравним его с выбранным уравнениемзначимости β = 0,05: 0,25 > 0,05, Р > β.
Вывод: статистический и теоретический законыраспределения наблюдаемой случайной величины согласуются, следовательно, нормальноераспределение может быть принято в качестве аппроксимирующего закона.
/>Список литературы
1.Гмурман В.Е Теория вероятностей иматематическая статистика.
2.Гмурман В.Е Руководство к решениюзадач по теории вероятностей и математической статистике.
3.Данко П.Е., Попов А.Г. Высшаяматематика в упражнениях и задачах.
4.Пискунов Н.С. Дифференциальное иинтегральное исчисления. Т 2.
генеральныйсовокупность статистический распределение