Параметричні і непараметричні критерії для перевірки гіпотез

Параметричні і непараметричні критерії для перевірки гіпотез
 
 

1.Відомості про деякі відомі розподіли
Дискретнавипадкова величина (біноміальний розподіл) описується схемою Бернуллі: якщовипадкова подія А в n незалежних іспитах зустрілася m разів, то р – імовірністьпояви події А у кожному іспиті. Формула Бернуллі (дозволяє оцінити імовірністьтого, що серед n взятих навмання елементів виявиться m очікуваних. Данийрозподіл характеризується двома параметрами: середнім числом очікуваногорезультату />(математичне очікування) ідисперсією частоти події А в n незалежних іспитах
/>
і маєвигляд
/>
Граничнимвипадком біноміального розподілу є формула Пуассона:
/>
Випадковавеличина розподілена за законом Пуассона, якщо вона приймає рахункову множинуможливих значень 0, 1, 2, з імовірностями />.Коли у схемі Бернуллі імовірність появи події А (величина p = соті чи тисячнічастини одиниці), тобто частина успіхів дуже мала, розподіл частот таких рідкихподій у n іспитах стає несиметричним і зазвичай описується формулою Пуассона.Розподіл характеризується одним параметром – середньою величиною, рівною a,середнє квадратичне відхилення в даному випадку також дорівнює а. Для такогорозподілу характерна висока варіація. Зі зростанням значень а розподіл прагнедо нормального закону. Розподіл Пуассона є моделлю, яку можна використовуватидля опису випадкового числа появи визначених подій у фіксованому проміжку часу.
Безперервнийрозподіл – це рівномірний розподіл на відрізку [0,1]:
/>
Безперервнийрозподіл можна розповсюджувати на випадок відрізка [0,1], тодіімовірність приймати значення в будь-якій точці відрізка дорівнює />. Математичне очікуваннярозподілу дорівнює />, дисперсіядорівнює />.
Безперервнийекспонентний (показовий) розподіл має вигляд:
/>
де /> – параметр експонентногорозподілу.
Математичнеочікування дорівнює />, а дисперсія – />.
5.Розподіл Максвелла (безперервний розподіл) має вигляд:
/>
іописує асиметричні розподіли. У цій формулі параметр а дорівнює середньомуарифметичному, помноженому на величину 0,6267. Характерною ознакою розподілуМаксвелла є рівність середнього квадратичного відхилення величини 0,674а. Криварозподілу за формулою нагадує нормальний розподіл, але починається від нуля,крутіше піднімається з боку малих значень випадкової величини і потім, досягшимаксимуму, більш полого спадає убік великих значень. Такий розподіл виникає,наприклад, при побудові розподілу осіб і популяції за їхніми відстанями дооптимального фенотипу, що зворотньопропорційні їх фенотиповій цінності.
РозподілШарльє (безперервний) має вигляд:
/>
дер(x) – щільність нормального розподілу;
р?(x) – похіднавідповідного порядку щільності нормального
розподілу р(х);
Ах –асиметрія;
Ех –ексцес.
РозподілШарльє описує асиметричний розподіл з вираженим ексцесом, що виникає припорушенні форми кривої, характерної для нормального розподілу. Така криварозподілу є асиметричною, її звоноподібна вершина стає пікоподібною, чи трапецієподібною.За допомогою розподілу такого виду «конструюються» порушення нормальної формирозподілу.
Гамма-розподіл(безперервний) має вигляд:
/>
де Г(a) – гамма-функція. Її визначення заЕйлером задається співвідношенням:

/>
Основні властивості гамма-функції: Г(1)=1, Г (х+1)=хГ(х).
Гамма-функція являє собою двопараметричний розподіл, де a – параметрформи, а b – параметр масштабу. Математичне очікуваннядорівнює ab, дисперсія задаєтьсяспіввідношенням: ab2, мода дорівнює (a-1)b при a?1. Гамма-функціяє безперервним аналогом негативного біноміального розподілу. При a=1 гамма-розподілзбігається з показовим, при a=n, b=1/(nгамма-розподіл називається ерлангівським розподілом з параметрами (n,m) і описуєрозподіл тривалості інтервалу часу до появи n подій процесу Пуассона з параметромm.
2. Параметричні критерії для перевірки гіпотези провідмінність (або схожість) між середніми значеннями
Отже, якщо ваші вибірки мають нормальний розподіл, для перевіркистатистичних гіпотез на їх основі можна користуватися параметричнимикритеріями. Найпоширенішим параметричним методом оцінки відмінностей міжпорівнюваними середніми значеннями незалежних вибірок є критерій Стьюдента, абоt-критерий.Нульовагіпотеза полягає в рівності генеральних середніх М1 і М2,(М1 – М2)= 0 сукупностей, з яких були взятівибірки, або, іншими словами, перевіряється нульова гіпотеза про приналежністьдвох порівнюваних вибірок однієї і тієї самої генеральної сукупності. T-критерій, що перевіряється,виражається у вигляді відношення різниці відповідних вибіркових середніх допомилки такої різниці, тобто
/> або />

де ?d – стандартна помилка різниці вибіркових середніхзначень, ?х1, ?х2– стандартні помилки середніх значеньпорівнюваних вибірок.
Треба звернути увагу, що дисперсія різниці (так само, як ідисперсія суми) двох середніх значень дорівнює сумі дисперсій цих середніхзначень.
Для перевірки критерію знак різниці середніх значень не відіграєролі, тому у формулі для розрахунку тестової статистики береться модульрізниці. Проте знак різниці важливий для інтерпретації результатів порівняння івисновку про перевагу одного з порівнюваних методів. Надалі при порівнянніпараметрів у формулах для тестових статистик ми опускатимемо знак модуля.
Гіпотезу про рівність математичних очікувань відкидають, якщофактично отримана величина t-критерію перевершить або виявиться рівноютабличному значенню для прийнятого рівня значимості і числа ступенів свободи.При цьому робиться висновок про наявність статистично значимих відмінностей міжсередніми значеннями на відповідному рівні значимості.
Формули для розрахунку тестової статистики і числа ступенівсвободи дещо розрізняються залежно від рівності або нерівності дисперсійпорівнюваних сукупностей. Це питання вимагає уважного розгляду, особливо длявибірок малого об’єму (n
У разі рівності дисперсій або вибірок достатньо великого об’ємупомилка різниці середніх ?dвизначається за такими формулами:
для нерівночисельних вибірок при n1?n2
/>
длярівночисельних вибірок при n1= n2 формула дещоспрощується:

/>
Число ступенів свободи для випадку рівних дисперсій дорівнює />. Якщо хоча бодна з порівнювальних вибірок мала, то спочатку слід перевірити гіпотезу прорівність дисперсій вибірок. Залежно від відповіді на це запитання подальше порівняннясередніх арифметичних проводять двома різними способами.
Для перевірки гіпотези про рівність генеральних дисперсійкористуються критерієм Фішера. При цьому обчислюють показник Фішера, щодорівнює відношенню більшої вибіркової дисперсії до меншої: /> Показник Фішера завжди F> 1, а прирівності дисперсій F=1. Чим значніше нерівність, тим більше значенняпоказника і навпаки. Функція F табульована і залежить від чисел ступенівсвободи. Якщо обчислене значення F перевищить відповідне табличне значення ігіпотеза про рівність дисперсій буде знехтувана, то це означає, що вибірки буливзяті з сукупностей з різними дисперсіями.
Для порівняння двох залежних вибірок або вибірок з попарнопов’язаними варіантами перевіряють гіпотезу про рівність нулю середньогозначення їх попарних різниць.Така задача виникає, коли є дані про змінуознаки, що нас цікавить, у кожного пацієнта. Наприклад, якщо група пацієнтіводержувала метод лікування, що вивчається, і у кожного пацієнта вимірювалосязначення ознаки до і після лікування. В даному випадку належить перевіритинульову гіпотезу про рівність нулю змін цієї ознаки в результаті отриманнятерапії.
 

3. Непараметричні критерії для перевірки гіпотези провідмінність (або схожість) між середніми значеннями
Для порівняння середніх значень може застосовуватися і цілий ряднепараметричних критеріїв, серед яких важливе місце займають так звані ранговікритерії. Використання цих критеріїв було засновано на ранжируванні членівпорівнювальних груп. При цьому порівнюються не самі члени ранжированого ряду, аїх порядкові номери або ранги. Під час розв’язання конкретної задачі дужеважливо правильно обрати критерій.
Наведемо U-критерий Уїлкоксона (Манна–Уітні)для перевіркигіпотези про приналежність порівнюваних незалежних вибірок до однієї і тієїсамої генеральної сукупності. Гіпотезу перевіряють, розташувавши в узагальненийряд значення порівнювальних вибірок у зростаючому порядку. Всім значеннямотриманого узагальненого ряду привласнюються ранги від 1 до N=n1+n2. Для кожноївибірки знаходяться суми рангів R і розраховуються статистики: /> для /> та/> — номер вибірки.
Якщо нульова гіпотеза вірна і вибірки були взяті з однієї і тієїсамої генеральної сукупності, ми не повинні очікувати переважання спостереженьз однієї вибірки на одному з кінців з’єднаного варіаційного ряду, їх значеннямають бути достатньо рівномірно розсіяні по всьому узагальненому ряду. Такимчином, дуже великі або дуже малі значення статистики R мають примусити насзасумніватися у справедливості нульової гіпотези. Як тестову статистикувибирають мінімальну величину U і порівнюють її з табличним значенням дляприйнятого рівня значимості. Гіпотеза приймається, і відмінності вважаютьсянедостовірними, якщо розраховане значення більше відповідного табличного.
Зазвичай у таблицях наводяться критичні значення даного критеріюдля об’єму вибірок 20 або 40. У разі вибірок більшого об’єму для перевіркиданого критерію застосовується нормальна апроксимація. Тоді критичні значеннядля критерію U можна розрахувати за формулою:
/>
де />– критичнізначення стандартного нормального розподілу, визначені за таблицями. Требазвернути увагу, що якщо є однакові варіанти, їм привласнюється середній ранг,проте значення останнього рангу має дорівнювати n1+n2. Це правиловикористовують для перевірки правильності ранжирування.
У разі попарно зв’язаних вибірок застосовується Т-критерійУїлкоксона.При цьому попарні різниці – позитивні і негативні (окрімнульових) в один ряд так, щоб найменша абсолютна різниця (без урахування знака)отримала перший ранг, однаковим величинам привласнюють один ранг. Окремообчислюють суму рангів позитивних (T+) і негативних різниць (Т-), меншу з двохтаких сум без урахування знака вважають тестовою статистикою даного критерію.Нульову гіпотезу приймають на даному рівні значимості, якщо обчисленастатистика перевершить табличне значення (число парних спостережень зменшуютьна число виключених нульових різниць). Таким чином, можна сказати, що якщонульова гіпотеза вірна, статистики T+ і T – приблизно рівні, порівняно малі абовеликі значення T-статистик примусять нас відхилити нульову гіпотезу провідсутність відмінностей.
Приклад. Припустимо, в результаті проведення дослідження бувобчислений ряд попарних різниць між показником ефекту в двох попарно пов’язанихгрупах (n1 = n2 = 10) (наприклад, такзвана задача «до і після»): 0,2 -0,4 0,7 -0,9 1,3 1,5 -0,1 0,8 -1,0 1,1.Ранжируємо попарні різниці в один ряд, незалежно від знака різниці, одержуємотакий ранжирований ряд: -0,1 0,2 -0,4 0,7 0,8 -0,9 -1,0 1,1 1,3 1,5.
Розрахуємо окремо суму рангів позитивних (Т+)і негативних(T-) різниць, унашому випадку T+ = 2 + 4 + + 5 + 8 + 9+10 = 38, T- = 1 + 3 + 6 + 7= 17. Дляперевірки двостороннього T-критерію використовуємо меншу статистику T – =17 іпорівнюємо її з табличним значенням для числа попарних різниць n = 10 і рівнязначимості 5%. Таке табличне критичне значення дорівнює 9. Розрахованемінімальне значення T статистики перевершує відповідне табличне значення, а, отже,нульова гіпотеза залишається в силі.
У разі аналізу результатів клінічних досліджень непараметричнікритерії корисні не тільки для аналізу кількісних даних, а також при якіснійабо альтернативній формі представлення ознак.
 
4. Порівняння середніх значень декількох вибірок (множинніпорівняння)
 
Наведений вище критерій Стьюдента може бути використаний дляперевірки гіпотези про відмінність середніх тільки для двох груп. Якщо пландослідження припускає порівняння більшої кількості груп, абсолютно неприпустимопросто порівнювати їх попарно. Проте дисперсійний аналіз дозволяє перевіритилише гіпотезу про рівність всіх порівнюваних середніх. Але, якщо гіпотеза непідтверджується, не можна дізнатися, яка саме група відрізнялася від інших. Цедозволяють зробити методи множинного порівняння, які в свою чергу такожпараметричні і непараметричні. Ці методи дають можливість провести множинніпорівняння так, щоб імовірність хоча б одного невірного висновку залишалася напочатково вибраному рівні значимості а, наприклад, а = 5%.
Серед параметричних критеріїв найбільш відомі критерій Стьюдентадля множинних порівнянь, критерій Ньюмена-Кейлса, критерій Тьюккі, критерійШеффе, критерій Даннета, а серед непараметричних – критерій Краськела-Уолліса,медіанний критерій та ін.
Розглянемо деякі критерії. Ще раз звертаємо увагу, що довикористання цих критеріїв треба вдаватися у випадку, якщо дисперсійний аналізпоказав наявність значущих відмінностей між середніми значеннями вибірок.
Літерою m позначимо число порівнювальних груп.
Критерій Стьюдента для множинних порівнянь був заснований навикористовуванні нерівності Бонферроні: якщо k-разів застосуватикритерій з рівнем значимості а, то імовірність хоча б в одному випадку знайтивідмінність там, де його немає, не перевищує результату від перемноження двохмножників k на а. З нерівності Бонферроні виходить, що якщо ми хочемозабезпечити імовірність помилки а’, то в кожному з порівнянь ми маємо прийнятирівень значимості а’/k – це і є поправка Бонферроні (k – числопорівнянь). Зрозуміло, що таке зменшення у декілька разів рівня значимостіробить тест достатньо «жорстким» із зростанням числа порівнянь, встановитивідмінності стає достатньо важко. Щоб дещо пом’якшити даний тест, користуютьсяузагальненою оцінкою внутрішньогрупової дисперсії, число ступенів свободи прицьому зростає, що в свою чергу призводить до зменшення критичного значення дляперевірки тесту. Цей метод добре працює, якщо число порівнянь невелике,зазвичай не більше 8.
При великому числі порівнянь критерій Ньюмена–Кейлса і критерійТьюккі дають більш точну оцінку імовірності а’.
Іноді задача полягає в тому, щоб порівняти декілька груп з єдиною –контрольною. Зазвичай можна використовувати будь-який із вказаних вище методів:попарно порівняти всі групи, а потім вибрати тільки ті порівняння, в яких бралаучасть контрольна група. Проте через велику кількість зайвих порівнянь критичнезначення виявиться невиправдано високим. Для вирішення цієї задачі статистикиіснують спеціальні методи, наприклад, ще одна модифікація критерію Стьюдента зпоправкою Бонферроні і критерій Даннета. У разі використання поправкиБонферроні необхідно враховувати реальне число порівнянь для цієї задачі, вонодорівнює числу груп m-1 і відповідно розрахувати рівень значимості а = а’/(m – 1).
Критерій Даннета більш чутливий, ніж попередній, особливо привеликій кількості груп. Критерій Даннета є модифікацією критерія Ньюмена–Кейлса.Для перевірки критерію Даннета середні значення для всіх груп упорядковуютьсяза абсолютною величиною їх відмінності від контрольної групи, порівнянняпочинають з групи, найвідміннішої від контролю. Для звернення до таблиці дляперевірки критерію використовується ще один параметр, який є числомпорівнювальних груп разом з контрольною. Обчислене значення q порівнюється зтабличним значенням, якщо воно перевищує або дорівнює табличному, робитьсявисновок про наявність статистично значущої відмінності. Число ступенів свободидля цього критерію також дорівнює N – m, де N –сумарна чисельність всіхгруп, m– числопорівнювальних груп. Якщо відмінності з черговою групою не знайдені, порівнянняприпиняються.
Непараметричний критерій Краснела–Уолліса для порівняння середніхзначень декількох незалежних вибірок був заснований на побудові з’єднаноговаріаційного ряду з варіант даних вибірок і привласненні рангів усім варіантамв поєднаному ряді об’ємом N. Далі обчислюються статистики Ri для кожної даноївибірки окремо, що дорівнюють сумам рангів в узагальненому ряді варіант, яківходять у дану i-у вибірку. При цьому для кожного спостереження в конкретній вибірціми можемо вказати середній ранг, рівний Ri/ni, для всіх i від 1 до m. Якщо виконуєтьсянульова гіпотеза і всі сукупності мають один і той самий розподіл, то можнаочікувати, що всі середні ранги приблизно рівні. А саме вони приблизно рівнізагальному середньому рангу R.
Для попарного порівняння груп або попарного порівняння груп зоднією контрольною відомі непараметричні аналоги параметричних критеріївНьюмена-Кейлса і Даннета.
Непараметричний критерій Фрідмана застосовується для аналізуповторних вимірювань, пов’язаних з одним і тим самим індивідуумом. Длявикористання цього критерію стовпчики таблиці відображають різні значеннязмінної ефекту, а рядки відповідають повторним вимірюванням одного і того самогосуб’єкта. За допомогою критерію Фрідмана ми перевіряємо нульову гіпотезу проте, що різні методи лікування дають практично однакові результати. Процедураполягає у впорядкуванні (ранжируванні) значень у кожному рядку (при цьому рангив кожному рядку приймають значення від 1 до m), підсумовуванніотриманих рангів за кожним стовпчиком і обчисленні тестової статистики.
Якщо розраховане значення перевершить відповідне табличне длявибраного рівня значимості і відповідного числа ступенів свободи, то нульовагіпотеза відхиляється.