Какво трябва да знаем?
χ2 - тест за съгласието или тест на Пирсън
Станчо Павлов и Аднан Шараф
Обща постановка
Издигаме нулевата хипотеза H0 , че наблюдаваните честоти се подчиняват на теоретичен модел,
основан на определен закон на разпределение на случайна величина.
Статистиката се определя по формулата:
с n-1-p степени на свобода, където p е броят на изчислените параметри на теоретичното разпределение.
Разпределението хи-квадрат
Желаем да подложим нулевата хипотеза H0 на проверка при ниво на значимост α=0,1 .
В зависимост от стойнотта на статистиката χ 2 , хипотеза H0 може да се приеме, или отхвърли:
нулевата хипотеза H0 не се отхвърля.
-
( статитиката е в лявата "опашка" на разпределението).
Теоретичните и опитните стойности са подозрително близки.
Нулевата хипотеза се приема, но остава едно съмнение за нагаждането на резултатите от опита.
Ако, например, се извършва проверка за генератор на случайни числа в интервала
[0,1] и нулевата хипотеза е че извадката е равномерно разпределена и статистиката попада в лявата опашка, то генераторът не може да се счита за случаен,
въпреки че е изпълнена нулевата хипотеза.
(статистиката е в дясната "опашка" на разпределението)
В този случай нулевата хипотеза се отхвърля.
Обикновено се разглежда едностранния вариант на теста!
Пример 1
Един и същ вид детайл се обработва по четири различни начина.
Издигаме нулевата хипотеза, че относителната честота на брака не зависи от начина на обработка.
Желаем да я подложим на проверка при ниво на значимост α=0,1.
Изчисляваме общия брой обработки и общия брак:
Поради хипотезата за равномерност на разпределението вероятността едно изделие да бъде бракувано е
Изчисляваме теоретичните честоти по формулата:
:
И теоретичния брак за всеки вид обработка при изпълнение на нулевата хипотеза за равномерност на разпределението:
χ 2 - статистиката е:
Степените на свобода са 4-1=3.
Критичната стойност е:
.
Понеже статистиката е по малка от критичната стойност, нулевата хипотеза не може да бъде отхвърлена.
Това ни показва, че и четирите начини на обработка могат да се считат за еднакво лоши.
Да припомним, че p-стойността е лицето под кривата на разпределението, вдясно от изчислената статистика 0,77. При нас тя е 0,86.
При прилагането на теста на съгласието, трябва да се отбележи, че ако теоретичната
честота е твърде малка, статистиката не отразява достатъчно точно отклоненията на наблюдаваните от теоретичните честоти.
Затова се приема изискването теоретичните честоти да бъдат по-големи от предварително уточнена минимална стойност (2, 3 или 5) .
Ако теоретичната честота за определен интервал на случайната величина е по-малка от нея интервалът се обединява с eдин от съседните.
Тук ще считаме, че минималната теоретична честота е 3.
Така е в следващия
Пример 2
Изследвани са 60 промишлени изделия за определен период от време на работа.
Броят на отказите през този период са показани в долната таблица:
Издигаме нулевата хипотеза, че разпределението на броя на отказите се подчинява на Поасоново разпределение с
параметър равен на средния брой откази.
В нашия случай той е k=(0.32+15.1+2.9+3.4)/60 = 0,75.
Вероятностите за Поасоновото разпределение се изчисляват по формулата:
Редно е p3 да се замени с вероятността за 3 и повече брака:
Определяме теоретичните честоти по формулите:
Така достигаме до таблицата:
Последната теоретичната честота е по-малка от 3, затова я обединяваме с предходната.
Определяме статистиката по формулата:
Степените на свобода са броят на наблюденията минус едно, и още минус броят на изчислените параметри p.
В вашия случай този брой е p = 1. Степените на свобода са 3-1-p = 3-1-1 = 1.
Желаем да проверим нулевата хипотеза при ниво на значимост α=0,05.
Критичната стойност е
.
Понеже статитиката е наляво от критичната стойност то нулевата хипотеза не може да бъде отхвърлена.
Освен приетото вече условие минималната теоретична честота да е по-голяма от три се въвежда още едно-теоретичните
честоти да бъдат приблизително равни. Особено това важи за непрекъснатите разпределения. Такъв е случая с
Пример 3
Производител желае да провери хипотезата, че определен показател от неговата продукция се подчинява на
нормалния закон на разпределение при ниво на значимост α = 0,05.
Направена е извадка с обем n=100.
Изчислените средна стойност и стандартното отклонение на извадката са
Производителят е решил да разгледа k=8 интервала на стойностите на случайната величина.
За да се удовлетвори изискването за равенство на теоретичните честоти, лицето под графиката на стандартното нормално
разпределение трябва да се раздели на k = 8 равни части. Това са квантилите през 12,5%.
За дясната част от нулевата стойност те са 0,32 ; 0.675 и 1,15 .
Най-левият интервал е
Следващият е
Така се определят всички интервали:
Замествайки средната стойност и стандартното отклонение получаваме интервалите:
(-∞ ; 4,95) , (4,95 ; 4,99) , (4,99 ; 5,01) , (5,01 ; 5,04) , (5,04 ; 5,07) , (5,07 ; 5,09) ,
(5,09 ; 5,13) и (5,13 ; +∞),
които разбира се, са симетрични относно средната стойност
.
Теоретичните честоти за всички интервали са равни на n.1/k = 100/8 = 12,5.
Интервалите, опитните и теоретичните честоти са нанесени в таблицата:
χ2 - статистиката е:
Степените на свобода са броят на наблюденията минус едно минус броят на изчислените параметри p.
В вашия случай този брой е p = 2. Степените на свобода са 8-2-1=5.
Критичната стойност е
.
Изводът е че нулевата хипотеза не може да бъде отхвърлена, понеже изчислената статистика е по-малка от критичната стойност.
Литература
[1] к. т. н. инж. Емил С. Божанов к. т. н. инж. Иван Н. Вучков ; Статистически методи за моделиране и
оптимизиране на многофакторни обекти ; Държавно издателство "Техника" 1973 стр. 162
[2] Проф. д-р ик.н. Кирил Гатев, Доц. к. ик. н. Асен Спасов, Доц. к. ик. н. Димитър Радилов ;
Обща теория на статистиката и икономическата статистика Държавно издателство "Наука и изкуство", София 1989 г.
[3] Дъглас Монтогомери, Джордж Рунгер; Приложна статистика и теория на вероятностите за инжинери. Трето издание 2002 г. стр. 370.