Какво трябва да знаем?

Проверка на хипотези за средните за две извадки с неравни и неизвестни дисперсии
t-тест

Станчо Павлов

Обща постановка

    От две нормално разпределени генерални съвкупности са направени две независими извадки с обеми n1 и n2 . Предполагаме, че извадките са малки и обемите им не надвишават 30. Допускаме още, че двете извадки са независими, както при t-теста при хомогенни генерални съвкупности, но за разлика от него равенството на дисперсиите не се изисква: Неравни дисперсии-UnEq1 .
Нулевата хипотеза и нейната двустранна алтернатина се формулират по подобен начин, както и при независимите извадки: Нулева хипотеза и двустранналтернатива-Alt1 Възможните едностранни алтернативи са: Едностранни алтернативи- Alt2 За проверка на неравенството на двете дисперсии, което обосновава използването на този тест, се прилага критерия на Фишер или този на Левене ( Levene 1960 г.).
    Както при споменатия t-тест при хомогенни генерални съвкупности се използва статистиката статистика-St1 където разлика-Diff1 е разликата на средните при двете извадки а Оценка дисперсията на разликата между средните в генералните съвкупности-Disp1 е оценка на стандартното отклонение на тази разлика. За тази оценка се използва формулата: Оценка дисперсията на разликата между средните в генералните съвкупности-Disp2. Разпределението на статистиката, при нехомогенност, е неизвестно но е показано, че то добре се отразява чрез t-разпределение с брой на степените на свобода, равен на
Степени на свобода - Уелч - Welch1.
Тази формула е установена от Уелч ( Welch 1947 г. ). Преди него Сатърдуайт(Satterthwaite 1946 г.) е предложил друга:
Степени на свобода - Сатърдуайт - Satterthwaite
Парадоксално е че и двете формули не дават в резултат цели числа а в таблиците на критичните стойности за t- разпределението степените на свобода могат да бъдат само такива. Затова резултатът от прилагането на една от тези формули се закръгля до най-близкото цяло число.

Пример


    Играч на тото едно подозира, че домакинството играе съществена роля за победата или загубата на отборите. От спортната преса той е получил данни за броя на головете за два отбора A и B, вкарани от тях като "Домакин" и "Гост":
Таблица на головете на двата отбора--Tbl1

    Предстояла среща между двата отбора, в която отборът A ще бъде домакин а друтият - гост. Играчът тото, заинтересован от това, дали има статитически основания за своите догадки, е дал тези данни на Статистик.
    Статистикът ще изследва значимостта на разликата между средния брой голове в единия и в другия случай. Поради малкият брой данни на него му се налага да използва един от вариантите на t-теста. Статистикът е използвал критерия на Шапиро-Уилк (Shapiro-Wilk) за обосновка на това, че данните са от нормално разпределени генерални съвкупности. После трябва да установи дали извадките са хомогенни, или което е същото дали няма статистическа разлика между дисперсиите на двете генерални съвкупности. Размахът на данните от колоната "Домакин" е 3-0=3 а в другата 2-0=2. Това различие го кара да подложи данните на проверка за хомогенност, която може да бъде направена с теста на Фишер или този на Левене. Предлагаме на читателя да се увери че при ниво на значимост 0,05 имаме основание да заключим, че дисперсиите са различни. По-нататък да разсъждаваме от името на Статистика. Изчисляваме средните стандартните отклонения за отборите
Таблица на междинни изчисления -Tbl2

    Понеже A е домакин а B -гост, в по-нататъшните изчисления участват първата колона на отбора A и втората за другия отбор.
С P1 и P2 са означени помощните величини
-P12
    Формулираме нулевата хипотеза и нейната едностранна алтернатива:
Нулева хипотеза и едностранналтернатива- Hip0Alt1
Желаем да отхвърлим нулевата хипотеза при ниво на значимост α=0,05.
Оценка дисперсията на разликата между средните в генералните съвкупности-Disp3
    Изчисляваме оценката на дисперсията на разликата на средните между двете групи и статистиката
Статистика- St2
Поради нехомогенността на извадките не можем да твърдим, че степените на свобода са n1 + n2 - 2 на брой, както е при хомогенни извадки.
    Използваме формулата на Уелч, която с въведените означения има вида:
Степени на свобода - Уелч - Welch2
От таблицата на критичните стойности за t-разпределението намираме t0,05; 27 = 1,703 .
    Понеже изчислената статистика е по-голяма от тази стойност отхвърляме нулевата хипотеза за равенство на средните и приемаме алтернативата - че в предстоящата среща отборът A ще вкара повече голове.
Но те могат да бъдат и нецяло число, от математическа гледна точка.

Литература


[1] Красимир Калинов- практическа статистика за антрополози (t – тест стр.178)
[2] Л.М.Бутнер , М.Е. Позин Математические методы в химической технике Издательство "Химия" 1968 г.
[3] к. т. н. инж. Емил С. Божанов к. т. н. инж. Иван Н. Вучков ; Статистически методи за моделиране и оптимизиране на многофакторни обекти ; Държавно издателство "Техника" 1973 стр. 162
[4] Проф. д-р ик.н. Кирил Гатев, Доц. к. ик. н. Асен Спасов, Доц. к. ик. н. Димитър Радилов ; Обща теория на статистиката и икономическата статистика Държавно издателство "Наука и изкуство", София 1989 г.
[5] Дъглас Монтогомери, Джордж Рунгер; Приложна статистика и теория на вероятностите за инжинери. Трето издание 2002 г. стр. 407.
[6]Дъглас Монтогомери Джордж Рунгер ; Приложна статистика и теория на вероятностите за инжинери Трето издание 2002г. стр. 354
[7] В. И. Романовский Элементарной курс математической статистики ; Госпланиздат 1939 г. стр. 191