Какво трябва да знаем?

Проверка на хипотези за нормалността на разпределението на генералната съвкупност - тест на Шапиро-Уилк

Станчо Павлов

Обща постановка

    Този тест спада към непараметричните и многостранни критерии. При голяма част от тестовете се изисква нормално разпределение на генералните съвкупности. Ако това необходимо условие не е изпълнено техните резултати са до голяма степен съмнителни. Проверката за нормалност на разпределението може да се направи с теста на съгласието, но има тестове, специално предназначени за това. Един от тях е описвания.
    Тестът проверява нулевата хипотеза, дали извадката е от нормално разпределена генерална съкупност и се използва за изавадки с обем по-голям от 8 и по-малък от 200. Той се прилага в случай, че няма достатъчна, предварителна информация за вида на разпределението. Преди прилагането на критерия, обикноено, се определя асиметричността и кривината (ексцеса ) по формулите Асиметричност и кривина (ексцес)-Asim1 , където mk е извадковият централен момент от k ти ред. Тестът се прилага в случаите, когато извадката е примерно симетрична с малка кривина Асиметричност и кривина (ексцес)- Asim2 или е несиметрична Асиметричност- Asim3
    Критерият се основава на подредените извадки. Данните се подреждат във възходящ ред, заедно с повтарящите се. От последното наблюдение се изважда първото, от предпоследното -второто и т.н. Ако обемът на извадката е нечетен средното наблюдение не се отчита при това изчисление. При определяне на разликите е удобно половината от данните да бъдат подредени във възходящ ред а втората половина - до тях - в низходящ. По-формално тези разлики могат да се изразят така xn-k+1 - xk където n е обемът на извадката и k се променя от 1 до "половината" на n. По-точно n/2 при четно n и (n-1)/2 -при нечетно. Получените разлики се умножават по дадени числа αk , дадени в таблица. Произведенията се сумират, като сумата им се означава със S: Сума-Summ1 Статистиката се задава с формулата: Статистика-Stat1 При зададено ниво на значимост α от таблица на W-разпределението определяме критичната стойност Wα ; n . Интересното за този критерий е, че не е известна формула за получаване на тези критичи стойности и те могат единствено да бъдат извличани от таблица. В таблиците са само за някои стойности на α, обикновено за α = 0,01 и α = 0,05. Изчислената статитика се сравнява с определената критична стойност и ако е по-малка от нея разпределението се приема за нормално.

Пример

    Желаем да подложим на проверка хипотезата за нормалност на генерална съвкупност, от ноято е направена извадката:
Таблица-Tbl1
Това са броят на головете от различните 20 отбора вкарани в едно първенство. Данните трябва да се тълкуват така - 2 отбора са вкарали по 18 гола в първенството, 1 отбор - 16 , 1 отбор -13 гола, 3 отбора са вкарали 12 гола и т.н. и най-накрая 2 отбора са вкарали по 5 гола в това първенство. Желаем да установим дали може да се отхвърли категорично нулевата хипотеза за нормалност на разпределението на тази случайна величина - брой вкарани голове от един отбор в едно празненство. Подреждаме данните в нарастващ ред, за да построим хистограма:
Таблица- Tbl2
Ето я и честотната таблица (хистограма):
Честотна таблица (хистограма)-Hist1
Тя показва, че разпределението въобще не прилича на нормално. Формулираме нулевата хипотеза и нейната алтернатива: Данните са извлечени от нормално разпредилена генерална съвкупност с неизвестни средно и дисперсия. Желаем да я отхвърлим при ниво на значимост =0,05. Ще използваме теста на Шапиро-Уилк. След като сме подредили данните във възходящ с повтарящите се, ги разделяме на две равни по брой групи. Ако има броят на данните е нечетен средната данна се пропуска. При нас не е така. При определяне на разликите е удобно половината от данните да бъдат подредени във възходящ ред а втората половина - до тях - в низходящ. Подреждаме данните в две колони. Лявата съдържа данните от първата група и е подредена в нарастващ ред. Другата - от втората група - в намаляващ:
Таблица- Tbl3
В следваща колона, вдясно от първите нанасяме стойностите на .., взети от таблицата:
Таблица- Tbl4
Изчисляваме S сумата от произведенията на съответната стойност на α и разликата от стойностите между първата и втората колона: Формулираме нулевата хипотеза и нейната едностранна алтернатива: S = 0,3872(18-5) + 0,2667(18-5) +0,2323 (16-6) +…+0,1160(8-8) =15,9588.
    Изчисляваме и общата девиация - сумата от квадратите на отклоненията. Тя е равна на произведението на обема на извадката по втория центриран втори момент: Сумарно отклонение-Dev Статистиката е равна на Статистика-Stat2
    От таблицата на критичните стойности за W-разпределението намираме W0,05 ; 20 = 0,905 . Понеже изчислената статистика е по-малка от тази стойност, при това ниво на значимост α = 0,05, нямаме основание да отхвърлим нулевата хипотеза за нормалнотта на разпределението. Ние нямаме подобно дори за α=0,01 , за което критичната стойност е W0,01 ; 20 = 0,868.
    Това, разбира се не значи, че генералната съвкупност е нормално разпределена.

Литература


[1] Красимир Калинов- практическа статистика за антрополози (t – тест стр.178)
[2] Л.М.Бутнер , М.Е. Позин Математические методы в химической технике Издательство "Химия" 1968 г.
[3] к. т. н. инж. Емил С. Божанов к. т. н. инж. Иван Н. Вучков ; Статистически методи за моделиране и оптимизиране на многофакторни обекти ; Държавно издателство "Техника" 1973 стр. 162
[4] Проф. д-р ик.н. Кирил Гатев, Доц. к. ик. н. Асен Спасов, Доц. к. ик. н. Димитър Радилов ; Обща теория на статистиката и икономическата статистика Държавно издателство "Наука и изкуство", София 1989 г.
[5] Дъглас Монтогомери, Джордж Рунгер; Приложна статистика и теория на вероятностите за инжинери. Трето издание 2002 г. стр. 407.
[6]Дъглас Монтогомери Джордж Рунгер ; Приложна статистика и теория на вероятностите за инжинери Трето издание 2002г. стр. 354 Applied Statistics and Probability for Engineers Third Edition Douglas C. Montgomery Arizona State University George C. Runger Arizona State University Home UP D:\Stancho\Books\Math\Math1\Probability and statistics\Statistics\En\Readen
[7] В. И. Романовский Элементарной курс математической статистики ; Госпланиздат 1939 г. стр. 191 E:\Stancho\Books\Math\Probability_Statistics\Statistics\Ru\ Элементарный курс математической статистики (Романовский В.И.).djvu