Еднофакторен диспесионен анализ с равен брой наблюдения в групите

Станчо Павлов

    Добре е предварително да се запозваем с еднофакторния дисперсионен анализ с различен брой наблюдения в групите, защото този е негов частен случай - когато броят на наблюденията във всяка група е равен на n . Еднаквостта на броя наблюдения опростява формулите за изчисление но е и едно пожелателно изискване при дисперсионния анализ - а именно еднакъв брой наблюдения при отделните групи. Обща постановка: Генералната съвкупност е разделена на k групи по определен признак или фактор. Той може да бъде количествен (например продължителност на температурна обработка на детайл ) или качествен (обработка при режим А, Б или В). Броят на наблюдения във всяка група е равен на n.

1 . Групи с еднакъв брой наблюдения при различни нива на фактора

    Наблюденията ( единиците ) от едно ниво на фактора ще наричаме група. Нека броят на наблюденията във всяка група от общо k е един и същ и е равен на n , както вече бе казано. Желателно е този брой да е по-голям от 30, но се допуска да бъде и по-малък, но и не по-малък от 5. Общият брой на единицте от всички групи е N = k.n . Предполага се че разпределението във всяка от групите е нормално. Непосредствено под началните данни се попълват сумите, необходими за следващите изчисления, средните стойности и девиациите по групи:
BefTbl1-Таблица на началните данни и предварителни изчисления
Наблюденията и техния брой по групи и други обичайни изчисления, необходими за статистиката

2. Модел

    Моделът е същият, както при дисперсионния анализ с различен брой наблюдения: Mod1-Модел
В това равенство μ е средната стойност на всички наблюдения, α е поправка за съответната група и ε е грешка, породена от конкретното замерване.
    Общата девиация (вариация) е центрираната сума от квадратите от всички единици (наблюдения): SST1-Обща девиация , където е средното аритметично на всички наблюдения : XMid1-Средното на всички наблюдения.
    Използват се още и следните означения:
Not1-Означения, които рядко ще използваме
Нека XjMid1- Средното в j-тата група е средното на наблюденията в j-тата група. То е оценка на средното на случайната величина от j- тата група μj .
    Целта на анализа е да се определи доколко средните по групи XjMid1- Средното в j-тата група статистически се отличават от общата средна XMid2- Средното на всички наблюдения.
    Издига се нулевата хипотеза - математическите очаквания на групите не зависят от факторите: H01- Нулева хипотеза за равенството на всички средни. Хипотезата е еквивалентна на равенството H011-Нулева хипотеза - поправките за съответната група са равни на нула. Алтернативата е H1 : съществуват две групи с номера j1 и j2 , такава, че HA1-неравенство на две средни.
Трябва да се отбележи, че анализът не дава сведение за това, кои групи, точно, се различават.

3. Ред на провеждане на дисперсионния анализ

  1. Изчисляват се средните по групи _3XjMid1-Средното в j-тата група.
    Изчислява се и общото средно XMid2- Средно по формулата XMid3- Средното на всички наблюдения или по формула, която използва вече изчислените групови средни XjMid1- Средното в j-тата група: XMid4- Средното на всички наблюдения
  2. Изчислява се и общата девиация:
    SST2- Обща девиация или вариация
    Със "Сум.кв." сме означили сумата от квадратите на наблюденията а със "Сум." - тяхната сума
  3. Изчисляват се девиациите по съответните групи:
    DEVj1-Вариация в отделните групи,
    където "Сум. кв. j "е сумата от квадратите на единиците (наблюденията) в j-тата група а " Сум. j " е тяхната сума.
    Сумата от девиациите в групите се нарича още вътрешно-групова девиация или "девиация вътре в групите " и отразява отклоненията на наблюденията от избрания модел.
    Вътрешно-груповата девиация може да се изчисли и по формулата:
    SSE -девиация вътре в групите
  4. Изчислява се междугруповата девиация по формулата:
    SSTreatment1-Междугрупова вариация (девиация)
    Общата девиация е равна на сумата е равна на сумата от междугруповата девиация и вътрешно груповата:
    SSTEq1-Равенство свързващо трете вариации
  5. Определят се степените на свобода за всяка от трите девиации:
    DFr-степени на свобода
  6. Изчисляват се дисперсиите – междугруповата и вътрешногруповата, които ще означаваме съответно с SigmaBetween1-Оценка на дисперсията между групите и SigmaIn1- Оценка на дисперсията вътре в групите. Те са равни на съответните девиации, разделени на съответните степени на свобода:
    Sigma1-оценки на дисперсиите
    Тези дисперсии се наричат още средни квадрати.
  7. Емпиричната статистика е отношението на междугруповата дисперсия към вътрешногруповата: Тази статистика има F- разпределение с N-1 и N-k степени на свобода, съответно в числителя и знаменателя . Критичните стойности на F- разпределението се определят от таблица на F-разпределението при дадено ниво на значимост α .
    Тези таблици (при различни стойности на α ) служат за проверка на нулевата хипотеза.

4. Таблица на дисперсионния анализ


    По-долу са приведени удобни за изчисления формули за трите девиации:
Formulas1-Формули за девиациите
Тук са използвани означенията: Not2-Означения Резултатите от определянето на девиациите, степените на свобода дисперсиите и емпиричната статистика се подреждат в таблица, наричана "таблица на дисперсионния анализ":
DATable1-Таблица на дисперсионния анализ
Очаква се междугруповата дисперсия да е по-голяма от вътрегруповата: FCr1-F-статистика
След това се избира ниво на значимост α за отхвърляне на нулевата хипотеза, за равенство на средните стойности по групи: H01-Нулева хипотеза. От таблицата на критичните стойности на F - разпределението се определя критичната стойност при съответните степени на свобода в числителя и знаменателя и деденото ниво на значимост α. Нулевата хипотеза се отхвърля ако получената статитика е по-голяма от определената критична стойност f α ; k-1 ; N-k . Тогава се прави извод за значимостта на фактора.
Ако F-статитиката е по-малка от критичната стойност се прави извод, че данните не са достатъчни за отхвърляни на нулевата хипотеза за незначимост на фактора.

5. Примери

    Ще привидим два примера. Първият от тях е нереален и неговото привеждане има за цел показването на числената процедура и проверка на различните формули за изчислямане на величивните, свързани с дисперсионния анализ при различен броя наблюдения при нивата на фактора A, B и C.

Пример 1

    Допълваме таблицата с данните от наблюденията с редовете "брой наблюдения, суми по колони, суми на квадратите, средни и девиации по групи ".
Девиациите по отделните групи се изчисляват по формулата:
Ex1SSTotFrm-Девиацията в j-тата група ,
където j е номерът на групата. На този етап да се изчислят и общия брой наблюдения, общата сума от тях и общата сума от квадратите, общото средно и вътрешно-груповата девиация , която е равна на сумата от девиациите на отделните групи.
Ex1Tbl1-Таблица с началните данни

Обща девиация е равна на общата сума от квадратите на наблюденията минус квадрата на сумата от наблюденията, разделена на общия брой наблюдения във всички групи:
Ex1SSTotal-Обща вариация

    Вътрешногруповата девиация, както вече бе казано, е равна на сумата от девиациите по групи, които са:
Ex1SSj-Вариация в отделните групи
Може да се използва и формулата
Ex1SSjSUM-Вариация в групите
Междугруповата девиация може да бъде изчислена по една от формулите:
Ex1SSTr1-вариация между групите
Ex1FCr-F-статистика
Попълваме таблицата, необходима за дисперсионния анализ:
Ex1Tbl4-Таблица на дисперсионния анализ
Да кажем, че сме избрали ниво на значимост α = 0,25. F-статистиката е :
Ex1FCr1-F-статистика
Критичната стойност при степени на свобода 2 в числителя и 9 в знаменателя е f0,05; 2 ; 9 = 4,26.
Получената статистика е по-голяма от определената от таблицата критична стойност, което ни дава основание за отхвърляне на нулевата хипотеза за равенство на дисперсиите при трите групи наблюдения.

Пример 2

    За да се определи има ли значимо различие при търсенето на работна ръка в зависимост от образованието са отчетени индиксите на незаетоста. Този индекс е отношението на незаетите работни места по съответната професия към броят на работещите в нея в проценти. Професиите са подредени в три групи, изискващи съответно висше, средно и основно образование. Във всяка от групите, случайно са избрани по пет професии. Индексите на незаетостта са от Статистическия институт на Руската Федерация " http://www.gks.ru". Данните и предварителните изчисления са нанесени в таблицата:
Ex2Tbl1-Данни
Наблюдава се значително различие при средните по групи. Най-голямо е търсенето при професиите, изискващи основно образование - 4,24 а най-ниско -при тези, изискващи средно - 2,52. Целта на изследването е да се определи доколко тези различия са статистически значими. Определяме данните, необходими за попълване на таблицата за дисперсионния анализ. Вътрешно-груповата девиация е сума от девиациите в отделните групи а междугруповата е равна на разликата между общата и вътрешно-груповата.

Ex2Tbl2-Непосредствени изчисления
Попълваме таблицата на дисперсионния анализ:
Ex2Tbl4- Таблица на дисперсионния анализ
F-статистиката е 0,802.
Поради това, че оценката на дисперсията между групите е по-малка от тази вътре в групите, още тук, можем да направим извод, че няма данни за отхвърляне на нулевата хипотеза. Избираме ниво на значимост α = 0,05. Критичната стойност при степени на свобода 2 в числителя и 12 в знаменателя е f0,05;2 ;12 = 3,89.
Поради това, че F-статистиката е по-малка от нея нямаме достатъчно основания за отхвърляне на нулевата хипотеза.

Литература:
Държавен статистически институт на Руската Федерация
"http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/wages/labour_force/"