Какво трябва да знаем?

Двуфакторен дисперсионен анализ

Методическа разработка
Станчо Павлов и Аднан Шараф

1 .Обща постановка

    Основоположник на този статистически метод е Роналд Фишер (1890 - 1962). Анализът се използва се за определяне на зависимостта на резултата от два фактора A и B. Нека броят на нивата, на които се изменя първият фактор е a а на втория b . Нека, още, при всяка от възможните комбинации на нивата на факторите са проведени n опита, като n е по-голямо от 1. Резултатите от тях се означават с yijk . При това означение i е номерът на нивото на фактора A , j - този на фактора B а третият индекс е номерът на опита при тази комбинация на нивата на двата фактора. На резултата на определен опит се гледа като на случайна величина, означавана с Yijk . Тя се моделира чрез равенството:
Модел на двуфакторния дисперсионен анализ Model
наричано "модел на дисперсионния анализ". При този модел събираемите от дясната страна са също случайни величини. Техните оценки се получават по описана, по-нататък, процедура. μ е средната стойност на резултатите на опитите, величината αi отразява действието на първия фактор, означен с A, βj - на втория , (αβ)ij отразява взаимодействието на двата фактора а последното събираемо - случайната грешка при провеждането на определен опит.
    При дисперсионния анализ се проверяват следните три нулеви хипотези и техните алтернативи:
Хипотези при двуфакторния дисперсионен анализ _1Hipo
Нулеви хипотези и техните алтернативи при дисперсионния анализ
Хипотезите са снабдени с два индекса, като първият от тях означава дали хипотезата е нулеви или алтернативна. Вторият индекс указва за кой от факторите, или за тяхна комбинация се отнася хипотезата.

2 . Таблици на данните за дисперсионния анализ и тяхното попълване

    Таблицата се състои от a реда и b стълба, съответстващи на броя на нивата на факторите A и B. Във всяка клетка се нанасят n на брой резултати от екперимента, при ниво първиа фактор i , съответстващо на реда и ниво на втория фактор j , съответстващо на стълба. В долната таблица, третият индекс, означен с точка, заема стойности от 1 до n .
Схема на таблицата при a=3  и b=2 _2Tbl2
Схема на таблицата при a=3 и b=2
Ако n ( - броят на опитите при определена комбинация на нивата) е равно на 3, таблицата с резултатите от опитите изглежда така:
Означения за резултатите от експеримента _2Tbl1
    За сумата Сума   _2Sum1 е прието означението yi.. , при което точките заместват съответните индекси и границите на сумирането се определят от броя на нивата за втория фактор и броя на опитите. При тази сума първият индекс не се променя и неговите възможни стойности са от 1 до a -броят на нивата на първия фактор.
Означението Означение за средна величина _2Mid1 представлява средната стойност на събираемите от горната сума: Средна величина _2Mid2
    По подобен начин се тълкуват следните означения:
Означения за сумите и средните стойности в дисперсионния анализ _2Mid3
Означения за сумите и средните стойности в дисперсионния анализ
    Получените стойности на сумите се попълват в таблицата на съответните места:
Таблица _2Tbl3
Пълна таблица на данните и необходимите суми за дисперсионния анализ при a=3 и b=2

    Оценки на величините от модела _2Estim са оценки на средните стойности на първите четири случайни величини в модела на дисперсионниия анализ Модел Model.     За последната се предполага, че е със средна стойност нула.
В сила са равенствата: Равенства _2Eq които могат да служат за проверка.

3. Ред на изчисленията

Решаваща стъпка в дисперсионния анализ е свеждането на пълната сума от квадратите Пълна вариация _3Total1 наричана още обща вариация, до сумата Пълна вариация _3Total2:
Пълна вариация _3Total3
където SSA и SSB са сумата от квадратите, съответстващи на факторите A и B. Тези суми от квадратите се наричат съответно "по-редове" и "по стълбове".
    SSAB е сума, съответстваща на взаимодействиеуто на двата фактора а SSE е сумата от квадратите на грешките.
    Степените на свобода за съответните суми на квадратите са:
Степени на свобода _3DF1

    Степените на свобода на общата вариация SST е сумата на степените на свобода на останалите: Равенство за степените на свобода _3DF2
    Съществуват и опростяващи формули за намиране на тези, общо пет суми:
Опростяващи формули _3Simpl

    Равенството Пълна вариация _3Total2: ни показва, че пълната вариация се разлага на сумата от вариациите по редове, по стълбове, на тази породена от взаимодействието на двата фактора и на вариацията на грешките.
    Ако разделим тези вариации на техните степени на свобода ще получим средните квадрати на факторите A и B, средния квадрат на тяхното взаимодействие и този на грешките:
Средни квадрати _3MidSqr

4. Проверка на хипотези за влиянието на факторите и тяхното взаимодействие


    Хипотезите, проверявани чрез дисперсионния анализ се основават на статистиките Статистики _4Stat1
    Тези величини са оценки на общата дисперсия, при условие, че нулевите хипотези
Нулеви хипотези _1Hipo
са изпълнени.
Колкото са по-големи стойностите на статистиките, толкова е по-възможно отхвърлянето на съответната нулева хипотеза.
Подреждаме изчислените величини в таблица на дисперсионния анализ:
Таблица на двуфакторния дисперсионен анализ _4MANOVA_Tbl

    След това се избира ниво на значимост α за отхвърляне на нулевите хипотези. От таблицата на критичните стойности на F - разпределението се определят критичните стойности при съответните степени на свобода в числителя и знаменателя.
    Например нулевата хипотеза Първа нулева хипотеза _4H0_1 се отхвърля ако получената статитика е по-голяма от определената критична стойност fα ; a-1 ; ab(n-1) .
Тогава се прави извод за значимостта на първия фактор A.
Ако статитиката FA е по-малка от критичната стойност се прави извод, че данните не са достатъчни за отхвърляни на нулевата хипотеза за незначимост на първия фактор.
    Подобно е изследването на втория фактор, като при това трябва да се има предвид, че броят на степените на свобода в числителя е различен от първия случай.
    Така се отхвърля, или не може да бъде отхвърлена и хипотезата за взаимодействието на двата фактора. Броят на степените на свобода в числителя и в знаменатела, в този случай, са (a-1)(b-1) и ab(n-1) .
    Възможно е да се случи така, че първият фактор да се окаже относително незначим, т.е. нулевата хипотеза да не може да се отхвърли за първия фактор, вторият значим и взаимодействието на двата фактора също да е значимо.
В този случай за определяне на най-добрият резултат от изследването първо се определя нивото на фактора B, при което има най добър резултат и при това ниво на B се определя нивото на A с най-добър резултат от същата колона.

5. Пример

Постановката в този пример, резултатите от изследването и тяхното тълкувание са изцяло плод на фантазията на авторите!
    Методик по матемтика предполага, че използването на "мултимедии"при приподаването на математика влошава качеството на обучението. Той замисля експеримент при който се променят два фактора: успеваемост на учениците и метод на обучение.
Факторът успеваемост на учениците е означен с A и се изменя на три нива - слабо, средно и високо.
Факторът метод на обучение е означен с B и се изменя също на три нива - урок, мултимедия и лекция. При всяка възможна комбинация от двата фактора е проведен експеримент, който включва обучение по съответния метод на трима обучаеми и изпитване след обучението. Оценките от изпита са по шестобалната система.
Резултатите от експеримента са посочени в следната таблица:
Резултати от експеримента _5Res1
    Изчисляваме средните по групи, по редове и стълбове, както и общата средна:
Средни стойности _5Mid1
    Целта на изследването е установяване на зависимост на успеваемостта от двата фактора или от тяхното взаимодействие.
    Ще работим по опростените формули, затова предварително определяме сумите и тези на квадратите по групи, редове, стълбове и общо:
Суми _5Summs

    Освен това е необходимо да се пресметне сумата от квадратите на всички наблюдения, които са общо 27:
Сума от квадратите на наблюденията _5SumSqr1
    Определяме сумата от квадратите на отклоненията по редове по опростената формула:    Сума от квадратите за първия фактор _5SumSqr2.
В нашия случай Сума от квадратите за първия фактор _5SumSqr3.     Степените на свобода за тази сума са a-1=2.
    Средната стойност на квадратите на отклоненията, съответстващи на фактора A се получава като SSA се раздели на степените на свобода: Среден квадрат _5MidSqrA
По подобен начин се изчислява и SSB : , като степените на свобода са също 2:
Сума от квадратите за втория фактор  _5SumSqrB       Среден квадрат _5MidSqrB

Сумата от квадратите на отклоненията на взаимодействието е: Взаимодействия _5SumSqrAB
Степените на свобода за SSB са (a-1)(b-1) = 4.       Среден квадрат на взаимодействията _5MidSqrAB
Пълната сума от квадратите на отклоненията се изчислява по формулата       Пълна вариация _5Total1       и е със степени на свобода abn-1=26.
И най-накрая се изчислява сумата от квадратите на грешките: Сума от квадратите на грешките _5SumSqrE със степени на свобода ab(n-1)=18.       Вариация на грешките _5MidSqrE
    Подреждаме резултатите от изчисленията в таблицата на дисперсионния анализ:
Част от таблицата на дисперсионния анализ _5PartTbl1

    Проверяемите хипотези са три: първата е че няма разлика между средните по редове, втората- по стълбове и третата, че липсва взаимодействие между факторите.
Избираме ниво на значимост α на трите хипотези. То може да бъде и различно за всяка от тях. В този пример α =0,25.
    Критичните стойности са f α ; a-1 ; ab(n-1) , f α ; b-1 ; ab(n-1) и f α ; (a-1)(b-1) ; ab(n-1) .
p-стойностите могат да се определят със специален калкулатор.
Допълваме таблицата на дисперсионния анализ:
Таблица на дисперсионния анализ _5TblANOVA
    Понеже първите две изчислени статистики са по-големи от критичните стойности то отхвърляме първите две нулеви хипотези за това, че факторите не влияят на резултатите на обучението. Нулевата хипотеза, относно липса на взаимодействието на двата фактора, не може да бъде отхвърлена.
Т.е. не може да се твърди например, въз основа на данните, че слабите ученици се изучават по-добре чрез мултимедийно обучение.

Литература

[1] к. т. н. инж. Емил С. Божанов к. т. н. инж. Иван Н. Вучков ; Статистически методи за моделиране и оптимизиране на многофакторни обекти ; Държавно издателство "Техника" 1973 стр. 162
[2] Проф. д-р ик.н. Кирил Гатев, Доц. к. ик. н. Асен Спасов, Доц. к. ик. н. Димитър Радилов ; Обща теория на статистиката и икономическата статистика Държавно издателство "Наука и изкуство", София 1989 г.
[3] Дъглас Монтогомери Джордж Рунгер ; Приложна статистика и теория на вероятностите за инжинери Трето издание 2002 г.