Какво трябва да знаем?

Принудително зануляване при проста линейна регресия
Станчо Павлов


    Често при регресионния анализ естеството на данните налага регресионната крива да минава през началото на координатната система. Тогава се извършва регресия от вида Модел-Mod1.   При това дисперсията не може да бъде разложена като сума от дисперсия, породена от регресията и остатъчна. Освен това, поради отсъствието на свободен член в регресионното уравнение извадковата дисперсия се получава твърде голяма, което компрометира избрания модел. Средната грешка, която е ключов фактор при оценките на коефициентите на регресията е също висока.
    Нека регресионния модел е от вида Ексериментални стойности-ExpVals1 , като за отклоненията се приема че са N(0, σ2) разпределени. Чрез метода на най-малките квадрати се определя оценката на β1 : Изчисленият регресиоенен коефициент-Beta1 и предвидените данни са Модел-Mod1_1.
    Ще покажем, че оценката на β1 е неизместена оценка на регресионния коефициент от модела β1 : Математическо очакване-T1 ?
    Ще определим дисперсията на изчисления коефициент на регресията: Дисперсия -Disp1. ?
    Ще определим математическото очакване на квадрата на изчисления регресионен коефициент и ще покажем, че: Математическо очакване на квадрата на регресионния коефициент -T3 .     ?
    При регресионния анализ с принудително преминаване през нулата се използват означенията: Суми-Sums2
    В сила е приблизителното равенство Сума от квадратите на наблюдаваните стойности-AppropEq.   Но това, приблизително равенство е точно! ?
    Броят на степените на свобода в една сума, обикновено от квадрати, е равна на разликата между броят на независимите променливи минус този на зависимите.
Сумата от квадратите, породена от модела SSМодел има една степен на свобода. Това се определя от присъствието в неговата дефиниция една независима променлива, а именно квадрата на изчисления коефициент на регресията Изчислената стойност на регресионния коефициент-BetaHat1.
Остатъчната сума от квадратите има N-1 степени на свобода, защото независимите променливи са yi а зависимата една - Изчислената стойност на регресионния коефициент -BetaHat1.
В остатъчната сумата xi , както бе казано, са константи. Ще намерим математическото очакване на MSМодел и ще покажем, че: Математическо очакване на средното събираемо от SSМодел-T5. ?
    Ако моделът е адекватен, средният квадрат на събираемите от остатъчната сума на квадратите е оценка на дисперсията σ 2 : Оценка на квадрата на грешката-SigmaHat1.
    Примерът е заимстван от [1] стр 23. В него са изследвани девет групи работници, подложени на наднормено запрашаване в работната среда. Данните са: запрашеност, измерена в брой прахови частици в кубична стъпка (1 стъпка е равна на 30,48 см.) за година, разделени на числото 106 , от една страна и относителен здравен риск, от друга. Той се определя като отношение на заболяваемостта в изследваната група към заболяваемостта в контролната, състояща се от работещи, които не са подложени на рисковия фактор - в случая запрашеност.
По дефиниция относителната заболяваемост на групата от неподложените на рисковия фактор работници ( контролната група ) е единица .
Регресионната линия трябва да минава през точката (0,1) в координатна система (Запрашеност, Относителен риск).
Ако се приеме координатна система (X, Y) = (Запрашеност, Относителен риск-1), отместена спрямо първата на разстояние единица по оста Y, регресионната крива трябва да минава през началото на координатната система. Ето ги и експерименталните данни:
Таблица с експерименталните стойности -Tabl1
    Определят се сумите SSXX , SSYY и оценката на регресионния коефициент, която е тяхното частно: Суми от квадрати --SSXX_XY.
Изчислените оценки на средната стойност на наблюденията Регресионно уравнение-yHatEq_ се нанасят вдясно от колоната на наблюдаваните:
Таблица с изчислените стойности-Tabl2
    Оценката на нарастването на относителния риск при нарастване с единица на приведения брой на частиците е Бета-калпаче-BetaHat2.
    Построяваме графиките на експерименталните данни и изчислените стойности при направената линейна регресия с принудително минаване през началото:
Експериментални данни и регресионната права-Gr1
    При X=0 оценката на Y-калпаче е също нула - така че функцията принудително минава през началото на координатната система.
Регресията разделя всяко наблюдение на две части - изчислената стойност Yi-калпаче и остатък, равен на Yi минус Yi-калпаче , който се означава с εi . Сумата от квадратите , дължаща се на модела е Сума от квадратите на модела-SSMod1. Тя може да бъде изчислена и по формулата             Сума от квадратите на модела-SSMod2.
Пълната сума от некоригираните стойности на наблюденията е Пълна сума от квадратите-SSTotal.
Остатъчната сума от квадратите е сумата от квадратите на разликите между наблюдаваните и изчислените по модела стойности Остатъчна сума от квадратите--SSRes1.
Средната стойност на събираемите от SSОст. е оценка на дисперсията на наблюденията спрямо приетия модел. Тя се получава като разделим сумата SSОст. на нейните степени на свобода - броят на наблюденията минус едно: Остатъчна сума от квадратите -SSRes2.
    Математическото очакване на сумата от квадратите от модела се получава като я разделим на нейните степени на свабода - в случая на едно: Средно събираемо на сумата от квадратите на модела -MSMod1
Частното на двете средни - MSМодел и MSОст. е тест за значимостта на нулевата хипотеза Нулева хипотеза-Hipo01 , при приемане на предположението за нормално разпределение на отклоненията.
Това е F-тест с 1 и N-1 степени на свобода в числителя и знаменателя.
Нека избраното ниво на значимост е α = 0,001. F-статистика-F1.
Тестът показва че има основание за приемане на линейната зависимост между коригирания брой на праховите частици и относителната заболяваемост минус единица.
Изчислената вариация на Коефицентът на регресията-BetaHat11 е Оценка на дисперсията на регресионния коефициент -SigHatBeta1
След коренуване получаваме: Оценка на стандартното отклонение на регресионния коефициент -SigHatBeta2.
За всяка стойност на Xi се изчислява вариацията на Yi-калпаче Оценка на дисперсията на предсказаната стойност при дадено X -SigHatYiHat1
Ако Yi - калпаче се използва за предсказване на стойността на относителната заболяваемост минус едно при коригирана стойност на запрашеност Xi то вариацията на това предсказване е: Оценка на дисперсията на средната стойност при дадено X-SigHatYiPred1
    Дисперсията (вариацията) и стандартното отклонение осигуряват количествена мярка за точността и на оценките и служат за проверка на хипотези, свързани с тях.
На фигурата са нанесени данните, графиката на регресията и две ограничителни линии, минаващи през началото на координатната система, за 95% доверителен интервал.
Графика на данните, регресионното уравнение и 95% -ия доверителесн интервал -Gr2
Регресионната линия на относителния риск минус едно спрямо коригирания брой прахови частици с долната и горна граница на 95% -ия доверителен интервал
    Въпреки че изчисленията се съгласуват с данните, има причини моделът да бъде подобрен. Първите три наблюдения попадат под линията на регресията и извън интервала и не се съгласуват с избрания модел на принудително нулиране.   Освен това, седмото наблюдение има твърде голямо отклониние: Седмият остатък-Res7.
Тази голяма положителна стойност говори, че моделът без предварително зануляване осигурява по-висока съгласуванст с данните от наблюденията.
Проверката за това, дали отрезът по оста Oy е нула се извършва като временно се приема че той е различен от нула. След извършване на изчисленията се получава оценката за свободния член на регресията Оценка на свободния член -BetaZeroHat1.
При това се определя и извадковото стандартно отклонение на Оценка на ст. отклонение на свободния член на регресията-SigHatBetaZeroHat1.   Остатъчния среден квадрат на остатъците за моделът с отрез е Оценка на дисперсията на свободния член -SigHatBetaZeroHat2 със седем степени на свобода.
    t-теста за нулевата хипотеза за нулев отрез е: t-статистика -t и тя не може да се отхвърли с ниво на значимост α = 0,025 , защото t( 0,025 ; 7 ) = 2,367.
    Литература
[1]Джон Роулингс, Састри Пантула, Давид Дики. Приложен регресионен анализ - инструмент на учения. Шпрингер - Ню Йорк, Берлин , Хайделберг стр.23
[2] Проста линейна регресия
[3] Линейна регресия - примери
[4] Разпределения свързани с линейната регресия
[5] Проверка на хипотези, свързани с линейната регресия
[6] Доверителни интервали за средната и предсказана стойност на y при фиксирано x
[7] Проверка на хипотези за нормалността на разпределението на генералната съвкупност - тест на Шапиро-Уилк

Какво ще научим?