Какво трябва да знаем?
Проверка на хипотези, свързани с линейната регресия
Станчо Павлов
При статистическите изследвания за коефициента
се използва нулева хипотеза от вида
и нейната алтернатива:
.
За отхвърляне на нулевата хипотеза се използва статистиката
.
Важен е частния случай при
.
Тогава се използва F-критерия за отхвърляне на нулевата хипотеза:
, който, впрочем, е еквивалентен с предходния.
Този тест се нарича проверка на адекватността (или тест за съгласуваност) на регресионния модел .
Пример
Направена е програма - "сървър" от Радостин Желязков, която доставя страници и изображения, съдържащи се в компютър, наричан "хостинг" - държател на страниците.
Тази програма съхранява данни за електронния адрес (IP) поискал страницата или елемент от нея, датата и часа на поискването и наименованието и пътеката на самия елемент.
Три фрагмента от данните на заявката са показани на долната фигура.
Забелязваме, че има несвързани , самостоятелни заявки - например тази с адрес 66.249.73.147 от 17 часа, 58 минути и 33 секунди.
Такива заявки служат за установяването на дейността на сървъра и извършвани промени в елемента. Те се осъществяват от търсещите програми.
Други заявки са тематично свързани - например тези от втория пасаж.
Обикновено те се осъществяват от хора, интересуващи се от информацията в съответната страница. Такъв вид заявки ще наричаме "действителни".
В случая действителната заявка е извършена от потребител с адрес 31.211.159.2.
Действителните заявки могат да бъдат многократни - когато потребителят разглежда последователно няколко, тематично свързани страници,
разположени в държателя на страниците.
Броят на изследваните заявки е 988, извършени във времевия интервал от 17 часа, 56 минути и 48 секунди до 23 часа, 37 минути и 57 секунди общо 20469 секунди.
Интересуваме се от статистическата оценка на величината β1 -среден брой заявки за една секунда.
Можем да оценим този брой чрез частното (общ брой заявки)/(времето за тяхното извършване).
Така получаваме
.
Но ние ще предпочетем оценката на ъгловия коефициент на линейната регресия по факторите - време (момент) - x - брой заявки получени от началото до този момент - y .
В това изложение не е възможно да приведем всички данни, което би позволило проверката на изчисленията. Така че, както казва Царят -"Вервайте ми!"
Сумите и средните величини са показани в долната таблица:
Девиациите се изчисляват по формулите:
Коефициетите пред независимия фактор и свободния член се определят чрез изчислените величини:
.
Прави впечатление големия свободен член, въпреки че той би трябвало да е нула и че оценката на β1 , макар и с малко се отличава от първата.
Ето графичния вид на данните и графиката на полученото регресионно уравнение.
Обръщаме внимание, че във втората четвърт активността е по-голяма от обичайната а в първата-по-малка.
Ще отхвърлим нулевата хипотеза
за неадекватност на регресионния модел с ниво на значимост α = 0,05.
Заедно с построяване на графиката на правата линия на регресията в таблицата освен наблюдаваните величини yi се нанасят изчислените стойности
.
След това се изчислява сумата от квадратите на грешките, девиацията породена от регресията и общата девиация:
.
Получаваме SSE = 821956 , SSR = 79547151 и SST = 80369107 .
За съжаление, отново трябва да кажем "Вервайте ми!" .
Но на този етап можем да проверим равенството
SST = SSE + SSR . SSR може да бъде изчислено и по формулата
.
Сега определяме средното на квадрата на грешките:
Оформяме резултатите в таблица на регресионния анализ:
В таблицата на F-разпределението, при избраното с ниво на значимост α=0,05 няма стойност за степени на свобода 1 в числителя и 986 в знаменателя.
Има стойност за 1 в числителя и по-голяма от 120, означена със символа ∞ и тя е 3,84:
Поради това, че получената F-статитика е много по-голяма, нулевата хипотеза за неадекватност (съгласие) на регресионния модел се отхвърля.
Моделът е адекватен!
Този тест е еквивалентен на t - теста за адекватност статистиката при β1,0 = 0 , както вече бе подчертано.
Да определим доверителния интервал на изчисления коефициент бета едно-калпаче.
При избрано ниво на значимост α=0,05 критичната стойност на t разпределението степени на свобода по-толеми от 120 е 1,645.
Изчисленото стандартно отклонение е
При същото ниво на значимост се определя и доверителния интервал за бета нула - калпаче.
Въпреки че естеството на задачата изисква свободния член на регресията - калпаче да е нула.
Това се прави в специално пригодена за този случай процедира - наричана "Принудително нулеране". Но за него - по-нататтък!
Литература
roncho.net
Обща теория на статистиката и икономическата статистика. Наука и изкуство. Проф. д-р ик.н. Кирил Гатев
Доц. к. ик. н. Асен Спасов Доц. к. ик. н. Димитър Радилов
Атанас Митков. Теория на експеримента
Васил Симеонов Принципи на обработка на данни от химичните анализи. Софийски университет "Климент Охридски" 1987 г.
Дъглас Монтогомери и Джордж Рунгер. Приложна статитика и теория на вероятностите за инжинери; изд. "Джон Уили и синове"
Какво ще научим?