Какво трябва да знаем?

Проверка на хипотези, свързани с линейната регресия
Станчо Павлов


    При статистическите изследвания за коефициента Beta1_0 Бета-едно се използва нулева хипотеза от вида HZero1-Нулева хипотеза и нейната алтернатива: HAlter- Алтернативна хипотеза. За отхвърляне на нулевата хипотеза се използва статистиката T1-t- статистика.
    Важен е частния случай при Beta1_1 Бета-нула. Тогава се използва F-критерия за отхвърляне на нулевата хипотеза: F1-еф - статистика , който, впрочем, е еквивалентен с предходния.
Този тест се нарича проверка на адекватността (или тест за съгласуваност) на регресионния модел .
Пример
    Направена е програма - "сървър" от Радостин Желязков, която доставя страници и изображения, съдържащи се в компютър, наричан "хостинг" - държател на страниците. Тази програма съхранява данни за електронния адрес (IP) поискал страницата или елемент от нея, датата и часа на поискването и наименованието и пътеката на самия елемент. Три фрагмента от данните на заявката са показани на долната фигура.
Server-Данни
    Забелязваме, че има несвързани , самостоятелни заявки - например тази с адрес 66.249.73.147 от 17 часа, 58 минути и 33 секунди. Такива заявки служат за установяването на дейността на сървъра и извършвани промени в елемента. Те се осъществяват от търсещите програми.
    Други заявки са тематично свързани - например тези от втория пасаж. Обикновено те се осъществяват от хора, интересуващи се от информацията в съответната страница. Такъв вид заявки ще наричаме "действителни". В случая действителната заявка е извършена от потребител с адрес 31.211.159.2.
    Действителните заявки могат да бъдат многократни - когато потребителят разглежда последователно няколко, тематично свързани страници, разположени в държателя на страниците.
    Броят на изследваните заявки е 988, извършени във времевия интервал от 17 часа, 56 минути и 48 секунди до 23 часа, 37 минути и 57 секунди общо 20469 секунди.
    Интересуваме се от статистическата оценка на величината β1 -среден брой заявки за една секунда. Можем да оценим този брой чрез частното (общ брой заявки)/(времето за тяхното извършване).
    Така получаваме
Beta1--Лесно изчисляване на бета.
Но ние ще предпочетем оценката на ъгловия коефициент на линейната регресия по факторите - време (момент) - x - брой заявки получени от началото до този момент - y .
    В това изложение не е възможно да приведем всички данни, което би позволило проверката на изчисленията. Така че, както казва Царят -"Вервайте ми!"
    Сумите и средните величини са показани в долната таблица: Mid1-Суми и средни
    Девиациите се изчисляват по формулите:
Dev1- Девиации
Dev2-Девиации
Коефициетите пред независимия фактор и свободния член се определят чрез изчислените величини:
Beta2- Коефициентите на регресията
Beta3-Коефициентите на регресията.
    Прави впечатление големия свободен член, въпреки че той би трябвало да е нула и че оценката на β1 , макар и с малко се отличава от първата.
    Ето графичния вид на данните и графиката на полученото регресионно уравнение.
Graphic-Графика
    Обръщаме внимание, че във втората четвърт активността е по-голяма от обичайната а в първата-по-малка.
    Ще отхвърлим нулевата хипотеза HZero2-Бета - едно - нула за неадекватност на регресионния модел с ниво на значимост α = 0,05. Заедно с построяване на графиката на правата линия на регресията в таблицата освен наблюдаваните величини yi се нанасят изчислените стойности y_Hat1-игрек - калпаче.
    След това се изчислява сумата от квадратите на грешките, девиацията породена от регресията и общата девиация:
SSE_R_T1-Девиации.
Получаваме SSE = 821956 , SSR = 79547151 и SST = 80369107 . За съжаление, отново трябва да кажем "Вервайте ми!" .
    Но на този етап можем да проверим равенството SST = SSE + SSR . SSR може да бъде изчислено и по формулата SS_Е1 Сума от квадратите на регресията.
    Сега определяме средното на квадрата на грешките:
MS_E1-Стандартна грешка
    Оформяме резултатите в таблица на регресионния анализ:
RegrTbl1-Таблица на регресионния анализ
    В таблицата на F-разпределението, при избраното с ниво на значимост α=0,05 няма стойност за степени на свобода 1 в числителя и 986 в знаменателя.
    Има стойност за 1 в числителя и по-голяма от 120, означена със символа ∞ и тя е 3,84:
F_Distr1-Таблица на F-разпределението
    Поради това, че получената F-статитика е много по-голяма, нулевата хипотеза за неадекватност (съгласие) на регресионния модел се отхвърля. Моделът е адекватен! Този тест е еквивалентен на t - теста за адекватност статистиката при β1,0 = 0 , както вече бе подчертано.
    Да определим доверителния интервал на изчисления коефициент бета едно-калпаче. При избрано ниво на значимост α=0,05 критичната стойност на t разпределението степени на свобода по-толеми от 120 е 1,645. Изчисленото стандартно отклонение е
Beta4- Оценка на бета едно
При същото ниво на значимост се определя и доверителния интервал за бета нула - калпаче.
Beta5- Оценка на бета нула
Въпреки че естеството на задачата изисква свободния член на регресията - калпаче да е нула. Това се прави в специално пригодена за този случай процедира - наричана "Принудително нулеране". Но за него - по-нататтък!

Литература
  1. roncho.net
  2. Обща теория на статистиката и икономическата статистика. Наука и изкуство. Проф. д-р ик.н. Кирил Гатев Доц. к. ик. н. Асен Спасов Доц. к. ик. н. Димитър Радилов
  3. Атанас Митков. Теория на експеримента
  4. Васил Симеонов Принципи на обработка на данни от химичните анализи. Софийски университет "Климент Охридски" 1987 г.
  5. Дъглас Монтогомери и Джордж Рунгер. Приложна статитика и теория на вероятностите за инжинери; изд. "Джон Уили и синове"
Какво ще научим?