Какво трябва да знаем?

Линейна регресия - примери
Станчо Павлов

Числен пример

Тук целим само показването на изчислителната прследователност на регресионния анализ. X е независимита променлива (фактор) а Y - наблюденията. Данните са в таблицата:
_1Tbl-Начални данни
Това е тяхното графично представяне
_1Gr1-Графика
    Желаем да проверим хипотезата за адекватност на линейния модел за тези данни при ниво на значимост α=0,05.
Изчисляваме средното по двата фактора и девиациите ( центрираните суми от квадратите) на X , Y и смесената ( центрираните суми от произведенията ), означавани съответно с Dev(X , X ) ,
(Y , Y ) и Dev( X , Y ) или със SSXX , SSYY и SSXY по формулите:
_1Dev-Девиации
    Регресионните коефициенти β1 и β2 се изчисляват от вече определените величини: _1Beta10-Коефициентите на регресията
Получените резултати подреждаме в таблица:
_1Tbl2-Таблица с девиациите
    След това началната таблица с факторите се допълва с графа, съдържаща изчислените стойности на наблюдавания фактор, близки до реалните, изчислени по модела . Тази графа сме озаглавили "Изчислено":
_1Tbl3- Таблица с изчислените стойности
Допълваме графиката, съдържаща стойностите ( X , Y ) с правата, на която са отразени изчислените стойности на Y по регресионния модел:
_1Gr2-Графика
После се изчисляват девиациите, касаещи Y - SSR , SST, SSE . В статистическата литература на български език те се наричат съответно обяснена, пълна и остатъчна. Изчисляването се извършва по една от предложените формули:
_1_3Dev-Трите девиации

Ето ги рузултатите:
_1Tbl4-Таблица с девиациите
Попълваме таблицата на простия регресионен анализ като изчислим вариациите и F-статитиката:
_1Tbl5-Таблица на регресионния анализ
    Критичната стойност за избраното алфа и съответните степени на свобода е f0,05 ; 1 ; 3 = 10,1 се намира от таблица.
_2CritVals-Критични стойности
    Поради това, че F-статистиката е по-малка от определената критична стойност при избраното ниво на значимост моделът не може да се приеме за адекватен.

Реален пример

От националния статистически институт -"http://www.nsi.bg/" са използвани данни за потреблението на хранителни стоки средно за домакинство. Тези данни са придружени и с цени, откъдето може да се направи извод за разходите на домакинство по съответните стоки. Резултатите са нанесени в талица, която е допълнена с колона "Полезност", със стойности от 0 до 100, определени от специалист - диетолог. Желаем да проверим наличието на връзка между големината на разходите и полезността.
_2Tbl2-Начални данни
    С X означаваме независимия фактор (нарича се още признак или регресор) - "разход" а с Y - зависимия фектор - "полезност". Броят на данните е 84.
В началото изчисляваме средните величини на X и Y:
_2Mids-Средни стойности
    След това се изчисляват девиациите (сумата от квадратите на отклоненията) на величините X и Y : _2Dev1-Девиации
Определяме съвместната девиация на X и Y :
_2Dev2-Смесена девиация
    Оценката на коефициента на регресията пред независимия фактор се получава по формулата:
_2Beta1-Бета1
_2Beta0-Бета0
    С помощта на изчислените коефициенти на регресионното уравнение попълваме стойностите на по формулата _2RegEq-Регресионно уравнение и ги нанасяме в таблицата в графата "Изчислено".
    Преминаваме към изчисляване на девиациите - пълна, обяснена и остатъчна.
_2Dev3-девиации
    Квадратът на корелационният коефициент е равен на отношението между обяснената и пълната дивиации:
_2CorrCoeff-Корелационен коефициент
    Тогава корелационният коефициент е равен на r = 0,23. От това, че той е по-малък от 0,3 правим извод, че има слаба корелация между величините X и Y . Поради тази ниска корелация линейният модел със сигурност е неадекватен и няма смисъл да попълваме таблицата на регресионния анализ. От графиката нещата стават напълно ясни.
_2Gr1-Графика


Литература:
  1. Национален статистически институт "http://www.nsi.bg/bg/content/3269/
  2. Проф. д-р ик.н. Кирил Гатев, Доц. к. ик. н. Асен Спасов, Доц. к. ик. н. Димитър Радилов
    Обща теория на статистиката и икономическата статистика; изд. "Наука и изкуство"
Какво ще научим?