Какво трябва да знаем?

Проста линейна регресия
Станчо Павлов

    Линейната регресия е метод за намиране на линейна зависимост, най-добре приближаваща данни от вида (xi , yi )   i = 1, ... , N .
Тази зависимост е от вида yApr-Изчислени y и съответства на модела Model1-Модел .
За грешките εi предполагаме че са нормално разпределени, със средна стойност 0 и неизвестна дисперсия дисперсия σ 2 : ErrDistr- нормално разпределение на грешките
    За дисперсията се използва оценката
Err00-Среден квадрат на грешките
β0 и β1 оценяваме по метода на най-малките квадрати. Нека Err-грешки са отклоненията при приближението, които желаем да ги направим възможно най-малки. Минимизираме функцията ErrSqSum- сума от квадратите на отклоненията.
Стойностите на Beta01- Бета , за които сумата от квадратите на грешките е минимална изпълняват условията: PartDer-Частни производни , които са еквивалентни на системата
Sis-Система, определяща коефициентите в уравнението на регресията
Beta01- Бета са случайни величини. В тази система над неизвестните е поставено "калпаче", защото това са изчислени въз основа на данните числови величини (статистики) , които се явават оценки на истинските - Beta02 Бета.
    От първото уравнение забелязваме равенствата Mids_1-Равенство, свързващо средните X и Y
Системата има разширена матрица
Matr1 - разширена матрица
От формулите на Крамер получаваме:
Beta1Det Определяне на бета 1 -калпаче

Другият коефициент се получава по формулата Beta0Det -Връзка между средните.
    Обикновено се въвеждат означенията - центрирана сума от квадрати спрямо X:
SSXX1-Девиация спрямо X
и смесена, центрирана сума спрямо X и Y:
SSXY1- Смесена девиация
Освен вече въведеното означение SSE за сумата от квадратите на отклоненията се въвеждат още две подобни означения, за да станат общо три - пълна девиация (total sum of squares): SST1--Девиация спрямо Y,
обяснена девиация или девиация, породена от регресията ( sum of squares explained by the regression): SSR1- Обяснена девиация и
остатъчната девиация, която е сумата от квадратите на отклоненията (sum of squared errors) SSE1- Остатъчната  девиация.
    При идеалния модел остатъчната девиация е равно но нула: SSE=0.
На чертежа са отбелязани разликите, чиито суми от квадратите образувт SST , SSR и SSE .
В сила е равенството SST = SSR + SSE.
PictSSTEq-Основно равенство при девиациите
SST = SSR + SSE     ?

    В сила е и равенството: _2Pr1-Равенство, свързващо девиациите     ?
    Вариациите са усреднените стойности на девиациите спрямо броя на наблюденията. При тяхното изчисляване трябва да се отчитат степените на свобода. При пълната девиация ( SST ) те са N-1 , при регресионната ( SSR ) - единица а при остатачната N-2.
Буквата M в MST , например, напомня, че става дума за осреднена стойност.
Обща (пълна) вариация (дисперсия) MidDev1- Обща (пълна) вариация
Обяснена или факторна вариация (дисперсия). Тя се дължи се на факторния признак. MidDev2- Вариация от регресията
Остатъчна вариация (дисперсия) или стандартна грешка на оценката. Дължи се на фактори, независещи от x. MidDev3- Остатъчна вариация
Тази дисперсия се нарича още " дисперсия на възпроизводимост" или " дисперсия на съгласие (адекватност) ".
За нея съществуват и други означения, споменати в началото. Ето ги и всичките: MidDev3_1-Остатъчна вариация
Тези осреднени суми на квадратите на отклоненията се нарича още "осреднени квадрати".
Остатъчната вариация е оценка на дисперсията на отклоненията от регресионния модел.
Коефициент r, определен от равенствата : CorCoeff2- Регресионен коефициент се нарича коефициент на детерминация ( корелационен коефициент на Карл Пирсън).
CorCoeff3-Регресионен коефициент , като знакът пред корена е същият, както на коефициента пред фактора X от уравнението на линейната регресия.
Коефициентът на детерминация (корелационния коефициент) лежи в интервала [ -1 ; 1].
Колкото неговата абсолютна стойност е по-близка до единица, толкова по-добре регресионният модел отразява наблюдаваното явление.
Приети са следните наименования за степента на линейната зависимост (корелацията), в зависимост от абсолютните стойности на корелационния коефициент:
Tbl1-Наименования на регресията в зависимост от 
	корелационния коефициент
Но коефициентът на корелация не е статистика, служеща за опредеделяне на качеството (адекватността) на модела.
    Такава е F-статистиката FStat- F-статистика.     Тя има F - разпределение , защото FDistr-Свойство на F-разпределението
Резултатите от изчисленията се подреждат в таблица, подобна на таблицата на дисперсионния анализ:
RegTbl-Таблица на регресионния анализ
Определя се критичната стойност fα , 1 , N-2
при предварително избрана степен на достоверност α и съответните степени на свобода в числителя и знаменателя. Ако α е по-голямо от критичната стойност регресионният модел се приема за адекватен.

Литература:
Проф. д-р ик.н. Кирил Гатев, Доц. к. ик. н. Асен Спасов, Доц. к. ик. н. Димитър Радилов
Обща теория на статистиката и икономическата статистика; изд. "Наука и изкуство"

Какво ще научим?