Какво трябва да знаем?

Функция на правдоподобието

Приципът на Парето 20/80 се преобразува в 1/99. Отново съм в знаменателя! - Станчо Павлов


    Нека D са данни на случайни събития с известен закон на разпределението, определян от един параметър θ . Ние не знаем неговата стойност и го разглеждаме като на случайна величина, с функция на плътност на разпределението p(θ). Тази предполагаема функция на разпределение на плътността на параметъра се нарича "априорна вероятност".

    Различието между разпределението на случайна величина с даден закон на разпределение и известен параметър, от една страна и разпределението на параметъра, разглеждан като случайна величина с предполагаемо разпределение, видът на което се определя субективно въз основа на предварителни данни, е различие между дедуктивния и индуктивния подход при експеримента.

    Индуктивният подход се нарича още "Бейсовски".
При дедуктивния (класически) подход определяме оценка на параметъра θ въз основа на достатъчен брой данни а при втория - функцията на разпределение на параметъра θ .

Схема на дедуктивния (класически) подход

Основното при този подход е предположението, че вероятността съществува обективно и независимо от опита ни.
Тя се определя като граница на частното (благоприятни случаи) / ( всички случаи) когато броят на "всичките случаи" клони към безкрайност.
  1. Известно е разпределение с известен или неизвестен но фиксиран параметър
  2. Извършва се експеримент от който се извличат данни D .
  3. Определяме на вероятността на поява на данните D или оценяме параметъра на разпределението въз основа на D .
    Поддържниците на този, класически подход се наричат "честотници".

Схема на индуктивния (Бейсовски) подход

  1. Известно разпределение на случайната величина но с неизвестен параметър θ ( който също се разглежда като случайна величина ) и предполагаемо негово априорно разпределение .
  2. Извършва се експеримент и се получават данните D .
  3. Определя се новото разпределение на параметъра θ , което се нарича "апостериорно", основавайки се на формулата на Бейс: Bayes-формула на Бейс
    Поддържниците на този- бейсовски се наричат "бейсиани".
    Вероятността за получаването на данните D се получава от формулата за пълната вероятност, която се свежда до събиране при дискретни разпределения и до интегриране при непрекъснати:
PrData-вероятността на данните
Използвайки съкращението "фрп" за "функция на разпределение на плътността" формулата на Бейс за непрекъснатия случай придобива вида: pdf- функция на разпределение на плътността Различието между двата подхода - дедуктивния и индуктивния (Бйсовски) подход ни отвежда до философски и логически проблеми, които не се чувствам достоен да обсъждам . Функция на правдоподобието се нарича функцията L(θ ) = C. P(D/θ ) . Тук D е съвкупност от данни а θ е параметър или параметри на определено разпределение. C е константа, независеща нито от D , нито от θ . Предполагайки, че статистическия модел се основава на променлив параметър θ , функцията на правдоподобие L(θ ) е пропорционална на вероятността за поява на наблюдаваните данни като функция от параметъра θ . Тя не е функция на разпределение на случайна величина.
Пример 1
    Има две урни. В първата от тях има една черна и една бяла топка а във втората - три зелени и една бяла. Вероятността за избор на първата урна е θ а на втората - (1-θ ). Един опит състои в случаен избор на една от урните и изваждане на топка от нея. Извършени са пет опита и са получени данните: D = (2 черни, 2 зелени и 1 бяла топка ).
    Ще определим функцията на правдоподобие за тези данни.
    Определяме вероятностиете за различните видове топки:
PrBlGrWh-Вероятностите за черна, зелена и бяла
Изчисляваме вероятността на получените данни:
LHF1- Функция на правдоподобието
    При изчиляване на функцията на правдоподобие константата не е от значение и ще считаме, че LikelihoodFnct1- Функция на правдоподобието Изобщо L(θ ) е дефинирана с точност до константен множител, както бе казано. Използва се означението L(θ ) ∝ P(D/θ ) , което изразява действителността, че двете стойности са пропорционални с константен коефициент , независещ от θ .
    Ето таблица на значенията на правдоподобието L(θ ) при различни стойности на аргумента:
Table1-Таблица на функцията на правдоподобието
    Определяме максималното правдоподобие 0,094, което се получава при стойност на параметъра Eval1-Оценка на параметъра.

    Методът за намиране на максимално правдоподобната оценка чрез максимизирането на функцията на правдоподобие е въведен от английския учен сър Роналд Фишер ( 1890 – 1962 г.) през 1912 г. Този метод на получаване на оценка на параметърите на разпределението се нарича "метод на максималното правдоподобие".
    При независими опити функцията на правдоподобието се явава произведение на вероятности: P( (D1, D2 ) / θ ) = P(D1 / θ ). P( D2 / θ ) .
Поради това, обикновено, се търси максимумът на логаритъм от нея. Тази функция се значава с l : l(θ) = ln(L(θ )).
При логаритмуването произведението се преобразува в сума: ln [ P( (D1, D2 ) / θ ) ] = ln [ P (D1 / θ )] + ln [ P ( D2 / θ )].
    Пример 2
    Дадена е прекъсната (дискретна) случайна величина със закон на разпределение
Table2-Закон на разпределение
с параметър θ . Получени са данните: D = (3, 0, 2, 1, 3, 2, 1, 0, 2, 1) ⇔ D = (2 нули, 3 единици, 3 двойки и 2 тройки). Ще оценим параметъра по метода на максималното правдоподобие.
LikelihoodFnct2- функция на правдоподобие
    След логаритмуване - получаваме: LogLikelihood- логаритъм от функцията на правдоподобие
Намирайки максимума на последната функция след диференциране и приравняване на производната на нула получаваме максимално правдоподобната оценка на параметъра Eval1-оценка на параметъра.
Методът на моментите ( друг метод за оценка на параметъра) ни дава в случая друга стойност за оценявания параметър - (5/12).

    Пример 3
    Важен случай за прилаганего на метода на максималното правдоподобие е при нормалното разпределение. То зависи от два параметъра ( µ , σ ) , чиято съвкупност ще означаваме с θ : θ = ( µ , σ ) .
    Нека е направена извадка с обем n от нормално разпределена генерална съвкупност с функция на разпределение на плътността: NormDistr-плътността и логаритъм от нея
    От генералната съвкупрост са извлечени данните D( X1 , X2 , …, Xn ).
Тогава:
LogLikelihood3- логаритъм от функцията на правдоподобие
PartDer-частни производни
Eval3-оценки на параметрите
В случая се получават същите оценки, както по метода на моментите.
Очертава се схема на прилагане на метода на максималното правдоподобие и подходящи означения:
  1. 1. Логаритмува се функцията на плътността log-логаритмуване
  2. 2. Резултатът се сумира се по данните и така се получава лагаритъм от функцията на правдоподобието, която се означава с ел-малко: SumDt-Събиране по данните
  3. 3. След това се намира производната Der-диференциране по параметъра. Възможно е параметрите да са няколко и тогава се диференцира по всеки от тях.
  4. 4. Производната се приравнява на нула и се решава полученото уравнение спрямо неизвестнния параметър.

    Пример 4
    Разпределението на Парето е двупараметрично и има плътност Pareto-Разпределение на Парето.
Вилфредо Парето е формулирал принципа 20/80 - 20% от населението владеят 80% от ресурсите.
( Сега се вижда, че този принцип е остарял и трябва да се промени на 1/99! )
Ще намерим оценка на параметъра θ по метода на максимизация на функцията на правдоподобието.

LogLikelihood4- логаритъм, сумиране, производна и накрая-оценка


    Пример 5
    Разпределението на Поасон е дискретно разпределение със стойности на случайната величина - целите числа от нула до безкрайност.
Законът на разпределението е Poisson-Разпределение на Поасон. Ще намерим оценка на параметъра λ по метода на максимизация на функцията на правдоподобието.
Да означим данните с D( N1 , N2 , …, Nn ).
LogLikelihood5 - логаритъм, сумиране, производна и накрая-оценка


    Пример 6
    Експоненциалното разпределение има плътност Exp-експонециално разпределение.
    Ще намерим оценка на параметъра β по метода на максимизация на функцията на правдоподобието в зависимост от данните .
ExpSol-- логаритъм, сумиране, производна и накрая-оценка

    Пример 7
    Ще намерим оценка на параметъра λ на Гама - разпределението с функция на плътността Gamma- Гама разпределение по метода на максимизация на функцията на правдоподобието.
GammaSol-оценки на параметрите при Гама-разпределение

    Между другото - функцията DiGama- дигама се нарича "дигама".

Свойства на функцията на правдоподобие

  1. Функцията на правдоподобието се дефинира с формулата L(θ) = P(D/θ ) където D е набор от данни а θ е един или няколко параметъра на разпределение от статистически модел. Тя не е функция на разпределение!
  2. Функцията на правдоподобието се дефинира за един, определен набор от данни и зависи единствено от набора от параметри θ . Ако стойността на L(θ) е по-голяма за една стойност на параметъра, отколкото за друга та първата стойност е по-правдоподобна от втората. Това води естествено до метода на максималното правдоподобие, който се състои в определянето на тези стойности на параметъра, които максимизират L(θ) .
  3. L(θ) се определя с точност до константен множител.
    Използва се означението L(θ ) ∝ P(D/θ ) , указващо че двете стойности са пропорционални с константен коефициент , независещ от θ .
  4. L(θ) е твърде "широка" при данни с малък обем и с по-ясно изразен максимум в противоположния случай.
  5. L(θ) може да се дефинира като скаларна функция с векторен аргумент, когато броят на параметрите е повече от един. Такъв е случаят с гаусовото разпределение, където параметрите са два.

Литература