Какво трябва да знаем?

Дивергенция на Кулбак-Лайблер
Станчо Павлов

Кирил и Методий-CirMet
Свети Кирил и Методий. Стенопис от 1848 година от Захарий Зограф (1810 - 1853) в Троянския манастир "Успение Богородично"

Условна ентропия и взаимна информация - един по-общ поглед

Условната ентропия се дефинира с равенството Условна ентропия –CondEnrpy1.         Ако X и Y са независими, то Условна ентропия–CondEnrpy2. Условна ентропия – CondEntrpy2_1 , защото p(x/x)=1.
Както ще видим по-нататък -Условна ентропия – CondEntrpy2_2.
За нея са приети следните означения и са изпълнени следните свойства: Условна ентропия-CondEnrpyMainPrp ?         Ентропия – съвместна и условна-EnrpyMutlCond
Тези твърдения показват, че появата на нова случайност, в случая Y, увеличава хаоса на една система.
Това увеличение е толково по-голямо, колкото новата случайност е по-независима от старата. Вярно е следното двойно неравенство, чиято втора част ще докажем по-нататък чрез използването на неравенството на Йенсен:     Неравенство за условната ентропията-ChainEntrpy_0_1
За съвместната ентропия на няколко случайни величини е в сила верижното правило: Верижно правило за ентропията-ChainEntrpy1
В общия случай това правило изглежда така: Верижно правило за ентропията в общия случай-ChainEntrpy2
      Взаимната информация I(X; Y) се дефинира като: Взаимната  информация-MutInfrm1
Забележете, че при означението за взаимната информация случайните величини се отделят с точка и запетая, за разлика от ентропията.
За нея са верни свойствата: Свойства на верижната информация-InfrmProp ?
Ако случайните величини X и Y са независими то тяхната взаимна информация е равна на нула.
В сила е и свойството I(X ; X) = H(X).
Схема за ентропията и взаимната информация-Scm1
      Условната, взаимна информация на случайните величини X и Y при условие Z се дефинира с равенството: Условна, взаимна информация-CondInfrm0
Изпълнено е равенството: Условна, взаимна информация-CondMultInfrm1 ?
      За взаимна информация, както и за ентропията, също важи верижното правило: Верижно правило за взаимната информация-ChainRoolInfrm1
В общия случай това правило изглежда така: Верижно правило за взаимната информация-ChainRoolInfrm2

Дефиниция на дивергенцията на Кулбак-Лайблер

      Един от интуитивните начини за определянето на различието между две дискретни разпределения на случайни величини с една и съща дефиниционна област е чрез относителната ентропия или дивергенцията на Кулбак-Лайблер.
Относителна ентропия или дивергенция на Кулбак-Лайблер-KLDeffDscr
Основавайки с на теоремите за граници се приема че: Уточнения-KLDeteils.       Подобно е и определянето за две непрекъснати разпределения: Непрекъснат случай-KLDeffCont
И в двата случая относителната ентропия може да се изрази чрез средната стойност на случайна величина от теорията на вероятностите: Относителна ентропия или дивергенция на Кулбак-Лайблер като средна стойност на случайна величина-KL_E1
По-нататък ще пропускаме индекса KL, който е съкръщение от Кулбак-Лайблер.
Пример: Числен пример на относителна ентропия или дивергенция на Кулбак-Лайблер-KLExmpl1
      Дивергенцията на Кулбак-Лайблер не е симетрична величина. За нея са изпълнени равенствата: Несиметричност-NonSym
Да припомним, че ентропията на случайна величина се задава с Ентропия-EntrAgain.   С Un ще означим равномерното разпределение на дискретната случайна величина, заемаща стойности от 1 до n.   Нека Pn да е произволно друго разпределение на случайна величина със същата дефиниционна област.   Тогава дивергенцията Ентропията е дивергенцията спрямо равномерното разпределение-KL_P_U е равна на ентропията на Pn.

Неравенството на Йенсен с вероятностни означения


Ще използваме неравенството на Йенсен за изпъкналата функция y = lnx: Неравенство на Йенсен за логаритмичната функция-JnsUnEq1
В непрекъснатия случай това неравенство има вида: Неравенство на Йенсен за логаритмичната функция в непрекъснатия случай-JnsUnEq2
Използвайки средната стойност това неравенство се изразява така: Неравенството, изразено посредством мат. очакване-JnsExp1
И във двете неравенства стойността на случайната величина може да бъде заменена с произволна функция от x , която ще означаваме с f(x) .
В този случай неравенството на Йенсен придобива вида Друга функция- Jns_f_Dscr дискретния и Непрекъснат случай-Jns_f_Cont в непрекъснатия случай.
    Използвайки означенията със средна стойност получаваме неравенството Посредством мат. очакване-JnsExp2
Тук X е случайна величина с дадена функция на плътността на разпределение P, от която се определят вероятностите p(x) . Ще докажем втората част на двойно неравенство     Неравенство за условната ентропията-ChainEntrpy_0_1:
Неравенство за условната ентропия -UnEq1
Като използване неравенството на Йенсен получаваме: Неравенство за условната ентропия -UnEq2
Предложение: Дивергенцията на Кулбак-Лайблер е неотрицателна: Неотрицателност на относителната ентропия-KLnonNeg1
Доказателство Неотрицателност на относителната ентропия-KLnonNeg2
На фигурата е изобразена графиката на Пример-KLExmpl1_1 Пример- KLExmpl2
Интегралът от тази функция е положителен.
    Дивергенцията на Кулбак-Лайблер не е симетрична и не удовлетворява неравенството на триъгълника.   Затова тя не е метрика и се нарича "дивергенцията" а не "разстояние".

Условна относителна ентропия


Нека са дадени две съвместни разпределения на случайните величини X и Y.
Тези разпределения ще означаваме с P(X, Y) и Q(X, Y).
Тогава условната относителна ентропия на двете разпределения при условие X се дефинира с равенството:
Условна относителна ентропия-CondKL1
    Относителната ентропия на съвместни разпределения се разлага на сума от относителната ентропия на съответните им прости по първите, маргинални разпределения и условната относителна ентропия: Относителната ентропия на съвместни разпределения-CondKL2 ?
Това разлагане на относителната ентропия на две съвместни разпределения се нарича верижно правило за относителната ентропия.

Какво ще научим?