Функцията H е дефинирана за набор от неотрицателни числа (не непременно със сума единица ).
За нея са в сила свойствата:
Тогава, в условията на постановката на теоремата:
Трябва да съберем всички n.m на брой събираеми.
Да съберем елементите от първия ред:
В първите скоби сумата е 1 защото q
j образуват набор.
Във вторите скоби си получава ентропията H(Y) със знак минус.
За сумата на събираемите от първия ред получаваме:
Подобно се получава, че сумата на елементите от i-тия ред е
![Без отчитане на началния минус _4WithoutMinus1_1 Без отчитане на началния минус _4WithoutMinus1_1](_4WithoutMinus1_1.GIF)
.
За съвместната вероятност P(X=X
i,Y=Y
j) имаме:
P(X=X
i,Y=Y
j) =
P(X=X
i). P(Y=Y
j /X=X
i) =
p
i . P(Y=Y
j /X=X
i)
Условната вероятност ще означим с q
j/i .
Получаваме:
P(X=X
i,Y=Y
j) = P(X=X
i). P(Y=Y
j /X=X
i) =
p
i . P(Y=Y
j /X=X
i) = p
i . q
j/i .
Да подредим събираемите от двойната сума в таблица, както преди:
и да съберем по редове.
За първия ред получаваме:
В първите скоби сумата е 1 защото q
j/1 образуват набор от
неотрицателни числа със сума 1.
Във вторите скоби се получава
условната ентропия на Y при условие X=X
1 със знак минус.
За сумата на събираемите от първия ред получаваме окончателно:
Подобни изрази се получават и за останалите редове.
Събирайки ги получаваме
H(X, Y)= H(X) + EX(HY(Y/X=Xi)) = H(X) + HX(Y)
За фиксирано j
От формулата за пълната верятност сумата в скобите е q
j .
Събирайки получените неравенства по индекса j получаваме търсеното.