Что такое кросс энтропия

Энтропия и кросс-энтропия

Энтропия

Допустим у нас есть две механических машины, которые печатают сообщения из алфавита . Символы, печатаемые первой машиной, распределены равновероятно, то есть, появление каждого нового символа имеет вероятность 0.25 :

Символы, печатаемые второй машиной, имеют иное распределение:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Вопрос «Какая из двух машин предоставляет нам больше информации?» или мы можем переформулировать вопрос: «Если вам необходимо предсказать следующий символ, то сколько вопросов, на которые можно ответить да или нет, потребуется задать?».

Давайте рассмотрим первую машину. Нашим первым вопросом может быть «Это символ A или B?». Так все символы появляются равновероятно, то с вероятностью 0.5 это будет «A или B» и с вероятностью 0.5 это будет «C или D». После того как мы получим ответ, нам останется задать еще один вопрос, например, «Это A?». И после того как мы получим ответ на наш последний вопрос, мы будем знать какой именно символ был следующим в последовательности, выдаваемой машиной один. Таким образом, нам достаточно двух вопросов, чтобы предсказать какой символ был сгенерирован машиной номер один.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Сколько в среднем вопросов нам нужно задать, чтобы определить символ в последовательности генерируемой второй машиной?

Для этого мы можем воспользоваться формулой для вычисления математического ожидания дискретной случайной величины:

Аналогично посчитаем среднее число вопросов для первой машины:

Источник

Понимание двоичной кросс-энтропии / потери логарифма: визуальное объяснение

Дата публикации Nov 21, 2018

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Введение

Если вы тренируетесьдвоичный классификаторСкорее всего, вы используетедвоичная кросс-энтропия/потеря журналакак ваша функция потери.

Вы когда-нибудь думали очто именно это значитиспользовать эту функцию потерь? Дело в том, что, учитывая простоту использования современных библиотек и сред, этоочень легко пропустить истинное значение функции потерьиспользуемый.

мотивация

Я искал сообщение в блоге, которое объясняет концепциидвоичная кросс-энтропия/потеря журналавнаглядно и лаконичночтобы я мог показать это своим ученикам вData Science Retreat, Так как я не мог найти то, что соответствовало бы моим целям, я взял на себя задачу написать это сам 🙂

Простая классификационная задача

Начнем с 10 случайных точек:

Это наш единственныйхарактерная черта:Икс,

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Теперь давайте назначим некоторыецветак нашим точкам:красныйа такжезеленый, Это нашиэтикетки,

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Таким образом, наша проблема классификации довольно проста: учитывая нашихарактерная чертаИкснам нужно предсказать егоэтикетка:красныйилизеленый,

Так как этобинарная классификацияМы можем также представить эту проблему как: «точка зеленаяИли, что еще лучше,какова вероятность того, что точка зеленого цвета«? Идеально,зеленые точкибудет иметь вероятность1,0(быть зеленым), в то время каккрасные точкибудет иметь вероятность0.0(быть зеленым).

В этой настройкезеленые точкипринадлежатположительный класс(ДАони зеленые), а покакрасные точкипринадлежатотрицательный класс(НЕТони не зеленые).

Если мысоответствовать моделичтобы выполнить эту классификацию, он будетпредсказать вероятность того, чтобы быть зеленымк каждому из наших пунктов. Учитывая, что мы знаем о цвете точек, как мы можемоцениватьНасколько хороши (или плохи) предсказанные вероятности? Это вся цельфункция потерь! Должно вернутьсявысокие значениядляплохие прогнозыа такженизкие значениядляхорошие прогнозы,

Длябинарная классификациякак наш пример,типичная функция потерьэтодвоичная кросс-энтропия/потеря журнала,

Функция потери: двоичная кросс-энтропия / потеря журнала

Если вы посмотрите этофункция потерьвверх, это то, что вы найдете:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

гдеYэтоэтикетка(1длязеленыйочки и0длякрасныйбаллы) ир (у)является предсказаннымвероятность того, что точка зеленаядля всехNточки.

Читая эту формулу, она говорит вам, что для каждогозеленыйточка (у = 1), добавляетлог (р (у))к потере, то естьлогарифмическая вероятность того, что это зеленый, И наоборот, это добавляетЖурнал (1-р (у)), этологарифмическая вероятность того, что это красный, для каждогокрасныйточка (у = 0). Не обязательно сложно, конечно, но не настолько интуитивно понятно…

Кроме того, что делаетэнтропиясвязано со всем этим? Почему мы беремжурнал вероятностейв первую очередь? Это правильные вопросы, и я надеюсь ответить на них наПокажите мне математикуРаздел ниже.

Во-первых, давайтеТрещинаочки в соответствии с их классами,положительныйилиотрицательный, как на рисунке ниже:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Теперь давайте обучимЛогистическая регрессияклассифицировать наши очки. Подходящая регрессия представляет собойсигмовидная криваяпредставляявероятность того, что точка зеленого цвета для любого данногоИкс, Это выглядит так:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Тогда для всех точек, принадлежащихположительный класс(зеленый), каковы предсказанныевероятностидано нашим классификатором? Этизеленые полосыподсигмовидная криваянаИкскоординаты, соответствующие точкам.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Хорошо, пока, так хорошо! Как насчет точек вотрицательный класс? Помните, чтозеленые полосы подсигмовидная криваяпредставляют вероятность того, что данная точка являетсязеленый Итак, какова вероятность того, что данная точкакрасный?красные полосы вышесигмовидная кривая, конечно 🙂

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Собрав все это вместе, мы получим что-то вроде этого:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Столбцы представляютпрогнозируемые вероятностисвязано с соответствующимнастоящий класскаждой точки!

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Ну, топодвесные решеткибольше не имеет смысла, так что давайтепереставить их:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Так как мы пытаемся вычислитьпотерянам нужно наказывать за плохие прогнозы, верно? Есливероятностьсвязано снастоящий классявляется1,0нам нужно егопотерябытьнуль, И наоборот, если этовероятностьнизкий, сказать,0,01нам нужно егопотерябытьОГРОМНЫЙ!

Оказывается, принимая(отрицательный) лог вероятностиподходит нам достаточно хорошо для этого (Поскольку лог значений от 0,0 до 1,0 является отрицательным, мы берем отрицательный лог, чтобы получить положительное значение для потери).

На самом деле, причина, по которой мы используемжурналибо это происходит от определениякросс-энтропиипожалуйста, проверьте «Покажите мне математикуРаздел ниже для более подробной информации.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Справедливо! Давайтевзять (отрицательный) лог вероятностей— это соответствующиепотерикаждой точки.

Наконец, мы вычисляемсреднее из всех этих потерь,

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Вуаля!Мы успешно вычислилидвоичная кросс-энтропия/потеря журналаэтого игрушечного примера.Это 0.3329!

Покажи мне код

Если хочешьперепроверьте значениемы нашли, простозапустить кодниже и убедитесь сами 🙂

распределение

Давайте начнем с распределения наших очков. посколькуYпредставляетклассыиз наших точек (у нас есть3 красных очкаа также7 зеленых точек), это то, что его распространение, давайте назовем этод (у), выглядит как:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Энтропия

Энтропияэтомера неопределенностисвязано с данным распределениемд (у),

Что, есливсе наши очкимызеленый? Что будетнеопределенностьизчтораспределение?НУЛЬ, правильно? В конце концов, было бынет сомнений по поводу цветао точке: этовсегдазеленый! Так,энтропия равна нулю!

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Длякаждый другой случай междумы можем вычислитьэнтропия распределениякак нашд (у), используя формулу ниже, гдеСэто количество классов:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Но что если мыне надо? Можем ли мы попытатьсяприблизительное истинное распределениес некоторымидругое распределение, сказать,р (у)? Мы можем точно! 🙂

Кросс-энтропия

Давайте предположим, что нашточкиследоватьэтоДругиераспределениер (у), Но мы знаем, что онина самом деле идетотправда(неизвестный) распределениед (у), правильно?

Если мы вычислимэнтропиятаким образом, мы на самом деле вычисляемкросс-энтропиимежду обоими распределениями:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Если мы, несколько чудесным образом,совпадениер (у)вд (у)в совершенствевычисленные значения для обоихкросс-энтропииа такжеэнтропиябудет соответствоватьтакже

Так как это, вероятно, никогда не происходит,кросс-энтропия будет иметь большее значение, чем энтропиярассчитано на истинное распределение.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Расхождение Кульбака-Лейблера

Расхождение Кульбака-Лейблера,или «Дивергенция КЛДля краткости, является меройнесходствомежду двумя распределениями:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Это означает, чтоближе p (y) добирается до q (y),нижедивергенцияи, следовательно,кросс-энтропии, будет.

Функция потери

Во время обученияклассификаториспользует каждый изN балловв его учебном наборе для вычислениякросс-энтропиипотеря, эффективноподгонка распределения р (у)! Поскольку вероятность каждой точки равна 1 / N, кросс-энтропия определяется как:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Помните рисунки с 6 по 10 выше? Нам нужно вычислитькросс-энтропиина верхней частивероятности, связанные с истинным классомкаждой точки. Это означает использованиезеленые полосыдля точек вположительный класс(у = 1) икрасныйвиситбрусьядля точек вотрицательныйучебный класс(у = 0) или, математически говоря:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Наконец, с небольшой манипуляцией, мы можем взять любую точку,либо из положительных или отрицательных классовпо той же формуле:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Вуаля! Мы вернулись коригинальная формуладлядвоичная кросс-энтропия / логарифм🙂

Последние мысли

Я действительно надеюсь, что этот пост смогпролить новый светна концепции, которая довольно часто принимается как должное,двоичная кросс-энтропиякакфункция потерь, Кроме того, я также надеюсь, что это показало вам, какМашинное обучениеа такжеТеория информациисвязаны друг с другом.

Если у вас есть какие-либо мысли, комментарии или вопросы, пожалуйста, оставьте комментарий ниже или свяжитесь со мной пощебет,

Источник

Кросс-энтропия (Cross-Entropy)

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Кросс-энтропия (Перекрестная энтропия) – это Функция потерь (Loss Function), которую можно использовать для количественной оценки разницы между двумя Распределениями вероятностей (Probability Distribution).

Лучше всего это можно объяснить на примере. Предположим, у нас есть две модели, A и B, и мы хотели выяснить, какая из них лучше:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Примечание. Цифры рядом с точками данных представляют вероятность того, что Наблюдение (Observation) принадлежит к соответствующему классу – цветовой зоне. Например, вероятность того, что красная точка в левой верхней части графика модели A принадлежит «красному» классу, равна 0,8.
Интуитивно мы знаем, что модель B лучше, поскольку красные точки находятся на красном распределении, а синие точки – в синем. Но как мы передадим модели эти знания?

Один из способов – взять вероятности каждой точки в модели A и перемножить их. Это даст полную вероятность модели, как мы знаем из общего правила умножения вероятностей. Мы можем сделать то же самое для модели B:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Как видно из изображения выше, наилучшей моделью является B, поскольку вероятность выше. Так мы можем выяснить, какая модель лучше, используя вероятность.

С этой последовательностью, однако, есть некоторые проблемы. Как вы, возможно, догадались, чем больше наблюдений, тем меньше результирующая вероятность. Кроме того, если бы мы изменили одну точку данных, результирующая вероятность резко изменилась бы вслед.
Одним словом, использование прозведений – не лучшая идея. Как мы можем это исправить? Один из способов – использовать вместо этого суммы. Если мы вспомним логарифмы, есть способ связать произведение вероятностей с их суммой:

Давайте применим это правило к нашим вероятностям:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Это выглядит неплохо, но давайте избавимся от негативов, сделав записи в журналах отрицательными и посчитаем общее количество:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Использование отрицательных логарифмов вероятностей – это так называемая кросс-энтропия, где большое число означает плохие модели, а маленькое число – хорошую.

Итак, давайте еще немного разберемся с перекрестной энтропией. На самом деле она говорит о том, что если у нас есть события и вероятности, насколько вероятно, что события произойдут на основе вероятностей? Если это очень вероятно, у нас малая кросс-энтропия, а если маловероятно, у нас высокая кросс-энтропия. Мы увидим это подробнее на примере.

Например, если мы возьмем вероятность того, что за тремя дверями есть подарок, и у нас есть таблица, которая выглядит следующим образом:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Здесь мы видим, что если кросс-энтропия велика, вероятность того, что событие произойдет, мала, и наоборот.

Предположим, мы возьмем первый случай, когда за дверью № 1 подарок с вероятностью 0,8; за дверью № 2 – 0,7, № 3 – 0,1:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Обратите внимание, что мы описываем третью дверь как 1-p, что означает 1 минус вероятность подарка. Это даст нам вероятность того, что подарка нет. Также обратите внимание, что Y описывает, сколько подарков находится за дверью. Таким образом, кросс-энтропия может быть описана следующей формулой:

Эта формула предназначена только для двоичной кросс-энтропии и описывает, насколько близко предсказанное распределение к истинному распределению.

Источник

Визуальная теория информации (часть 2)

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Вторая часть перевода лонгрида посвященного визуализации концепций из теории информации. Во второй части рассматриваются энтропия, перекрестная энтропия, дивергенция Кульбака-Лейблера, взаимная информация и дробные биты. Все концепции снабжены прекрасными визуальными объяснениями.

Для полноты восприятия, перед чтением второй части, рекомендую ознакомиться с первой.

Вычисление энтропии

Напомним, что стоимость сообщения длиной Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияравна Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. мы можем инвертировать это значение, чтобы получить длину сообщения, которое стоит заданную сумму: Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. Поскольку мы тратим Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияна кодовое слово для Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, длина будет равна Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. На рисунке выбор лучших длин кодовых слов.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Ранее мы обсуждали, что существует фундаментальный предел того, насколько коротким может быть среднее сообщение для передачи событий из определенного распределения вероятностей Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. этот предел, средняя длина сообщения при использовании наилучшей системы кодирования, называется энтропией Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. Теперь, когда мы знаем оптимальную длину кодовых слов, мы можем ее вычислить!

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

(Часто энтропию записывают как Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияиспользуя равенство Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. Мне кажется первая версия более интуитивна поэтому мы продолжим использовать ее.)

Если я хочу сообщить, какое событие произошло, то независимо от того, что я делаю, в среднем мне нужно отправить столько битов.

Среднее количество информации, необходимой для передачи чего-либо, имеет прямые следствия для сжатия. Но есть ли другие причины, по которым мы должны заботиться об этом? Да! Оно описывает мою неопределенность, и дает возможность количественно оценить информацию.

Если бы я знал наверняка, что произойдет, мне вообще не пришлось бы посылать сообщение! Если есть две вещи, которые могут произойти с вероятностью 50%, мне нужно отправить только 1 бит. Но если существует 64 различных события, которые могут произойти с одинаковой вероятностью, мне придется отправить 6 битов. Чем более концентрирована вероятность, тем больше у меня возможностей создать умный код с короткими средними сообщениями. Чем расплывчатее вероятность, тем длиннее должны быть мои сообщения.

Чем неопределеннее результат, тем больше я узнаю в среднем, когда мне сообщают о произошедшем.

Перекрестная энтропия

Незадолго до переезда в Австралию Боб женился на Алисе, тоже воображаемой. К моему удивлению, а также к удивлению других персонажей в моей голове, Алиса не была любительницей собак. Она была любительницей кошек. Несмотря на это, они смогли найти общий язык в своей общей одержимости животными и очень ограниченном словарном запасе.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Эти двое используют одни и те же слова, только с разной частотой. Боб все время говорит о собаках, Алиса все время говорит о кошках.

Сначала Алиса посылала мне сообщения, используя код Боба. К сожалению, ее сообщения были длиннее, чем требовалось. Код Боба был оптимизирован под его распределение вероятностей. У Алисы другое распределение вероятностей, и код для нее неоптимален. Средняя длина кодового слова, когда Боб использует свой код, составляет 1,75 бита, когда же его использует Алиса, то 2,25. Было бы еще хуже, если бы эти двое не были так похожи!

Средняя длина сообщения из одного распределения с оптимальным кодом другого распределения называется перекрестной энтропией. Формально мы можем определить перекрестную энтропию следующим образом:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

В данном случае речь идет о перекрестной энтропии частоты слов кошатницы Алисы по отношению к частоте слов собачатника Боба.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Чтобы снизить стоимость нашей связи, я попросил Алису использовать ее собственный код. К моему облегчению, это снизило ее среднюю длину сообщения. Но это создавало новую проблему: иногда Боб случайно использовал код Алисы. Удивительно, но хуже когда Боб использует код Алисы, чем когда Алиса используют код Боба!

На следующей диаграмме каждый подграфик представляет одну из этих 4 возможностей. Иллюстрации визуализируют среднюю длину сообщения. Они организованы в квадрат, так что, если сообщения из одного и того же распределения, диаграммы находятся рядом, а если они используют одни и те же коды, они находятся друг над другом. Это позволяет вам визуально совместить распределения и коды вместе.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Видите почему Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия? Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиятакой большой, потому событие отмеченное синим цветом часто встречается при Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, но получает длинное кодовое слово, потому что оно очень редко при Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. С другой стороны, частые события при Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияменее распространены при Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, но разница менее резкая, поэтому Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиянемного меньше.

Перекрестная энтропия не является симметричной.

Так, почему вас должна волновать перекрестная энтропия? Перекрестная энтропия дает нам способ выразить, насколько различны два распределения вероятностей. Чем сильнее отличаются распределения Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, тем больше перекрестная энтропия Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияотносительно Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиябудет больше энтропии Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Аналогично, чем больше Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияотличается от Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, тем больше перекрестная энтропия Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияотносительно Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиябудет больше энтропии Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия.

По-настоящему интересной вещью является разница между энтропией и перекрестной энтропией. Эта разница равна тому насколько длиннее наши сообщения, потому что мы использовали код, оптимизированный для другого распределения. Если распределения одинаковы, то эта разница будет равна нулю. По мере того как отличия увеличиваются, она будет становиться больше.

Мы называем это различие дивергенцией Кульбака-Лейблера, или просто KL-дивергенцией. KL-дивергенция Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияотносительно Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияопределяется так:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Самое замечательное в KL-дивергенции то, что она похожа на расстояние между двумя распределениями. Он измеряет, насколько они разные! (Если вы примете эту идею всерьез, вы придете к информационной геометрии.)

Перекрестная энтропия и KL-дивергенция невероятно полезны в машинном обучении. Часто мы хотим, чтобы одно распределение было близко к другому. Например, мы можем хотеть, чтобы предсказанное распределение было близко к основной истине. KL-дивергенция дает нам естественный способ сделать это, и поэтому она проявляется всюду.

Энтропия и несколько переменных

Давайте вернемся к нашему примеру с погодой и одеждой, приведенному ранее:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Моя мама, как и многие родители, иногда беспокоится, что я не одеваюсь соответственно погоде. (У нее есть веские основания для подозрений – я бывает не ношу плащ зимой.) Поэтому она часто хочет знать и погоду, и во что я одет. Сколько битов я должен послать ей, чтобы сообщить об этом?

Самый простой способ подумать об этом — выровнять распределение вероятностей:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Теперь мы можем вычислить оптимальные кодовые слова для событий с такими вероятностями и вычислить среднюю длину сообщения:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Мы называем это совместной энтропией Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, определенной следующим образом:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Оно совпадает с нашим обычным определением, за исключением двух переменных вместо одной.

Немного лучший образ этого, без выравнивания распределения получается если представить длину кодового слова в третьем измерении. Теперь энтропия — это объем!

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Но предположим, что моя мама уже знает погоду. Она может посмотреть ее в новостях. Сколько тогда информации мне нужно предоставить?

Похоже, мне нужно отправить информации достаточно, чтобы сообщить какая одежда на мне надета. Но на самом деле мне нужно посылать меньше информации, потому что от погоды сильно зависит то, какую одежду я надену! Давайте рассмотрим случай с дождем и с солнцем отдельно.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

В обоих случаях мне не нужно посылать слишком много информации в среднем, потому что погода дает мне хорошее предположение о том, каким будет правильный ответ. Когда солнце, я могу использовать специальный оптимизированный для солнца код, а когда идет дождь, я могу использовать оптимизированный для дождя код. В обоих случаях я посылаю меньше информации, чем если бы я использовал общий код для обоих. Чтобы получить среднее количество информации, которое мне нужно отправить моей матери, я просто сложил эти два случая вместе…

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Мы называем это условной энтропией. Если вы формализуете его в уравнение, вы получаете:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Взаимная информация

В предыдущем разделе мы выяснили, что знание одной переменной может означать, что для сообщения значения другой переменной требуется передать меньше информации.

Хороший способ думать об этом — это представить себе количество информации в виде полос. Эти полосы перекрываются, если между ними есть общая информация. Например, некоторая часть информации в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияобщая, поэтому Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияявляются перекрывающимися полосами. И поскольку Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия— это информация обеих переменных, то это объединение полос Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Когда мы думаем о вещах таким образом, многое становится проще увидеть.

Например, мы уже отмечали, что для передачи информации как Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, так и Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия(“совместная энтропия”, Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия) требуется больше информации, чем для передачи только Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия(“предельная энтропия”, Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия). Но если вы уже знаете Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, то для передачи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия(“условная энтропия”, Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия) требуется меньше информации, чем если бы вы этого не знали!

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Это звучит сложновато, но если перевести на полосы то все оказывается очень просто. Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия— это информация, которую мы должны отправить, чтобы сообщить Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиятому, кто уже знает Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, информация в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, которая также не находится в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. Визуально это означает, что Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия— это часть полосы Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, которая не перекрывается с Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия.

Теперь вы можете прочитать неравенство Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияпрямо на следующей диаграмме.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Другое равенство следующее — Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. Т.е. информация в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияэто информация в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияплюс информация в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиякоторой нет в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Опять же, это трудно увидеть в уравнениях, но легко увидеть, если вы думаете в терминах перекрывающихся полос информации.

На этом этапе мы разбили информацию в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиянесколькими способами. Мы знаем информацию в каждой переменной, Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. Мы знаем объединение информации в обоих Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. У нас есть информация, которая находится в одной переменной, но отсутствует в другой, Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. Многое из этого, вращается вокруг информации, общей в переменных — пересечения их информации. Мы называем это «взаимной информацией», Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, определяемой как:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Это определение верно, поскольку Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиясодержит две копии взаимной информации, так как она находится и в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи в Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, в то время как Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиясодержит только одну копию. (см. предыдущую диаграмму)

С взаимной информацией тесно связана вариация информации. Вариация информации — это информация, которая не является общей для переменных. Мы можем определить ее так:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Вариация информации интересна тем, что она дает нам метрику, понятие расстояния между различными переменными. Вариация информации между двумя переменными равна нулю, если знание значения одной переменной говорит вам о значении другой и становится больше по мере того, как они становятся более независимыми.

Как это соотносится с KL-дивергенцией, которая также дает нам понятие расстояния? KL-дивергенция это расстояние между двумя распределениями над одной и той же переменной или набору переменных. Напротив, вариация информации дает нам расстояние между двумя совместно распределенными переменными. KL дивергенция — это расхождение между распределениями, вариация информации внутри распределения.

Мы можем свести все это вместе в единую диаграмму, связывающую все эти различные виды информации:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Дробные биты

Очень неинтуитивной вещью в теории информации является то, что мы можем иметь дробные количества битов. Это довольно странно. Что значит половина бита?

Вот простой ответ: часто нас интересует средняя длина сообщения, а не длина какого-либо конкретного сообщения. Если в половине случаев посылается один бит, а в половине случаев — два, то в среднем посылается полтора бита. Нет ничего странного в том, что средние величины могут быть дробными.

Но этим ответом мы уклоняемся от вопроса. Часто оптимальные длины кодовых слов тоже являются дробными. Что это значит?

Чтобы быть конкретным, давайте рассмотрим распределение вероятностей, где одно событие, Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, происходит 71% времени, а другое событие, Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, происходит 29% времени.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Оптимальный код будет использовать 0,5 бит для представления Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияи 1,7 бита для представления Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. Ну, если мы хотим отправить только одно из этих кодовых слов, такое представление невозможно. Мы вынуждены округлять до целого числа битов и отправлять в среднем 1 бит.

… Но если мы посылаем несколько сообщений одновременно, то оказывается можно сделать лучше. Давайте рассмотрим передачу двух событий из этого распределения. Если бы мы посылали их независимо, нам пришлось бы посылать два бита. Как нам это улучшить?

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

В половине случаев нам нужно посылать Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, в 21% случаев — Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропияили Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия, а в 8% случаев — Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия. Опять же, идеальный код включает дробные количества битов.

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Если мы округлим длины кодовых слов, мы получим что-то вроде этого:

Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия

Эти коды дают нам среднюю длину сообщения 1,8 бит. Это меньше, чем 2 бита, когда мы посылаем сообщения независимо. Т.е. в этом случае мы посылаем 0,9 бит в среднем для каждого события. Если бы мы послали больше событий сразу, среднее значение стало бы еще меньше. При Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиястремящемся к бесконечности, накладные расходы, связанные с округлением нашего кода, исчезнут, и число битов на кодовое слово сойдется к энтропии.

Далее, обратите внимание, что идеальная длина кодового слова для события Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропиясоставляла 0,5 бит, а идеальная длина для кодового слова Что такое кросс энтропия. Смотреть фото Что такое кросс энтропия. Смотреть картинку Что такое кросс энтропия. Картинка про Что такое кросс энтропия. Фото Что такое кросс энтропия— 1 бит. Идеальные длины кодовых слов складываются, даже если они дробные! Так что, если мы будем сообщать сразу несколько событий, длины будут складываться.

Как мы видим, существует реальный смысл, для дробные количеств битов информации, даже если фактические коды могут использовать только целые числа.

(На практике люди используют определенные схемы кодирования, которые эффективны в разных случаях. Код Хаффмана, который фактически является тем видом кода, который мы набросали здесь, не очень изящно обрабатывает дробные биты — вы должны группировать символы, как мы это делали выше, или использовать более сложные трюки, чтобы приблизиться к пределу энтропии. Арифметическое кодирование немного отличается, он элегантно обрабатывает дробные биты, чтобы быть асимптотически оптимальным.)

Заключение

Если нас волнует передача информации за минимальное количестве битов, то эти идеи, безусловно, фундаментальны. Если мы заботимся о сжатии данных, теория информации решает основные вопросы и дает нам фундаментально правильные абстракции. Но что, если нам все равно – разве это не экзотика?

Идеи из теории информации появляются во множестве контекстов: машинное обучение, квантовая физика, генетика, термодинамика и даже азартные игры. Практиков в этих областях теория информации заботит не потому, что они хотят сжать информацию. Их заботит то, что это имеет непреодолимую связь с их областью. Квантовую запутанность можно описать энтропией. Многие результаты в статистической механике и термодинамике можно получить, предположив максимальную энтропию о вещах, которых вы не знаете. Выигрыши и проигрыши игрока напрямую связаны с KL-дивергенцией в частности с итерационными сетапами (iterated setups).

Теория информации появляется во всех этих местах, потому что она предлагает конкретные, принципиальные формализации для многих вещей, которые мы должны выразить. Она дает нам способы измерения и выражения неопределенности, насколько различны два набора убеждений и что ответ на один вопрос говорит нам о других: насколько рассеяна вероятность, расстояние между распределениями вероятностей и насколько зависимы две переменные. Существуют ли альтернативные, подобные идеи? Конечно. Но идеи из теории информации чисты, они обладают действительно хорошими свойствами и основываются на принципах. В некоторых случаях эти идеи именно то, что вам нужно, а в других случаях они являются удобным посредником в хаотичном мире.

Машинное обучение — это то, что я знаю лучше всего, так что давайте поговорим об этом одну минуту. Очень распространенным видом задач в машинном обучении является классификация. Предположим, мы хотим посмотреть на картинку и предсказать, будет это изображение собаки или кошки. Наша модель может сказать что-то вроде: “есть 80% вероятности, что это изображение собаки, и 20% вероятности, что это кошка.» Допустим, правильный ответ — собака – насколько хорошо или плохо то, что мы сказали, что вероятность того что это собака 80%? Насколько лучше было бы сказать 85%?

Это важный вопрос, потому что нам нужно некоторое представление о том, насколько хороша или плоха наша модель, чтобы оптимизировать ее для достижения успеха. Что мы должны оптимизировать? Правильный ответ на самом деле зависит от того, для чего мы используем модель: заботимся ли мы только о том, была ли верна наша догадка, или нас волнует, насколько мы уверены в правильном ответе? Насколько это плохо — уверенно ошибаться? На это нет единственного правильного ответа. И часто невозможно узнать правильный ответ, потому что мы не знаем достаточно точно как будет использоваться модель, чтобы формализовать то, что нас в конечном счете волнует. Есть ситуации когда перекрестная энтропия — это именно то, что нас волнует, но это не всегда так. Гораздо чаще мы не знаем точно, что нас волнует, и перекрестная энтропия — действительно хороший прокси.

Информация дает нам сильную новую базу для размышления о мире. Иногда она идеально подходит для данной задачи; в других случаях не совсем, но все же чрезвычайно полезна. Это эссе только поскребло поверхность теории информации – есть основные темы, такие как коды исправления ошибок, которые мы вообще не касались, но я надеюсь, что я показал, что теория информации — это прекрасный предмет, который не должен быть пугающим.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *