[ЗАСТАВКА] Итак, уже в прошлом видео было анонсировано, что с помощью нового, более общего взгляда на байесовскую классификацию мы сможем понять еще много интересных вещей, вот и настал момент для этого. Но для начала давайте убедимся, что оптимальный байесовский классификатор в том виде, в котором мы его теперь записываем, при каких-то условиях переходит в байесовский классификатор, с которым мы были знакомы ранее. Это очень просто. Давайте просто рассмотрим ситуацию, когда потери представляют собой просто индикатор того, что ответ алгоритма не совпал с правильным, подставим это все в выражение для байесовского классификатора, получим взвешенную сумму возможных значений потерь с весами p(y) при условии x, но так как потери у нас – это просто индикатор, то мы получаем сумму всех вероятностей для всех y, кроме y = s. Эту сумму можно представить как сумму по всем y, из которой вычли p(s) при условии x. Понятно, что на всю сумму мы никак не влияем, выбирая s, а вот на вычитаемую величину влияем. И, конечно, чтобы все минимизировать, вычитаемая величина должна быть побольше, то есть ее нужно максимизировать. Это означает, что классификатор должен быть просто максимумом p(y) при условии x, ну, или от максимум p(y)*p(x) при условии y, если воспользоваться теоремой Байеса. Вот мы и получили то, что видели ранее. Оказывается, что все это можно использовать еще и для анализа разных функций потерь в задаче регрессии. Давайте, например, посмотрим на квадратичную функцию потерь. Теперь у нас будет не сумма по y, а интеграл, так как у нас задача регрессии, и y принимает вещественные значения, и всю эту величину нам нужно как-то минимизировать. Давайте просто запишем производную этой величины по ответу алгоритма и приравняем ее к нулю. Если расписать производную, то постепенно видно, что все выражение распадается на две части. В первой части у нас возникает интеграл от плотности p(y) при условии x под dy, этот интеграл, конечно, равен 1, это же плотность, и, таким образом, приравняв это все к нулю, мы получаем вывод, что прогноз алгоритма должен равняться интегралу от y*p(y) при условии x, то есть условному математическому ожиданию, математическому ожиданию y при условии x. Вот какой интересный смысл, оказывается, сокрыт в квадратичной функции потерь, она оценивает матожидание. Теперь рассмотрим абсолютное отклонение. Все получается абсолютно также, как было для квадратичной функции потерь, единственный нюанс заключается в том, что модуль у нас в нуле не дифференцирован, но эту точку легко вытянуть, потому что одна точка не повлияет на значение интеграла. В других же точках производная модуля будет равна либо 1, либо −1. Это можно записать с помощью функции сигнум. И теперь снова все распадается на две части, которые, как мы видим, совпадают с вероятностью того, что t больше y, и с вероятностью того, что t меньше y, конечно, при условии известного x. Это означает, что эти вероятности должны быть равны друг другу. Кроме того, так как мы предполагаем, что распределение у нас непрерывное, вероятность того, что t = y, равна 0. В таком случае мы получаем, что вероятность того, что t больше либо равно y, и вероятность того, что t меньше y, обе равны 1/2. Это означает, что в этом случае у нас оценивается 1/2 квантиль. Теперь рассмотрим задачу классификации, в которой мы хотим, чтобы ответ алгоритма выдавал какую-то хорошую, правдоподобную вероятность принадлежности объекта к классу 1. Будем считать, что у нас классы 0 и 1. Оказывается, если рассмотреть показанную на слайде функцию потерь, которая называется Log loss, можно получить нужный нам результат. Для этого опять запишем все так же, как и в предыдущие разы. Давайте обозначим вероятность того, что класс 1 при условии x – p, тогда, приведя подобные, получим следующее выражение, и его нам нужно минимизировать. Опять берем производную по ответу алгоритма, приравниваем эту производную к 0 и получаем нужный нам результат. Видим, что ответ алгоритма должен равняться вероятности p. Остается единственный вопрос: почему же все эти рассуждения про функции потерь будут работать на практике, ведь мы их проводим для байесовской регрессии, для байесовской классификации, а на деле мы можем использовать какой-нибудь другой классификатор или решать задачу регрессией как-нибудь по-другому? Но дело в том, что в байесовской классификации минимизируется функционал среднего риска. Оказывается, что ошибка на обучающей выборке – это просто некоторая эмпирическая оценка для среднего риска. Подведем итог. Мы выяснили, что принцип минимизации функционала среднего риска не только позволяет в более общем виде взглянуть на байесовскую классификацию и байесовскую регрессию, но и позволяет сделать некоторые интересные выводы о задачах обучения на размеченных данных. В частности, с помощью идей, связанных с функционалом среднего риска, можно проводить анализ функций потерь. Например, мы рассмотрели с вами квадратичную функцию потерь и выяснили, что она приводит к оценке матожидания; рассмотрели абсолютные отклонения и выяснили, что они приводят к оценке 1/2 квантиля. Кстати, подумайте, какая функция потерь приведет к оценке α-квантиля. Выяснили, что Log loss приводит к оценке вероятностей, и, кроме того, с помощью той же самой методики можно иногда обнаружить, что функция потерь неудачна. Например, если у вас классы 0 и 1, и вы хотите оценивать вероятности, и вы для этого решите использовать абсолютное отклонение, надеюсь, что будут получаться какие-то числа между 0 и 1, которые можно будет проинтерпретировать как уверенности. Выписав все то, что мы делали для квадратичной функции потерь абсолютных отклонений Log loss'a, вы увидите, что при таком подходе будут получаться ответы только 0 и 1. И действительно, таким образом можно неплохо анализировать поведение различных функций потерь.