[ЗАСТАВКА] В этом видео мы немного по-другому посмотрим на байесовскую классификацию, а также обобщим всё на случай регрессии. Итак, байесовский классификатор выбирает класс таким образом, чтобы было максимальным произведение априорной вероятности класса на вероятность x при условии класса. Можно попробовать применить ту же самую формулу для случая регрессии. Но понятно, что затея не очень хороша, ну хотя бы потому, что вряд ли у нас получится восстановить распределение P(x|y). Действительно, y теперь вещественный и принимает очень много возможных значений. Если сделать шаг назад и попытаться максимизировать P(y|x), то это выглядит тоже странно, так как в этом случае мы просто смотрим на плотность y при условии x и пытаемся выбрать такой y, в котором у функции плотности максимум. Не очевидно, что это будет самым хорошим решением задачи регрессии. Кроме того, нам может захотеться по-разному штрафовать наш алгоритм за разные ошибки. Ну например, представьте, что вы решаете задачу классификации, пытаясь предсказать места, где будет найдено месторождение нефти. То есть у вас есть два класса: «есть нефть» и «нет нефти». И понятно, что в случае, когда нефти нет, спрогнозировать, что она есть — это более критичная ошибка, потому что бурение скважины очень дорого стоит и занимает довольно много времени. В случае регрессии штрафы возникают еще более естественно, потому что в этой задаче мы вообще редко угадываем правильный ответ. Наша задача — не угадать его, а минимально отклониться от него. Ну например, для этого часто используются квадратичные потери или сумма модулей отклонения от правильных ответов. Становится понятно, что нам нужен какой-то более общий подход. Пусть для объекта x мы делаем прогноз a(x). Неважно, у нас задача классификации или регрессии — будем рассматривать общий случай. Если правильный ответ на этом объекте y, обозначим величину ошибки алгоритма L(y, a(x)). Функцию можно задавать по-разному, в зависимости от задачи классификации или регрессии и в зависимости от ваших пожеланий по свойствам алгоритма. Например, в самом простом случае в задаче классификации можно использовать L(y, a(x)) просто равную индикатору того, что y не совпадает с a(x). Это всё приведет нас к уже знакомому нам классификатору, но это мы обсудим позднее. Для регрессии можно использовать функцию (y − a(x))². Рассмотрим так называемый функционал риска. Это просто матожидание наших потерь при условии известного x и в ситуации, когда алгоритм отвечает a(x). Можно просто строить ответы алгоритма таким образом, чтобы минимизировать ожидаемые потери. Распишем это для случая классификации. Матожидание расписывается в сумму возможных значений потерь с некоторыми весами. В качестве весов выступают вероятности P(y|x). Отсюда мы получаем явное выражение для классификатора через функцию потерь и вероятности. Такой классификатор называется оптимальным байесовским классификатором, потому что он минимизирует ожидаемые потери. Реальный классификатор, конечно, не будет оптимальным из-за того, что мы используем не настоящие вероятности и плотности, а наши оценки. Для задачи регрессии всё выглядит абсолютно так же с точностью до замены суммы на интеграл. Но обычно это всё используется скорее не для того, чтобы правда решать задачу регрессии, а для того чтобы проанализировать разные функции потерь, о чем мы еще поговорим позднее. Теперь попробуем посмотреть на то, насколько хорошо работает алгоритм не на конкретном x с конкретным ответом a(x), а в среднем. Ну то есть рассмотрим функционал, называемый функционалом среднего риска, который равен матожиданию функционала риска по всем x. Для определенности дальше будем рассматривать случай классификации и дискретных признаков. Остальные варианты (ну то есть вариант с непрерывными признаками или вариант с регрессией) будут абсолютно аналогичны с точностью до замены некоторых сумм на интегралы. В этой ситуации функционал среднего риска просто представляется взвешенной суммой возможных значений функционала риска, где в качестве весов выступают вероятности P(x). Нетрудно заметить, что эта сумма легко оценивается снизу, если вместо значений R(a(x), x) подставить минимальное возможное значение на данном x. И вот какое замечательное совпадение: оптимальный байесовский классификатор как раз минимизирует функционал риска. Это означает, что данная нижняя оценка достигается, и достигается она тогда, когда классификатор оптимальный байесовский. Таким образом, оптимальный байесовский классификатор минимизирует не только функционал риска, но и функционал среднего риска. Подведем итог: мы обсудили с вами проблемы обобщения байесовской классификации на случай регрессии и проблемы учета различных штрафов за различные ошибки. Также мы рассмотрели функционал риска и придумали байесовский классификатор в более общем виде с учетом штрафов. Кроме того, мы обобщили всё на случай регрессии и рассмотрели средний риск, характеризующий не поведение классификатора в каком-то конкретном x, а поведение в среднем, и выяснили, что оптимальный байесовский классификатор минимизирует и функционал среднего риска. Всё это дает нам более общий взгляд на задачи обучения на размеченных данных, которые мы научимся использовать в следующем видео.