[БЕЗ_ЗВУКА] В этом видео мы рассмотрим, как байесовские методы могут быть применены к машинному обучению, и рассмотрим, какие же преимущества есть у байесовских методов относительно обычных алгоритмов машинного обучения. Задачу машинного обучения можно интерпретировать как задачу восстановления зависимости между наблюдаемыми и скрытыми компонентами. При это зависимость восстанавливается по обучающей выборке, в которой предполагается, что мы знаем и наблюдаемые, и скрытые компоненты. Если мы оперируем в рамках вероятностного подхода или, более конкретно, в рамках байесовского подхода, в качестве модели зависимости между наблюдаемыми и скрытыми компонентами мы используем совместные вероятностные распределения над наблюдаемыми, скрытыми компонентами, и если мы говорим про байесовский подход, то еще и над параметрами, которые настраиваются в ходе процедуры обучения. Рассмотрим для примера задачу линейной регрессии. В линейной регрессии в качестве наблюдаемых параметров у нас выступают признаки объекта, в качестве скрытых параметров выступают значения целевой переменной, а в качестве параметров, которые настраиваются в ходе процедуры машинного обучения, выступают веса линейной регрессии. Тогда на байесовском языке такую модель линейной регрессии можно сформулировать в виде совместного вероятностного распределения на t и w при условии x. Строго говоря, если мы действуем с помощью байесовских методов, нам необходимо вводить совместное распределение на t, w и x. Но поскольку мы всегда предполагаем, что xi-тое у нас будет известно как в обучающей, так и в тестовой выборке, моделировать на них распределение излишне. Такие модели называются дискриминативными моделями. В противовес им рассматривают так называемые генеративные модели, в которых совместные распределения вводятся как на скрытые величины t и настраиваемые параметры w, так и на наблюдаемые параметры x. В рамках генеративных моделей помимо прочего возможно решать задачу по генерации новых объектов. В рамках же дискриминативных моделей, в которых мы не модулируем дополнительно распределение на x, класс задач, который мы можем решать, ограничивается задачами прогноза скрытой компоненты t при условии наблюдаемой компоненты x. Итак, рассмотрим следующую дискриминативную модель: совместное распределение на t и w при условии x по правилам произведения разложим на функции правдоподобия (то есть распределение на t при условии x, w) и априорное распределение на w. В качестве функции правдоподобия будем брать нормальное распределение на t с матожиданием в точке w транспонированной x (то есть в точке линейной комбинации), и некоторой заданной дисперсии сигма квадрат. А в качестве априорного распределения на w положим нормальное распределение с нулевым матожиданием и единичной ковариационной матрицей. Предположим, что нам задана обучающая выборка, состоящая из n объектов, с известной наблюдаемой и скрытой компонентой xi-той, где i меняются от 1 до n, и попробуем найти максимум апостериорного распределения. Выполнив байесовский вывод, легко показать, что максимум апостериорного распределения будет совпадать с максимумом по w числителя в формуле Байеса, потому что знаменатель формулы Байеса не зависит от w. Числитель формулы Байеса в свою очередь представляет из себя произведение функции правдоподобия обучающей выборки на априорное распределение. Перейдя к логарифму, это же можно записать в виде суммы логарифмов отдельных правдоподобий, то есть логарифмов правдоподобий каждого объекта плюс логарифм априорного распределения на w, и подставив туда конкретные значения для наших плотностей из вероятностной модели, мы получим, что это просто сумма квадратов отклонений ti от xi транспонированное на w плюс сигма квадрат на квадрат нормы w. Фактически мы получили хорошо известный метод наименьших квадратов с L2-регуляризатором. Таким образом, известный метод наименьших квадратов с L2-регуляризатором может быть переформулирован на языке байесовских моделей и соответствует достаточно простой вероятностной модели, в которую мы просто ввели гауссовское априорное распределение с нулевым матожиданием на веса линейной регрессии. Какие же преимущества дает использование байесовских моделей в машинном обучении? Первое преимущество мы уже рассмотрели с вами на предыдущем видео, когда говорили о возможности построения сложных вероятностных моделей из более простых, как мы строим стену из кирпичиков. Это становится возможным благодаря тому, что результат байесовского вывода в одной модели (то есть апостериорное распределение) можно использовать в качестве априорного распределения в следующей вероятностной модели. Тем самым происходит зацепление разных вероятностных моделей. Еще одним преимуществом байесовских методов является возможность обработки массива данных, которые поступают последовательно. В самом деле, используя апостериорное распределение в качестве априорного при поступлении новой порции данных, можем легко произвести обновление апостериорного распределения без необходимости повторного обучения модели с нуля. Если бы мы использовали точечные оценки на настраиваемом параметре, это сделать было бы невозможно, нам пришлось бы заново обучать модель. Еще одним преимуществом байесовских методов является возможность использования априорного распределения, которое предотвращает излишнюю настройку неизвестных параметров под обучающую выборку. Это в свою очередь позволяет избежать эффекта переобучения, который часто свойственен даже задачам, в которых присутствует гигантский объем обучающих выборок, ну в ситуации, когда и количество настраиваемых параметров у нас тоже достаточно велико. Благодаря использованию априорных распределений мы можем регуляризовывать нашу модель машинного обучения и предотвращать эффект переобучения. Наконец, одним из ключевых достоинств байесовских методов является возможность работы с не полностью размеченными, частично размеченными, а то и вовсе не размеченными обучающими выборками. То есть в ситуациях, когда в обучающих выборках нам известна наблюдаемая компонента, а скрытая компонента известна не для всех объектов, либо для многих объектов известно не точное значение скрытой компоненты, а лишь некоторое допустимое подмножество скрытых компонент. Такие выборки называются частично размеченными. Оказывается, что байесовский формализм, байесовское моделирование позволяет абсолютно корректно работать с такими моделями и извлекать из них максимум имеющейся информации о неизвестных значениях параметров. В этом видео мы с вами рассмотрели пример применения байесовской модели к известному методу машинного обучения, а именно к линейной регрессии, а также поговорили о том, какими преимуществами обладают байесовские методы относительно классических подходов к машинному обучению.