[БЕЗ_ЗВУКА] Здравствуйте! Меня зовут Дмитрий Ветров, я являюсь главой исследовательской группы байесовских методов, и сегодня мы предсказуемо поговорим о теореме Баейса. Но сначала вспомним некоторые ключевые понятия из теории вероятности. Итак, если у нас есть две случайные величины x и y, которые между собой взаимозависимы, то можно ввести условное распределение или условную плотность распределения (если мы говорим о непрерывных величинах). Например, условная плотность распределения на y при условии x по определению равна отношению совместной плотности распределения x и y к безусловной или к маргинальной плотности p(x). Совместное распределение всегда можно таким образом представить в виде произведения условного распределения y при условии x на безусловное p(x). И из соображений симметрии то же самое можно сделать в виде произведения p(x) при условии y на p(y). Отсюда мы получаем так называемую формулу обращения условной вероятности, то есть можем выразить условное распределение на x при условии y в виде произведения p от y при условии x на p(x) делить на p(y). Теперь если мы возьмем от обоих частей интеграл по dx, в левой части мы получим 1, поскольку это интеграл от плотности распределения относительно x, а в правой части можно вынести знаменатель за знак интеграла. Теперь если мы перенесем его в левую часть, мы получим так называемую формулу полной вероятности. p(y) = интеграл от условной плотности p от y при условии x на p(x). Или, перефразируя это, можно сказать, что безусловная или маргинальная плотность распределения на y — есть результат матожидания по всевозможным иксам от условных плотностей p от y при условии x. Такое свойство часто называют правило суммирования вероятности. По сути, мы получили способ считать безусловное распределение от условных распределений. Если мы применим правило суммирования вероятности и правило произведения вероятности, мы получим знаменитую теорему Байеса. Условное распределение на y при условии x равно произведению p от x при условии y на p(y) разделить на нормализованную константу, которой является интеграл от числителя, то есть p от x при условии y на p(y)dy. В концептуальной форме теорема Баейса позволяет нам переходить от априорных распределений на неизвестную величину (в данном случае на y) к так называемым апостериорным распределениями на y при условии x. То есть если мы пронаблюдали какую-то косвенную характеристику, которая как-то связана с интересующей нас случайной величиной — с y, мы имеем возможность учесть эту информацию и уточнить наши представления о неизвестной величине y. Для того чтобы понять геометрический смысл условного и безусловного распределения, рассмотрим простой пример. Рассмотрим двухмерную случайную величину x y, в которой компоненты взаимозависимы. Такую случайную величину, точнее линию уровня ее плотности, можно отобразить на таком двухмерном графике. Безусловным распределением p(x) будет являться просто проекция этого двухмерного графика на ось x. Очевидно, математическое ожидание p(x) будет совпадать с матожиданием x в совместном вероятностном распределении. Если теперь мы пронаблюдали значение y (y = y0), мы можем посчитать условное распределение на x при условии y0. Этому распределению будет отвечать сечение нашего двухмерного графика гиперплоскостью y = y0. Обратите внимание, что у условного распределения, во-первых, изменилось матожидание, оно теперь не нулевое, во-вторых, уменьшилась дисперсия. Ну и, наконец, давайте вспомним ключевой метод статистического оценивания из классической статистики, известный как метод максимального правдоподобия. Стандартная задача матстатистики, как известно, — оценить значение неизвестных параметров распределения по заданной выборке из этого распределения. Итак, пусть нам задана выборка X из n объектов (x1, ..., xn), каждый из которых независимо одинаково распределены и сгенерированы из одного и того же распределения p от x при условии θ, то есть распределения, которое нам известно с точностью до параметров θ. Нашей задачей является восстановить эти неизвестные значения параметров θ. Метод максимального правдоподобия достаточно прост и заключается в следующем: мы составляем функцию правдоподобия нашей выборки, то есть произведение плотностей p от xi при условии θ по всем i от 1 до n. xi-тые нам известны, и теперь мы рассматриваем эту функцию как функцию от θ. Если мы найдем максимум этой функции, то аргмаксимум и будет являться так называемой оценкой максимального правдоподобия. На практике, как правило, максимизируют все-таки не сами функции правдоподобия, а их логарифмы, потому что в этом случае наше произведение по объектам выборки переходит в сумму логарифмов p(xi) при условии θ. В математической статистике для метода максимального правдоподобия получен ряд интересных теоретических результатов. В частности известно, что оценки максимального правдоподобия, которые вообще-то являются функциями от случайной величины от нашей выборки, а значит сами являются случайной величиной. Так вот, оценка максимального правдоподобия является асимптотически несмещенной, то есть матожидание оценки максимального правдоподобия при достаточно больших объемах выборки совпадает с истинным значением параметра θ. Кроме того, при n, стремящимся к бесконечности, оценка максимального правдоподобия сходится к истинному значению θ — это свойство состоятельности. Наконец, оценка максимально правдоподобия среди прочих несмещенных оценок обладает наименьшей возможной дисперсией — это свойство эффективности. Также известно, что оценки максимального правдоподобия асимптотически нормальны при больших n, имеют нормальное распределение с матожиданием, равным истинному значению параметра и ковариационной матрицей, связанной с матрицей информации Фишера. Тем не менее у оценок максимального правдоподобия есть один весьма существенный недостаток: большинство теоретических результатов, которые гарантируют корректность и даже оптимальность оценивания по методу максимального правдоподобия, получены при объемах выборки, либо стремящихся к бесконечности, либо достаточно больших. В то же время на практике часто приходится работать с выборками ограниченными. Под объемом выборки в данном случае я имею в виду не просто количество объектов, которые мы пронаблюдали из заданного распределения, а отношение числа объектов к количеству оцениваемых параметров θ. То есть если θ, допустим, это d-мерный вектор, то под эффективным объемом выборки я понимают отношение n к d. Так вот если это отношение немного больше 1, оказывается, что многие результаты из метода максимального правдоподобия перестают быть корректным. В этом видео мы кратко вспомнили основные понятия математической статистики: что такое условное и безусловное распределение; какой у нее геометрический смысл; что такое теорема Баейса; а также поговорили о методе максимального правдоподобия, какие у него есть достоинства и недостатки. В следующем видео мы поговорим об альтернативном подходе к теории вероятности — так называемом баейсовском подходе, и о том, какие альтернативы для статистического оценивания существуют относительно метода максимального правдоподобия.