[МУЗЫКА] [МУЗЫКА] Вокруг нас все время происходят события, исход которых не можем предсказать заранее. Вы слушаете музыку, нажимаете кнопку Shuffle, и в плеере раздается случайный трек. Вы ждете автобуса на остановке, и время, через которое придет автобус — это тоже случайная величина. Какой автобус придет: большой, маленький, сколько в его баке бензина, сколько в нем пассажиров — это тоже все случайные величины. И вероятность разных исходов таких случайных событий мы не можем предсказать заранее абсолютно точно, но зато мы можем описать ее при помощи распределения вероятности. То, что мы в быту привыкли называть распределениями — это на самом деле функции плотности или массы вероятности. Плотность вероятности — это такая функция, которая описывает вероятность того, что мы получим различные значения непрерывной случайной величины, а для дискретных такая функция будет называться «масса вероятности». В этом модуле нам предстоит познакомиться с важнейшими распределениями из семейства экспоненциальных распределений. Они все выглядят немного по-разному, но на самом деле у них внутри есть много общего. Мы с вами не будем до таких глубин докапываться, посмотрим на очень разные формулы, но тем не менее. Есть свои распределения из экспоненциального семейства, которые подходят для непрерывных величин — это хорошо вам знакомое нормальное распределение и гамма-распределение, с которым вы, наверное, еще не знакомы. И есть небольшой спектр распределений, которые подходят для моделирований дискретных величин — это биномиальное распределение, распределение Пуассона и отрицательное биномиальное распределение. У всех этих распределений есть некоторые свойства, которые нам особенно важны в контексте обобщенных линейных моделей. Если величина y подчиняется какому-то распределению, то мы говорим, что у нее есть какое-то ожидаемое значение, оно же — «математическое ожидание», по-английски это называется expected value, поэтому это название сокращается при помощи заглавной латинской буквы E. У случайных величин есть дисперсия. Дисперсия — это такая характеристика, которая описывает разброс этих случайных величин, не положение центральной тенденции, как математическое ожидание, а именно насколько изменчива вообще случайная величина. И дисперсия обычно задается функцией дисперсии определенной, которая определяет, каким образом разброс значения связан с его математическим ожиданием. У одних случайных величин есть такая связь, у других такой связи может не быть. И, наконец, очень важная в контексте моделирования вещь — это диапазон возможных значений переменной, которая подчиняется определенному распределению. Потому что, например, если вы моделируете переменную счетную, то счет не может быть отрицательным, если вы моделируете какой-то размер абсолютный, то он тоже не может быть отрицательным, а температура, например, она вполне запросто может быть отрицательной и не целой, в отличие от счета — это очень важно, чтобы модели, которые вы строите, они предсказывали величины в осмысленном диапазоне, который вы можете реалистично интерпретировать. Самое хорошо знакомое вам распределение, наверное, это нормальное распределение, потому что с ним вы сталкиваетесь фактически в первый раз, когда начинаете тестировать какие-то гипотезы. Большая часть тестирования гипотез, она как раз построена на том, что если мы по выборке оцениваем какой-то параметр и делаем так много-много раз, то выборочное распределение значения этого параметра во множестве выборок, оно будет приблизительно нормальным распределением. И, собственно, на этой идее построена большая часть тестирований гипотез, об этом мы с вами говорили в первом курсе нашей специализации. Если вам это нужно, то можете освежить свои знания, обратившись к этому курсу. Вы, наверное, помните, что формула у нормального распределения большая и страшная, в ней много букв содержится, но нам из них важны две, важны две величины, которые будут описывать форму этого распределения, его параметры. Один параметр — это μ, среднее значение. Он показывает положение центральной тенденции в распределении, и он показывает центр симметрии нормального распределения, потому что нормальное распределение симметрично относительно среднего значения. Второй параметр — это стандартное отклонение. Стандартное отклонение будет определять разброс значений распределения, и, соответственно, если стандартное отклонение большое, то и разброс значений будет большим. У нормального распределения математическое ожидание нормально распределенной величины, оно будет как раз равно среднему значению, равно параметру μ. А дисперсия нормально распределенной величины, она будет равна квадрату стандартного отклонения, квадрату σ. И вы видите, что среднее и дисперсия, они меняются независимо друг от друга, и это есть особенность нормального распределения, то есть мы можем менять только разброс, и среднее не будет меняться при этом, как вот здесь вот, или мы можем менять только среднее значение, оставляя постоянным разброс. Такая роскошь у нас есть совсем не всегда и не для всех величин. Нормально распределенная величина может принимать значения от минус бесконечности до плюс бесконечности, и это какие-то непрерывные значения, так что, соответственно, при помощи нормального распределения можно моделировать что-нибудь мерное, даже если оно принимает отрицательные значения, например, какую-нибудь температуру. Иногда мерные положительные величины тоже могут подчиняться нормальному распределению, но так происходит не всегда. Гамма-распределение — это еще более сложная вещь. Оно отличается от нормального тем, что оно может быть несимметрично, и, как правило, оно несимметрично. У него тоже есть два параметра. Один параметр — это μ, уже знакомое нам среднее значение. И параметр ν, который определяет степень избыточности дисперсии. Что такое избыточность дисперсии? У гамма-распределения среднее, математическое ожидание, оно будет связано с дисперсией. Вы видите, что дисперсия гамма-распределения, она зависит от параметра μ. Это значит, что мы не можем, у нас больше нет возможности менять только среднее значение. Меняя среднее значение, мы обязательно влияем на характеристику разброса. И в некоторых случаях в этом есть большой смысл. Собственно, есть еще одно важное свойство — это диапазон значений. Вы видите, что величина, которая подчиняется гамма-распределению, она не может принимать отрицательных значений, она даже не может быть равна нулю. И это очень важно иногда для моделирования. Если, например, вы моделируете какие-то физические размеры, размеры физического объекта, то эти размеры не могут быть отрицательными, правда же? Если мы говорим о размерах живых существ, то все еще сложнее. Живые существа, они не могут быть нулевого размера. То есть гамма-распределение в этом смысле нам больше подходит, чем нормальное распределение. И вот это свойство, связь дисперсии и среднего, оно тоже нам очень пригождается, когда мы моделируем размеры живых существ. Потому что смотрите, все рождаются примерно одинакового размера, и разброс значений у родившихся, юных живых существ, он, как правило, потому что он задается внешними какими-то ограничениями: размером яйца, размером утробы матери, то есть там разброс не может быть большим. Но зато в течение жизни все живые существа растут, и они живут в разных условиях, поэтому одни растут быстрее и вырастают крупнее, другие растут не так быстро и вырастают не такими крупными. И, соответственно, разброс у уже выросших живых существ, он будет, разброс размеров, гораздо больше, чем в начале жизни. И получается, что это свойство в реальном мире, оно связано, средний размер связан с разбросом, с возможным разбросом значений размера. То есть такие вещи очень удобно моделировать при помощи гамма-распределения. Но не все на свете величины непрерывны, бывают и дискретные величины, и их тоже нужно каким-то образом моделировать. Собственно, предельный случай, когда у дискретной величины есть всего два возможных значения, как будто вы подбрасываете монетку: может выпасть либо орел, либо решка. Монетка — это такой слишком расхожий пример, но на самом деле таких величин вокруг нас довольно много, то есть мы можем попытаться спрогнозировать, совершил покупатель покупку в магазине, заплатил он картой или заплатил наличными — это все будут бинарные величины, их тоже нужно каким-то образом моделировать. Если мы не один раз проводим испытание и пытаемся выяснить исход какого-то события, а проводим много испытаний, например, подбрасываем десять монеток, то такая величина будет подчиняться биномиальному распределению. У него два параметра. Параметр Параметр n — это число объектов испытаний. И параметр π определяет как раз вероятность наступления события. У биномиального распределения среднее значение связано с дисперсией. Среднее — это произведение вероятности исхода на число испытаний, а дисперсия будет зависеть от этой вероятности исхода. Она будет равна произведению положительных и отрицательных исходов на число таких исходов. Соответственно, у биномиального распределения диапазон значений вовсе не такой, как кажется с первого взгляда. Раз это бинарная величина, казалась бы, два возможных значения, но нет, у нас испытаний много, соответственно, количество событий из определенного количества испытаний — это величина положительная, и могут быть еще нулевые значения. Например, вы подбрасывали монетку десять раз, и ни разу не выпал орел. Такое тоже вполне возможно. Распределение Пуассона позволяет нам.. На первый взгляд, оно похоже на биномиальное, потому что мы здесь тоже будем считать исходы в каком-то количестве испытаний, но здесь немного другая ситуация. Здесь мы говорим о таких событиях, которые происходят с постоянной частотой. Например, представьте себе перекресток в городе. Через этот перекресток проезжает какое-то количество машин, днем, в течение часа. И эта случайная величина, скорее всего, подчиняется распределению Пуассона. У распределения Пуассона есть один единственный параметр — параметр μ, который определяет одновременно и математическое ожидание и дисперсию такой величины. Что это значит? Они жестко связаны. Если мы говорим о перекрестке в городе, через который проезжают машины, то там за единицу времени проезжает большое количество машин. Но и разброс значений, разброс количества машин, проезжающих через перекресток в городе, он тоже будет большим. Иногда может проехать мало машин, иногда может проехать много машин. Дисперсия будет большой. Если мы представим аналогичный перекресток в какой-нибудь сельской местности, то, естественно, за единицу времени там будет приезжать гораздо меньше машин. И, в целом, очень большое количество машин мы сможем там встретить очень-очень редко. То есть дисперсия на самом деле будет маленькой, маленькое ожидаемое значение и маленькая дисперсия. Так очень часто бывает со счетными величинами. Естественно, счетные величины меняются в каком-то узком диапазоне: от нуля до плюс бесконечности. Нулевые значения возможны. Распределение Пуассона умеет их предсказывать с какой-то частотой, но при больших средних значениях вероятность получить нулевые значения очень сильно уменьшается. Такую ситуацию, когда через перекресток в городе (это как раз ситуация с большим средним значением) проезжает очень мало машин или не проезжает ни одна машина, вообще, эта ситуация довольно редкая, и ее вероятность будет очень низкой. Отрицательное биномиальное распределение — это генерализация распределения Пуассона. В этом распределении два параметра: по-прежнему μ — это среднее значение, или математическое ожидание — это тоже μ. И второй параметр k — он определяет степень избыточности дисперсии, потому что дисперсия у отрицательной биномиальной распределенной величины будет жестко связана со средним значением, но не так, как в распределении Пуассона. В распределении Пуассона они просто равны, а здесь появится дополнительное поправочное слагаемое. В зависимости от значения этого поправочного слагаемого дисперсия может расти вслед за средним быстрее, чем это позволяет распределение Пуассона. Но при определенных значениях k распределение отрицательное биномиальное превращается в распределение Пуассона, когда это поправочное слагаемое исчезает. Как и подобает счетной величине, величина, которая подчиняется отрицательному биномиальному распределению, может принимать значения от нуля до плюс бесконечности. И это какие-то целые числа. Как бы нам представить такую величину, которая подчиняется отрицательному биномиальному распределению? Например, если мы будем считать людей, которые входят в какую-то единицу времени, например, в течение десяти минут в университет, то это определенно счетная величина. И чаще всего в университет входит не очень большое количество народу (это чаще всего ситуация), но время от времени бывают такие случаи, когда в университете проводят какие-то мероприятия, например, конференция, и гигантские толпы народу входят за те же самые десять минут. Такое бывает довольно постоянно, довольно часто. Собственно, распределение Пуассона уже не справится с описанием такой зависимости, потому что оно не сможет предусмотреть вот этот длинный хвост больших, но редких значений, которые мы в данном случае наблюдаем.