Теперь настала пора проверить выполняются ли условия применимости для обобщенной линейной модели с Пуассоновским распределением отклика и как и всегда эти условия применимости вытекают из тех допущений, которые мы делали когда строили модель и часть этих допущений связана с тем, как мы тестируем гипотезу. Итак, во-первых - нам очень важно, чтобы данные, отдельные наблюдения были случайные и независимые друг от друга. Это самые базовые условия, которые нам обеспечивают возможность тестирования гипотез. Нам важно, чтобы все предикторы были независимы друг от друга, чтобы мы могли оценить их стандартные ошибки. Нам важно, чтобы связь отклика и предикторов была линейна, но здесь мы делаем оговорку - она линейна в том виде, как это обеспечивается функцией связи. И нам важно, чтобы выполнялись те условия, которые связаны с нашим предположением о том, как распределен отклик, то есть в данном случае для счетных распределений нам очень важно, чтобы не было сверхдисперсии, потому что в счетных распределениях зашито вполне определенного вида связь среднего и дисперсии. Нам нужно проверить действительно ли она так выглядит для наших данных. Самый важный график - это график остатков. Давайте на него посмотрим. Он здесь будет выглядеть странно, потому что вы видите во-первых, что большая часть наблюдений она сгруппирована вот в этой части, то есть с маленькими предсказанными значениями и совсем немного наблюдений в этой части с большими предсказанными назначениями - это совсем не то, что у нас обычно было для линейных моделей с нормальным распределением отклика. Вторая вещь, которая вам сразу бросится в глаза - что кажется, что на этом графике есть какие-то полосочки. Мы говорили с вами о том, что не должно быть никаких паттернов в остатках, остатки должны быть случайные. Если мы видим паттерн, то это говорит о том, что условие независимости остатков нарушено, скорее всего. Почему же здесь возникли полосочки? Это на самом деле довольно просто объясняется, потому что сейчас мы моделируем счетную величину и у этой счетной величиной есть дискретное значение. Так что первая полосочка - это нули, вторая полосочка - это единица, наверное, вот эта вот полосочка единица, потом двойки, тройки и так далее. Если бы у нас было больше наблюдений, то вы бы увидели прямо вот такие выраженные полосы этих точек. Сейчас у нас наблюдений не очень много, поэтому это еще пунктиром эти полосы нарисованы. То есть, график остатков выглядит совершенно не так, как мы привыкли и нам на нем нужно искать уже совершенно не то, что раньше мы искали в моделях с нормальным распределением отклика. То есть, мы больше не пытаемся здесь увидеть широкую ровную полосу, потому что это не релевантно для Пуассоновского распределения. Все, что мы можем здесь проверить, если вы самостоятельно попробуете наложить на этот график какую-то сглаживающую функцию типа "лаэс", например, добавить "геом смус" метод "лаэс", то вы увидите, что какая-то такая вот загогулина немного загибающаяся к концу - это вам поможет понять, есть ли нелинейная зависимость, то есть, собственно, это все, что можно увидеть на этом графике. В данном случае нелинейной зависимости и следов нету, то есть "лаэс" конечно будет изгибаться, но не очень сильно. Самое важное условие применимости для Пуассоновский GLM - это отсутствие избыточности дисперсий. Если данные подчиняются распределению Пуассона, то дисперсия должна быть равна среднему значению, как это следует из определения распределения Пуассона. Если это будет не так, то мы не сможем доверять результатам, особенно мы не сможем доверять результатам тестов и это значит, что нашу Пуассоновскую модель нужно будет каким-то образом изменить. Как же нам проверить на сверх дисперсию наши данные? Для проверки на наличие сферхдисперсии мы будем использовать функцию которую предложил Бен Болкер - это известный в мире разработчик, который участвует в разработке пакетов для линейных моделей всех мастей. Собственно, вы можете найти эту функцию и много всякого интересного вот по этому адресу - это такой список часто создаваемых вопросов про линейные модели, в основном там про смешанные линейные модели, о которых речь в следующем курсе, но в любом случае это очень полезный ресурс. Итак, что будет делать эта функция на самом деле? Она должна будет посчитать число степеней свободы для суммы квадратов Персоновских остатков и эта величина - это число наблюдений минус число параметров для вашей модели. Потом эта функция извлечет Персоновские остатки, посчитает их сумму квадратов, которая как вы помните это Персоновская Хи-квадрат статистика, которая подчиняется Хи-квадрат распределению и ее мы как раз можем использовать для того, чтобы понять насколько дисперсия больше среднего по сравнению с тем, что ожидает встретить Пуассоновское распределение. Если мы поделим Персоновских Хи-квадрат на число степеней свободы, то вот эта величина, она покажет нам во сколько дисперсия больше среднего. Мы можем получить для Персоновских Хи-квадрат статистики и уровень значимости используя Хи-квадрат распределения. Единственное, то, как мы модифицировали эту функцию, мы добавили одну строчку. Вообще-то это функция она заточена под применение для обобщенных линейных смешанных моделей, где есть случайные эффекты, но мы ее немного дополнили, чтобы ее можно было смело применять к обобщенным линейным моделям, в которых есть только фиксированные эффекты. Она теперь правильно считает число параметров для моделей с отрицательным биномиальным распределением о которых речь еще впереди, но у вас будет более или менее универсальная функция зато. Итак, давайте применим эту функцию "overdisp_fun" к нашей Пуассоновской модели. Эта функция посчитает Пирсоновский Хи-квадрат, посчитает его отношения Персоновский Хи-квадрат деленное на число степеней свободы и вот это число нам покажет, что дисперсия в 3 раза больше среднего для наших данных, чем это можно ожидать для Пуассоновского распределения. Для Пуассоновского распределения было бы правильно, если бы дисперсия была равна среднему и эта величина была приближалась где-то к единице. К сожалению, в данном случае получается, что эта величина значима хоть это и приблизительный тест, но здесь у нас нет никаких шансов, у нас получается очень низкое "p_value". Мы не можем пренебречь избыточностью дисперсии. Она есть и с ней нужно как-то начать бороться и главное нужно понять откуда она берется и к каким последствиям может привести ее появление. Если избыточность дисперсии есть, то будут обязательно какие-то последствия, потому что у нас получится приуменьшенная стандартные ошибки. Как это получается? Если на самом деле данные подчиняются распределению Пуассона то, мы можем ожидать что дисперсия в таких данных равна мю, а дисперсия мат ожидания будет такой, мы мю делим на n. Соответственно, стандартная ошибка для мат ожидания отклика она будет равна корню из дисперсии мат ожидания. Если вдруг так случилось, что данные не подчиняются распределению Пуассона и там есть избыточность дисперсии фи, дисперсия фи в разы больше чем средняя, то тогда мы можем также записать фи умножить на мю, наша новая дисперсия, тогда получится, что для таких данных со сверхдисперсией для них и дисперсия, и стандартная ошибка отклика будет раздута в фи раз. Соответственно, и в корень с фи раз. И если вдруг мы для таких данных начнем использовать Пуассоновское распределение, которое не ожидает там встретить никакого фи, то это Пуассоновское распределение будет считать что на самом деле дисперсия ниже и стандартные ошибки ниже, а это совсем не в наших интересах. Потому что, если стандартные ошибки окажутся заниженными, то тогда весь механизм тестирования гипотезу сломается, потому что у нас стандартные ошибки завязаны буквально все от того как мы считаем тестовой статистики до того, как мы строим доверительную зону вокруг регрессии. Доверительная зона вокруг репрессий будет заужина из-за того, что занижены стандартные ошибки. Значение тестов Вальда для коэффициентов модели они тоже дадут неправильные результаты, там будет очень низкий уровень значимости из-за того, что стандартные ошибки занижены, нам будут показывать, что все достоверно - так не бывает. На самом деле это тоже хороший признак, если вы смотрите в summary там все достоверно, то это плохой сигнал. Может быть стоит ждать избыточности дисперсии и даже тесты, которые нам казались более или менее надежными, тесты, которые основаны на сравнении правдоподобий, они тоже дадут смещенные результаты, потому что соотношение дивианс, оно больше не будет подчиняться Хи-квадрат распределению и в этом проблема. Нам нужно понять как нам бороться с избыточностью дисперсии, а чтобы понять как бороться нам нужно понять какие причины бывают у избыточности дисперсии. Причин может быть очень много как всегда, потому что все определяется структурой данных. Если у вас в ваших данных есть выбросы, то тогда может наблюдаться избыточная дисперсия, вы можете не учитывать ту дисперсию, которая связана с появлением выбросов, но мы вроде бы проверили наши данные, выбросов в них не было. Бывают ситуации, когда в модель вы забыли включить какой-то важный предиктор и от этого могут начаться проблемы появится избыточная дисперсия. Но в данном случае мы учли все что нужно, мы можем потом на графиках остатков в этом убедиться. Бывают проблемы с избыточностью дисперсии у которых корни растут в феномене псевдо репликации если у вас нарушены независимость выборок, если у вас есть какие-то скрытые факторы, которые на самом деле обеспечивают группировку внутри данных, то тогда может наблюдаться избыточность дисперсии тоже, но об этом мы будем говорить в следующем курсе нашей специализации. Далее, если вдруг оказалось, что ваши предикторы связаны с откликом не линейно, то вы тоже можете встретить избыточность дисперсии. Если вы неправильно выбрали связывающую функцию для вашей GLM, то тоже могут быть проблемы, но здесь у нас к счастью вряд ли есть проблема, потому что не такой широкий спектр связывающих функций для этих счетных моделей. Если вдруг в ваших данных было нулей гораздо больше, чем может предсказывать ваше распределение, Пуассоновское распределения, то тогда у вас будет такой феномен, который называется Zero inflation избыточность нулей и он тоже приведет к сверхдисперсии, но мы видели что у нас в наших данных 20% нулей, всего лишь - это не очень много, поэтому вряд ли причина сверхдисперсии в этом. Ну и наконец может быть просто такая ситуация, что ваш зависимая переменная, она подчиняется другому распределению, не Пуассоновскому. И если для Пуассоновского распределения дисперсии действительно избыточно, то возможно для другого распределения она не будет избыточной, если вы выберете правильно распределение, то вы вылечите таким образом эту проблему. Собственно, я думаю, что последний вариант для нас будет самым лучшим, мы попробуем побороться с избыточностью дисперсий именно таким образом. Но это не единственный способ, как всегда, если у вас есть какой-то тонкий инструмент для решения проблемы у вас одновременно с этим есть еще какая-то грубая кувалда. Так вот в данном случае более грубый вариант будет подобрать к фазе Пуассоновской модели, то есть она будет всем Пуассоновская, но только там будет небольшая подборка, которая будет обеспечивать эту самую избыточность дисперсии как бы ее моделировать.