[МУЗЫКА] [МУЗЫКА] Итак, давайте попробуем подобрать квази-пуассоновскую модель, чтобы решить проблему сферы дисперсии грубым образом. В этой модели мы будем предполагать, что переменная «количество опылителей» будет... Так и хочется сказать «подчиняться квази-пуассоновскому распределению», но нет. Такого распределения не бывает, она будет подчиняться все равно пуассоновскому распределению со средним μ и с дисперсией (вот, что делает его «квази», это как бы Пуассон). Дисперсия будет уже не μ, а φ раз μ. То есть эту избыточность дисперсии мы здесь учтем. Функция связи — по-прежнему логарифм, и именно логарифмы мы будем моделировать как линейную комбинацию придикторов, то есть это всем пуассоновская модель, мы используем распределение Пуассона. Единственное, что мы делаем, это мы вводим поправку на степени избыточности дисперсии. Величина φ нам показывает, насколько дисперсия может быть выше среднего, мы ее оцениваем по данным. В квази-пуассоновской обобщенной линейной модели во время анализа нам встретятся следующие особенности. Обратите внимание, что оценки параметров, которые вы получите, они будут абсолютно такими же, как в пуассоновской GLM, потому что там используется именно распределение Пуассона. Что изменится, так это изменятся стандартные ошибки. Стандартные ошибки будут домножены на корень из φ, то есть они у них сузились из-за того, что мы игнорировали избыточность дисперсии, а тут в квази-пуассоновской модели мы их искусственно домножим на φ, искусственно надуем, чтобы избавиться от этого эффекта. В результате доверительные интервалы у нас тоже окажутся домножены на √φ, и это прекрасно, то есть мы получим в каком-то смысле немного более надежные результаты. Логарифмы правдоподобий окажутся уменьшены в φ раз. Поэтому обычные тесты отношения правдоподобий здесь не годятся. Вот в этом недостаток квази-пуассоновских моделей. То есть все, на что мы можем рассчитывать, это на тесты Вальда. Когда мы работаем с квази-моделями, в тестах параметров мы будем использовать уже не z-тесты, невзирая не то, что это распределение Пуассона, а t-тесты и t-распределение, потому что нам приходилось оценивать дисперсию — вот это самое φ за это отвечает. Для анализа девиансы потенциально мы можем использовать F-тесты, но они будут давать приблизительные результаты. И самое главное, что для квази-пуассоновских моделей не определен AIC. То есть если вы хотите вдруг заняться выбором модели и сравнить много моделей-кандидатов, то AIC вам тут не поможет. В принципе, если уж совсем возникла такая нужда, вы можете посчитать квази-AIC, но его будет сложно сравнить с чем-то другим. То есть вы видите, что на самом деле, несмотря на то, что это решение казалось таким простым и элегантным, у него есть ряд ограничений. Итак, давайте подберем по нашим данным квази-пуассоновскую модель, и мы это делаем при помощи функции GLM. Вместо family мы пишем quasipoisson, все остальное у нас осталось практически так же, как в пуассоновской модели, кроме двух мест: мы пишем, что это QuasiPoisson, и мы пишем, что дисперсия в φ раз больше, чем среднее. Что же у нас получается? Чтобы записать эту модель, когда мы ее подобрали, нам нужны не только коэффициенты, которые мы подставляем в линейный предиктор, нам понадобится извлечь из объекта модели, вернее, даже из summary, полученной по этому объекту, параметр дисперсии, то есть вот то самое φ, и подставить его в описание модели вот в этом месте. То есть там, где вы пишете, что дисперсия равна φ раз μ, вы пишете, чему конкретно равно ваше φ, вот так вот эта модель записывается. Теперь смотрим на результаты подбора модели, что у нас получается. В summary мы опять видим знакомые нам t-тесты Вальда, это уже больше не z-тест, как для пуассоновской модели. Если вы сравните стандартные ошибки, которые вы здесь получили, с прошлой ситуацией, то есть мы их здесь искусственно раздули. И в результате у нас совсем уже не все параметры оказались статистически значимы, а только некоторые из них. φ нам пишет еще и в summary, вот здесь, в этом месте, в одной из последних строчек. Можем ли мы доверять этим результатам? Большой вопрос. Можем посмотреть на то, как выглядит анализ девиансы. Анализ девиансы делается при помощи F-тестов, и если мы будем его интерпретировать, то мы выясним, что число визитов опылителей на цветки гадючего лука будет зависеть от присутствия вида-вселенца. Фактор treatment у нас влияет статистически значимо. Оно будет зависеть от разнообразия цветов на площадке, оно будет зависеть от количества цветов самой леопольдии. Но можем ли мы доверять этим результатам? На самом деле, мы им можем доверять частично. Нам нужно всегда помнить про то, что эти результаты приблизительные. Что F-тест, что t-тест Вальда будут давать только приблизительные результаты. И каждый раз, когда мы получаем значение p, как вот здесь, близкое к выбранному нами пороговому уровню (здесь оно близко к 0,5), мы уже должны не так сильно доверять этим результатам, потому что мы могли ошибиться.