Мы с вами хотим построить модель того, как зависит число насекомых опылителей на цветках Леопольдия от разных факторов. Число опылителей - это счетная величина. Но для начала давайте мы убедимся в том, что обычные методы работы они совершенно не годятся для счетных величин. Давайте попробуем подобрать модель с нормальным распределением отклика и посмотрим, какие недостатки будут у этой модели. А они будут, я вам обещаю! Итак, собственно, что мы пытаемся построить? Мы предполагаем, делаем такое предположение, что количество опылителей на цветках Леопольдия - это нормально распределенная величина, у которой будет среднее "μ" и стандартное отклонение "σ". Математическое ожидание числа визитов опылителей это будет "μ". Дисперсия это "σ" квадрат, потому что величина нормально распределенная. Функция связи в такой обобщённой линейной модели - это будет функция идентичность, то есть, эта функция связи она берет математическое ожидание отклика и просто передает его в линейный предиктор без всяких изменений. Линейный предиктор нам показывает таким образом, как математическое ожидание отклика зависит от предикторов модели. Здесь мы видим линейную комбинацию предикторов с их коэффициентами. В нашей модели будет несколько предикторов. Дискретный предиктор (Treatment) - это тип площадки в зависимости от того был там вид вселенец или не было и удаляли ли у него цветки. И там будут всякие важны ковариаты, общее разнообразие флоры, количество цветков Леопольдия и продолжительность наблюдений, которую мы понимаем, что мы обязательно должны учесть. И это будет просто модель "GLM" мы даже не должны здесь указывать, то распределение, которому подчиняется переменный отклик, потому что по умолчанию это будет нормальное распределение. Подбираем модель, находим коэффициенты. Помните, что когда мы говорим о "GLM" с нормальным распределением отклика нам еще нужна "σ", чтобы записать уравнение в модели. Теперь мы можем эти коэффициенты подставить в то уравнение, в общем виде и получить конкретное уравнение. Давайте мы сразу нарисуем нашу модель и посмотрим не будет ли там каких-то проблем. Данные для графика предсказаний мы с вами получим вручную при помощи операций с матрицами. Потому, что так вы сможете потом устанавливать параллели, когда мы поговорим уже о распределении Пуассона и отрицательно биномиальном распределении, там где функция связи уже будет выполнять какую-то работу вы сможете устанавливать параллели с этой неправильной моделью и поймете: куда, на каком этапе функция связи включается в работу и начинает трансформировать математические ожидания. Итак, с чего мы начинаем? У нас есть дискретная переменная "Treatment" и есть несколько непрерывных предикторов. На графике все одновременно изобразить мы не можем, поэтому мы выбираем самые интересный для нас непрерывный предиктор и будем рисовать его, а дискретная переменная будет задавать группы. Соответственно, давайте попробуем нарисовать график, где будет показано число визитов опылителей в зависимости от количества цветков Леопольдии, для 3 наших "Treatment". Какие-то 3 линии мы должны получить. Потенциально в каждом типе площадок мог быть свой диапазон значений количества цветков, поэтому давайте мы сгруппируем наши данные по типу площадок и для каждого типа площадок получим свой диапазон значений переменной. А остальные непрерывные предикторы мы зафиксируем на каком-то определенном уровне. Разнообразия мы можем зафиксировать на уровне среднего с продолжительностью периода наблюдений, тут сложный вопрос на самом деле. Я написала среднее просто машинально в данном случае, по идее вы могли бы взять, например, максимальную продолжительность периода наблюдений, потому что таких наблюдений больше всего (то есть, средняя в данном случае это чистая условность). Что мы делаем с этими данными? С этими искусственными данными мы должны получить для них предсказанное значение. Для того чтобы получить предсказанное значение - нам нужно сформировать из этих искусственных данных модельную матрицу для нашей модели. Матрицу со значением предикторов. Мы пишем сюда формулу нашей модели, предикторы обязательно должны следовать в том же порядке, как мы их указывали при подборе модели и получаем модельную матрицу. Коэффициенты мы экстрагируем из только что подобранной нами модели. Произведение коэффициентов на модельную матрицу нам даст "μ", соответственно, и стандартные ошибки мы можем получить вот такой вот очень сложной формулой. И после этого у нас есть все, для того чтобы мы могли нарисовать график предсказаний. График предсказаний выглядит так, то есть, есть 3 линии, как я вам, собственно, и обещала. И в данном случае по оси "у" у нас отложено математическое ожидание количества визитов опылителей. Вы ничего не замечаете на этом графике странного? Есть одна странная вещь, есть какие-то отрицательные предсказанные значения, тут совсем небольшой хвостик. Линии, которые соответствует площадкам, где удаляли цветки видов вселенца. Он выходит за 0, то есть у нас получаются какие-то отрицательное количество визитов пчел и других насекомых. Такого быть не может! То есть уже тут мы можем заподозрить, что модель не очень то годится. Давайте посмотрим, можем ли мы заметить что-то странное в таблице, которую выдает нам функция "summary". В этой таблице будут оценки коэффициентов. и тут будут их стандартные ошибки. Вы увидите значение "t-статистики", которая в данном случае для "GLM" это "t" тест Вальда и вы увидите, что какие-то из этих коэффициентов они статистически значимы, а какие-то не значимы. То есть ничего нам в принципе не говорит о том, что модель неадекватна. Это очень опасно, то есть вот по "summary" модели мы совершенно не в состоянии понять, что наша модель дает неадекватные предсказания. Теперь давайте посмотрим на результаты анализа девианса. Говорит ли нам здесь что-нибудь, что с моделью что-то не так? Нет, не говорит и мы рискуем прийти к неправильным выводам. Глядя на результаты анализа девианса мы можем заключить, что число визитов опылителей на цветке гадючьего лука оно зависит от присутствия видов вселенца. Вы видите, что от "Treatment" оно зависит, что оно не зависит от разнообразия флоры на площадке, что оно зависит от числа цветов самого гадючьего лука. Совершенно непонятно правильны эти выводы или нет? Модель наша неадекватна мы это видели на графике предсказания модели и вообще хорошо бы сделать проверку условий применимости. Давайте посмотрим нет ли коллинеарности предикторов в нашей модели. Потому что вы помните, что во время разведочного анализа мы видели, что бокс плоты некоторых непрерывных переменных были чуть-чуть разными для разных типов площадок. Но здесь вы видите, что когда мы посчитали "variance inflation Factor", выяснилось, что коллинеарности нет. То есть с этой стороны все в порядке. Идем дальше! Самый важный график во время анализа остатков - это график зависимости остатков от предсказанных значений. И на этом графике мы сразу видим несколько неприятных вещей. Вещь, которая сразу бросается нам в глаза, это такой характерный воронкообразный паттерн, который нам говорит о том, что в данном случае в нашей модели есть гетерогенность дисперсий остатков. Это противоречит требованиям "GLM" с нормальным распределением отклика, потому что там нужно, чтобы "σ" она была одна, вне зависимости от значения мат ожидания. А здесь у нас получается, что "σ" увеличивается, с увеличением мат ожидания. То есть уже какая-то связь с дисперсией среднего прослеживается на этом графике, что нам намекает, что мы сделали что-то не так. Но вторая вещь, которая не так с нашей моделью это, посмотрите! Предсказанное назначение у нас отложено по оси "х" и для части наблюдений у нас получились отрицательные предсказанные значения. То есть даже если вы не увидели на графике отрицательных предсказаний, вы можете увидеть эти отрицательные предсказания на графике остатков. Обязательно, здесь вы их не пропустите. Значит наша модель не годится, потому что число визитов опылителей не может быть отрицательным. А раз модель с нормальным распределением отклика не подходит, нам нужно ее усовершенствовать. И есть несколько способов. Есть способ грубый, мы можем попытаться логарифмировать зависимую переменную и надеяться, что это немножко исправит ситуацию с гетерогенностью дисперсий, мы можем попробовать смоделировать логарифм числа визитов опылителей. Но это не очень интересно, моделировать логарифм мы все-таки хотим, моделировать непосредственно ту величину, которую мы изучаем. Поэтому лучше использовать более тонкий инструмент и мы можем подобрать обобщённую линейную модель, которая основана на распределении, которая подходит для моделирования счетных данных. Мы начнем с распределения Пуассона, потому что этот довольно простой случай, самый простой, и если оно нам не подойдет, то мы попробуем перейти к другому распределению, к отрицательному биномиальному распределению.