[МУЗЫКА] [МУЗЫКА] Гадючий лук — это такое растение, представитель родной флоры острова Менорка, по-английски его еще называют кисточковый гиацинт, потому что у него очень такое характерное соцветие, в котором отдельные цветочки распускаются сверху вниз, и получается такая кисточка. И в XVIII–XIX веках на остров Менорка завезли новый вид — копеечник венечный, это растение из семейства бобовых, у которого очень яркие соцветия с большими цветками, и оба вида — и родной вид мускари, и вид вселенц-копеечник цветут одновременно. И оба опыляются насекомыми. Очень интересно, вдруг такие якрие соцветия копеечника будут отвлекать насекомых от опыления родного для Менорки вида — гадючего лука. Давайте попробуем посчитать, как зависит число визитов насекомых-опылителей на цветки гадючего лука от присутствия вида-вселенца и от общего разнообразия флоры в ближайшей окрестности от цветка, потому что более разнообразные участки, конечно, будут привлекать больше разных насекомых-опылителей. Ученые, которые хотели ответить на этот вопрос, провели контролируемый эксперимент. Они решили посчитать число насекомых, которые будут прилетать на конкретный выбранный цветок гадючего лука в зависимости от того, что росло вокруг этого растения. Площадки, которые они выбрали, были трех типов: на контрольных площадках росли только виды, характерные для Менорки, там не было копеечника. Были площадки, на которых был копеечник, это площадки, которые они назвали invaded, то есть населенные, заполоненные видом-вселенцем. И были площадки третьего типа, на которых ученые удалили цветки у вида-вселенца. То есть там росла смесь родных видов для Менорки вида-вселенца, но у этого вида-вселенца не было цветков. Зачем так все это сложно делать? Потому что на самом деле, сравнивая эти три типа площадок, мы можем оценить разные аспекты влияния вида-вселенца. Сравнение A между контрольными площадками и такими площадками, на которых растут вселенцы и у этих вселенцев не оборваны цветы, все цветут, они нам позволят оценить влияние растения копеечник в целом: и его зеленой части, и его цветов. Сравнение B — это сравнение между заселенными видом-вселенцем участками, где были цветы, и между участками, где мы цветы удалили. Оно будет нам показывать, насколько влияет само присутствие цветков, потому что вид-вселенец может отпугивать насекомых-опылителей совершенно по-другому, может быть, он пахнет по-другому, зеленые части пахнут. И вот собственно, третье сравнение C, которое производится между контрольными площадками, где растут только родные виды, и площадкой, где есть вселенец, но он не цветет, оно нам как раз покажет, насколько сами зеленые части растения, этого вида-вселенца, будут влиять на присутствие опылителей на родном мускари. В данных, которые исследователи выложили на сайт журнала, будет много переменных, но в анализе мы будем использовать не все. Мы начнем с тех переменных, которые использовали сами исследователи. Зависимая переменная будет называться visits — это число визитов всех опылителей на цветок Leopoldia. Почему всех? Потому что там есть еще отельная переменная, которая показывает, сколько было насекомых-опылителей без учета пчел. Пчелы тоже время от времени тоже занимаются опылением обоих этих растений. Предиктор, который в фокусе исследования, то есть собственно та переменная, влияние которой мы изучаем, это дискретная переменная treatment — тип площадки. Это фактор с тремя уровнями, в зависимости от того, в каких условиях там растет родной вид — гадючий лук, Leopoldia. И кроме того, нам нужно будет учесть обязательно некоторый набор ковариат, как говорят, то есть это такие переменные, которые не находятся в фокусе исследования, но мы не можем игнорировать их влияние. В частности, мы обязательно должны учесть общее разнообразие флоры на участке, потому что если лук с более разнообразной растительностью, то на этот лук, скорее всего, прилетит больше разных опылителей, потому что они тоже иногда, может быть, специализируются: кому-то нравится одно, кому-то нравится другое. Там в целом всё разнообразнее, поэтому в целом прилетит больше. Мы можем это ожидать, а может быть, и меньше прилетит, это мы тоже можем ожидать. В любом случае, мы можем проконтролировать и какую-то меру разнообразия включить в анализ. Вторая вещь, которую мы должны учесть, это общее число цветков мускари на площадке, потому что на площадке с большим количеством цветков в целом мы можем ожидать, что туда прилетит больше опылителей. И третья вещь, которая важна, — это время наблюдений. Это обязательно нужно учесть, потому что если мы где-нибудь сядем и будем наблюдать, то чем дольше мы наблюдаем, то в целом потенциально мы способны насчитать гораздо большее количество опылителей. То есть мы должны учесть длительность периода наблюдений, а она тут не всегда была одинакова. Поэтому это третья переменная в нашем анализе. Итак, давайте откроем данные. Файл можно взять с сайта курса со страницы этого модуля. Называется он фамилиями авторов и годом, в котором вышла статья, и это файл в формате Excel, поэтому для того чтобы его открыть, нам понадобится пакет read_excel и одноименная функция read_excel. Когда вы его откроете, вы увидите, что в этом файле есть не только те переменные, которые я вам перечислила, которые важные для моделирования, но есть еще некоторый набор, про который я вам не сказала. Что это такое, что это за переменные, мы разберемся немного позже. Сейчас мы их не будем учитывать в модели, но потом, когда мы построим финальную модель, во время анализа остатков нам обязательно нужно будет проверить, не зря ли мы их оставили вне фокуса. Первое, что мы делаем, мы убеждаемся в том, что пропущенных значений в нашем файле нет и что мы можем спокойно работать дальше. Нет ли наблюдений-выбросов? Это очень важный вопрос, потому что такие наблюдения потенциально могут оказать большое влияние на ход регрессии. Давайте посмотрим, нет ли каких-то наблюдений, где на площадках вокруг цветков леопольдии было очень большое разнообразие цветков. В принципе, таких наблюдений нет. То есть вот эти вот два довольно похожи на все остальные, то есть мы можем сказать, что выбросов в данном случае нет. Нет ли выбросов в переменной flowers, которая нам показывает количество цветков леопольдии на площадке? И мы видим, что в данном случае тоже выбросов нет, то есть наблюдения распределены примерно равномерно на всем интервале. Но на третьем графике мы видим потенциальные проблемы. Переменная hours нам показывает продолжительность времени наблюдений, то есть то время, которое исследователи потратили на то, чтобы посчитать насекомых-опылителей. И часть периодов наблюдений, очень большая часть периодов наблюдений, она вся длительная. И есть некоторое количество периодов наблюдений, где исследователь не смог досидеть все свои положенные 45 минут и ушел раньше. Нам нужно понять, насколько эти короткие периоды наблюдений повлияют потенциально на наши результаты, не приведут ли они к какому-либо смещению. Давайте попробуем это сделать. Во-первых, давайте посмотрим, сколько площадок каждого типа было в исследовании. Это важная информация, потому что если этих площадок будет очень разное количество, то мы не сможем их сравнивать. Но на самом деле мы видим, что приблизительно одинаковое количество, то есть сильного дисбаланса нет. Теперь давайте посмотрим, как короткие периоды наблюдений распределены по разным типам площадок. Видно, что таких коротких периодов наблюдений всего три. Это не очень много, то есть это уже одно вселяет в нас надежду, что это не приведет к сильному смещению результатов. Во-вторых, видно, что эти площадки с короткими периодами наблюдений были только на контрольных участках и на участках, где был вид-вселенец целиком вместе с цветами. А дальше, уже исходя из своих знаний об изучаемой системе, исследователь может принять решение. Решение может быть: одно — выкинуть эти наблюдения с коротким периодом, или второе решение — мы можем учесть эти наблюдения с коротким периодом и попытаться ввести в нашу будущую модель переменную hours, которая опишет как раз потенциальную разницу, которая может возникать в зависимости от продолжительности периода наблюдения. Потенциальное смещение, которое будет возникать, если период наблюдения удлиняется. Далее, давайте убедимся в том, что предикторы, которые мы будем использовать в модели, они не коллинеарны друг с другом, то есть они не зависимы, это очень важное требование для всех линейных моделей. В нашей модели есть и дискретные непрерывные предикторы. Поэтому давайте посмотрим, нет ли коллинеарности между ними. Дискретный предиктор — это treatment, тип площадки. А непрерывные предикторы — это разнообразие цветов на площадке и количество цветов Leopoldia. Если в первом случае мы видим, что все площадки примерно с одинаковым общим разнообразием флоры, то есть они сопоставимы друг с другом, и скорее всего, эти два предиктора независимы друг от друга, то во втором случае мы видим, что на площадке, где у вида-вселенца были удалены цветы, там было в целом большее количество цветов Leopoldia. То есть площадки не очень сопоставимы друг с другом по этому признаку. Это не очень хорошо. Но вот такой графический способ проверки очень приблизителен. В принципе, серьезна ли она, мы сможем потом убедиться, рассчитав более точный показатель — коэффициент раздутия дисперсия, или variance inflation factor, уже потом, когда мы начнем строить нашу модель. Теперь давайте посмотрим, как распределена переменная-отклик. Это важно, потому что от этого зависит... Мы сейчас с вами работаем с обобщенными линейными моделями, и в обобщенных линейных моделях мы начинаем моделирование с того, что мы оцениваем, как должна быть распределена переменная-отклик. Мы делаем предположение об этом, и оно определяет общий облик модели. В данном случае число визитов насекомых — это совершенно точно счетная переменная со всеми вытекающими последствиями. Это положительные значения больше нуля, целые значения. Но это числа, поэтому мы можем попробовать моделировать их при помощи нормального распределения. Не знаю, получится это у нас или нет. Для любой счетной переменной хорошо бы еще знать, какова пропорция нулей. Мы видим, что нулей довольно много, и если мы посчитаем точное количество, то выяснится, что примерно 20 % всех наблюдений — нули. Почему это важно? Потому что те распределения, которые заточены для моделирования счетных данных, они могут порождать какое-то количество нулей. И некоторое количество нулей как бы уже зашито в форме распределения, а если нулей оказывается почему-то больше в данных, чем может описать это распределение, то это уже может составить проблему. Это явление называется zero inflation, то есть избыточность нулей в данных. Поэтому еще до моделирования хорошо бы представлять, есть ли шанс того, что мы столкнемся с избыточностью нулей в данных. В данном случае 21 % наблюдений, 0 — это не очень много. То есть, наверное, мы можем этого не опасаться. Ну и наконец, давайте убедимся, что связь между откликом и предикторами — линейная. Это очень важно, потому что мы будем работать как раз с линейными моделями. Мы подразумеваем, что в масштабе, которую задает функция связи, связь между откликом и предикторами будет линейная. Самый грубый способ оценить форму связи — это построить график той величины, которую вы исследуете, в зависимости от предикторов. И на этом графике вы можете увидеть в данном случае, что у нас зависимость будет, наверное, линейна для каждого из типов площадок. Этот график — это очень грубый способ убеждаться в линейности связи, потому что вы потенциально можете увидеть только очень сильные нарушения на нем. Гораздо более тонким и правильным способом оценить линейность связи будет построить график остатков от той модели, которую вы подобрали. И это мы сделаем немного позже. Итак, мы теперь знаем практически все о наших данных, чтобы приступить к моделированию.