Прежде всего, нам надо немного изменить зависимую переменную. Ее предоставление в виде 1 и 0, неудобно, поскольку дискретная переменная, так сказать, не очень понятно, как описывается какой-то линией. Вместо того, чтобы моделировать наличие 0 и 1 мы будем моделировать другую величину - это вероятность получения 1, то есть в качестве зависимой переменной, будут выступать не бинарная величина, как таковая, а вероятность появления 1. Появится новое обозначение, мы его обозначим как Пи или Пай. Это вероятность события, того, что зависимая переменная приобрела значение 1. Но, поскольку у события бывает еще альтернативное состояние, оно может не произойти, то, соответственно, появляется другая величина, которая равна 1 минус Пи. Это вероятность того, что событие "y" равно 1 не произошло, то есть произошло событие "y" равно 0. Соответственно, вот эта величина Пи, она уже гораздо интереснее, она оказывается уже непрерывной величиной, и она варьирует в промежутке от 0 до 1. Соответственно, мы можем чуть более свободно себя чувствовать. Но, давайте посмотрим на некие симулированный пример, который пояснит некоторые особенности работы с вероятностями! Предположим, что для каждого значения предиктора допустим: 0, 1, 2, 3 и так далее. У нас есть некоторая выборка, на которой у нас имеется несколько событий. Каждый из них приобретает значение либо 1, либо 0 и, если мы это представим уже в той нотации, которая у нас была, когда у нас 1 или 0, то тогда все события, которые имеют значение 0, сконцентрируются вот здесь, а те, которые значению 1 сконцентрируются вот здесь. Обратите внимание, что для визуализации мы здесь применили небольшую такую хитрость, добавили случайную такую величину, которая разбивает все точки, которые совпадают, на небольшое расстояние раскидывают их, чтобы не было так называемого оверплотинга. Так вот, если у нас имеется несколько событий, для каждого значения предиктора, мы можем посчитать некую оценку вероятности того, что событие произошло при данном значения предиктора. Эту оценку мы можем обозначить специальной буквой "p". Это вероятность того, что "y" равен 1 при заданном значении предиктора. Как и положено вероятности или оценки вероятности эта величина будет варьировать от 0 до 1. И вот посмотрите, соответственно, у нас появилось некое облако точек и это облако точек, уже выглядит более похоже на ту ситуацию, которую мы с вами видели в предыдущих наших курсах, когда зависимая переменная имела вид облака точек. Давайте попробуем описать это облако точек в виде обычной линейной регрессии. Соответственно, мы можем написать модель, в которой у нас вероятность, которую мы откладываем по оси "y", будет связана со значением предикторов, которую мы откладываем по оси "x", вот такой моделью. Казалось бы все просто, нам надо подобрать всего лишь значение коэффициентов и построить вот такую линию. Однако, мы с вами помним, что вероятность варьирует от 0 до 1, а прямая линия ничем не сдерживается и она может приобретать значение, и больше 1 и меньше 0. Соответственно, такое описание реальности тоже не соответствует действительности. Как быть? Так вот оказывается, что можно применить некоторые математические ухищрения, которые позволят описать вот это имеющееся облако точек, несколько другой линией. Это будет уже не прямая, это будет так называемая логистической кривая. Вы здесь видите на этом слайде, как она будет выглядеть и логистическая кривая, описывается вот таким достаточно сложным уравнением, но зато эта кривая никогда не выходит за границы 0 и никогда не оказывается больше 1. И как вы видите она прекрасно описывает вот это самое облако точек, которое мы и получили. Вот эта логистическая кривая, уже гораздо более удобная, механизм для описания связи между предиктором и вероятностью того или иного события. Соответственно, как ее рассчитать? На самом деле, в реальной жизни нам не придется представлять наши зависимые переменные в качестве оценок вероятности, как доля положительных исходов от общего количества исходов, при данном значении предикторов. Благодаря функциям "GLM" мы сможем оценить вероятность непосредственно по исходным данным, то есть мы будем отдавать в анализ уже знакомое нам исходное значение в виде 1 и 0. И по этим данным мы сможем рассчитать эту самую логистической кривую, которую нам хочется получить для описания связи вероятности события, с тем или иным предиктором.