[МУЗЫКА] [МУЗЫКА] Всем привет! Тема сегодняшней лекции — «Меры сходства», а именно «Меры расстояния». На прошлой лекции вы познакомились немножко с кластерным анализом, и сегодня мы рассмотрим, возможно, ключевое понятие в кластерном анализе, а именно, меры сходства. Цель кластерного анализа, как вы помните, это разделить объекты по группам, и здесь важно понимать, кто находится дальше, кто ближе, и вот это дальше-ближе, это остается на совести исследователя, как это определять. Для этого используются как раз меры сходства. Всего их можно выделить три: это меры расстояния, коэффициенты корреляции, коэффициенты ассоциативности. Каждая из этих мер имеет свои плюсы и минусы, области применения, и их все необходимо знать, потому что в зависимости от задачи вы можете использовать различные меры. Сегодня мы поговорим, пожалуй, про самую распространенную меру, это мера расстояния, и она довольно интуитивно даже понятная. Меры расстояния, они отталкиваются от понятия метрики, и при этом подходе объекты представляют собой точки в k-мерном пространстве, где размерность определяется количеством переменных, используемых для описания объектов. Если у нас есть, например, какой-то объект или группа объектов, которые описываются четырьмя признаками — значит эти объекты для нас будут просто точками в четырехмерном пространстве, и мы будем как-то пытаться их там кластеризовать. Однако на самом деле не все так просто, и метрики должны удовлетворять четырем свойствам: первое — это симметрия, то есть расстояние от x до y должно быть точно такое же, как от y до x. Например, если вы ездите на работу и с работы по одной и той же дороге, то, очевидно, что до нее должно быть одинаковое расстояние. Кроме того, это расстояние всегда должно быть больше либо равно нулю. Не может быть отрицательного расстояния. Второе свойство называется неравенством треугольника, то есть расстояние от x до y всегда меньше либо равно расстоянию от x до какой-то другой точки z плюс расстояние от y до той же точки z. Представьте, что вы поехали на работу и решили заехать в бар. Ну конечно, у вас немножко путь увеличится. И оно называется неравенством треугольника, потому что здесь выполняется свойство треугольника, что сумма двух сторон всегда больше, чем третья сторона. Третье свойство называется различимостью тождественных объектов, и оно говорит о том, что если объекты не одинаковы, то расстояние между ними не равно нулю. Четвертое свойство можно назвать обратным, что неразличимость идентичных объектов, то есть если объекты одинаковые, вот тогда расстояние должно быть равно нулю. Вот четыре таких простых свойства, однако всегда нужно о них помнить и всегда необходимо проверять ваши придуманные метрики на эти свойства. Кроме того, можно сказать, что эти меры являются мерами несходства, то есть чем больше она, тем значит объекты меньше похожи друг на друга, тем сильнее они отличаются, в отличие от корреляционных мер сходства, где наоборот, чем больше, тем лучше. Кроме того, меры расстояния обычно не ограничены сверху, и их значение зависит от выбора шкалы, то есть масштаба измерений признаков. Это очень важный пойнт, потому что если вы это как-то меняете, то, возможно, у вас даже результаты будут другие. Часто прибегают, допустим, к нормированию, однако это не всегда эффективно, не всегда это помогает. Поэтому когда вы пользуетесь мерами именно расстояния, всегда помните о масштабе, что это может повлиять на ваши результаты. И сейчас мы рассмотрим четыре наиболее распространенных расстояния, и первое из них — это евклидово расстояние. Его все знают еще со школы, потому что по сути — это геометрическое расстояние между точками в многомерном пространстве. В школе это обычно было двухмерное пространство, здесь у нас просто многомерное пространство. Второе расстояние — это квадрат евклидова расстояния, то есть просто убрали корень. Его тоже иногда используют, и здесь его используют для того, чтобы дать больший вес более отдаленным друг от друга объектам, то есть квадрат как раз это и дает, то есть он для больших значений, Евклидов квадрат становится еще больше, поэтому дает больший вклад. Третье расстояние — это манхэттенское расстояние, и оно по сути является суммой разности по координатам, и в большинстве случаев оно примерно такое же, как Евклидово, по своей работе, то есть у вас примерно получатся одни и те же кластеры. Единственная разница в том, что здесь нет квадратов, поэтому не ставится такой большой вес большим каким-то различиям. Четвертое расстояние — это расстояние Чебышёва, и оно может оказаться полезным, когда хотят определить два объекта как различные, если они различаются по какой-либо одной координате. Выглядит это тоже очень просто. Можете проверить, что все эти расстояния, все четыре удовлетворяют всем четырем свойствам, которые мы ранее рассмотрели. А в следующий раз мы поговорим про корреляционные меры и меры ассоциативности.