[ЗАСТАВКА] Поговорим про метрики. Что такое расстояние или метрика? Ответить на этот вопрос можно аксиомами метрики, с которыми все знакомятся в университетах. Но это совершенно неважно для нас сейчас. Для нас главное, чтобы работало. Главное, чтобы объекты, которые меньше похожи друг на друга, были дальше друг от друга, то есть расстояние между ними получалось больше, а выполнение аксиом совершенно некритично. Но самая простая метрика, которая приходит на ум, это евклидова метрика. Это просто корень из суммы квадратов разности координат. Можно попытаться ее обобщить. Ну, например, точно также мы могли бы рассматривать сумму модулей отклонений координат. А в общем случае могли рассматривать сумму q-тых степеней модуля отклонений, возведенную в степень 1 делить на q. Как посмотреть на метрику? Ну, можно просто построить шар или круг (если на плоскости, полученной в этой метрике), ну то есть множество точек, удаленных, например, от начала координат не более чем на фиксированное расстояние, например на единицу. И окажется, что в случае манхэттенского расстояния, ну то есть сумма модулей разности координат, шар или круг будет выглядеть ромбовидно. В случае степени 2 мы получаем евклидову метрику и получаем обычный круг и обычный шар. Если же степень метрики Минковского устремить к бесконечности, то метрика выродится в максимум из модулей разности координат, и, соответственно, круг будет просто квадратом. Также часто используется так называемая косинусная мера. Это просто косинус угла между векторами, который совсем несложно посчитать, используя скалярное произведение и длины векторов. И обратите внимание, это функция близости, а не расстояния. То есть, чем больше похожи объекты друг на друга, тем больше будет значение этой функции. Также используется коэффициент корреляции, который отличается от косинусной меры лишь тем, что из каждого вектора вычитают среднее значение его координат. Коэффициент корреляции можно использовать, как функцию близости. Косинусная мера часто используется для анализа текстов, а коэффициент корреляции часто используется в рекомендательных системах. Но об этом мы еще поговорим позднее. Конечно, существует и много других функций близости, которые в разной степени учитывают разные различия между векторами. И подводя итог, можно сказать, что метрики бывают разные даже в обычном строгом математическом смысле. А так как нам интересно не то, что хорошо для математиков, а то, что работает на практике, то у нас еще больше возможных вариантов. Иногда в задаче может быть понятно, какая метрика лучше для нее подходит. Но, как правило, нужно попробовать перебрать разные. Некоторые варианты часто используются в каких-то прикладных областях, но это не отменяет того, что всегда полезно поэкспериментировать.