Кластеризация методом k-средних
Фух. Наконец, дошли руки (и настрой) до того, чтобы разобраться с алгоритмом кластеризации похожих ключевых слов. Пока просто по точным вхождениям, без использования лемматизации.
Давно оно меня пугало. Кластеризация методом k-средних, преобразование текстовых данных в векторный формат, “мешок слов”…
Но, как оказалось, есть хорошая библиотека, которая позволяет не особо “лезть под капот”. Побаловался с туториалами, понял принцип и сразу же и сделал.