Получение предложений из HTML

March 11, 2019

Довел до формата библиотеки и выложил на github - html2sent. Эта небольшая либа принимает на вход HTML и делает в нем кое-какие правки (удаление явно “неинтересных” тегов, простановка точек в некоторых местах при их отсутствии и прочее), чтобы на следующем этапе nltk tokenizer намного качественней смог разбить текст на предложения.

Ну и опционально можно включить удаление таблиц, списков и т.п.

Очень удобно для массового прогона HTML файлов с целью вытягивания красивого текста. Например для того, чтобы потом его скормить LSTM нейросети. Ну или провести какой-то анализ данного текста.