Получение предложений из HTML
Довел до формата библиотеки и выложил на github - html2sent. Эта небольшая либа принимает на вход HTML и делает в нем кое-какие правки (удаление явно “неинтересных” тегов, простановка точек в некоторых местах при их отсутствии и прочее), чтобы на следующем этапе nltk tokenizer намного качественней смог разбить текст на предложения.
Ну и опционально можно включить удаление таблиц, списков и т.п.
Очень удобно для массового прогона HTML файлов с целью вытягивания красивого текста. Например для того, чтобы потом его скормить LSTM нейросети. Ну или провести какой-то анализ данного текста.