Публикации
Гречников Е.А., Гусев Г.Г., Кустарев А.А., Райгородский А.М.
Поиск неестественных текстов
// Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI Всероссийской научной конференции RCDL'2009. Петрозаводск: КарНЦ РАН, 2009. C. 306-308
В работе описывается метод определения неестественного происхождения документа, основанный на изучении статистики встречаемости пар соседних слов в тексте. Тестирование показывает, что метод может быть использован как отдельно, так и для существенного улучшения результатов уже известных методов определения спама по контенту.
Поиск неестественных текстов (161 Kb, скачиваний: 132)
Последние изменения: 16 октября 2009