Публикации
Рубцов Д.Н., Барахнин В.Б.
О возможности борьбы с дубликатами при запросах к разнородным библиографическим источникам
При запросах к нескольким разнородным библиографическим источникам возникает проблема выявления повторяющихся записей. В работе проанализированы проблемы, возникающие в процессе установления нечеткого соответствия между двумя записями. Рассмотрены существующие методы и алгоритмы решения задачи исключения дубликатов и, в частности, подходы к определению и вычислению функции похожести строк.
С учетом требований конкретной задачи – усовершенствования информационной системы “Научные сотрудники - математики СО РАН” - реализован метод решения, основанный на использовании в качестве функции похожести наибольшей общей подпоследовательности двух строк. Метод был протестирован на трёх базах данных публикаций СО РАН – Базе данных публикаций журнала “Вычислительные технологии”, Базе данных публикаций сотрудников Института вычислительных технологий СО РАН и Базе данных публикаций системы “Web-ресурсы математического содержания”. По итогам проведённого тестирования метод продемонстрировал высокую эффективность работы и был применён для системы “Научные сотрудники – математики СО РАН” и разрабатываемой в данный момент интегрированной системы удалённого доступа к разнородным ресурсам библиографической тематики.

О возможности борьбы с дубликатами при запросах к разнородным библиографическим источникам (244 Kb, скачиваний: 616)

Последние изменения: 16 октября 2009