Публикации
Рубцов Д.Н., Барахнин В.Б.
О возможности борьбы с дубликатами при запросах к разнородным библиографическим источникам
// Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI Всероссийской научной конференции RCDL'2009. Петрозаводск: КарНЦ РАН, 2009. C. 293-298
При запросах к нескольким разнородным библиографическим источникам возникает проблема выявления повторяющихся записей. В работе проанализированы проблемы, возникающие в процессе установления нечеткого соответствия между двумя записями. Рассмотрены существующие методы и алгоритмы решения задачи исключения дубликатов и, в частности, подходы к определению и вычислению функции похожести строк.
С учетом требований конкретной задачи – усовершенствования информационной системы “Научные сотрудники - математики СО РАН” - реализован метод решения, основанный на использовании в качестве функции похожести наибольшей общей подпоследовательности двух строк. Метод был протестирован на трёх базах данных публикаций СО РАН – Базе данных публикаций журнала “Вычислительные технологии”, Базе данных публикаций сотрудников Института вычислительных технологий СО РАН и Базе данных публикаций системы “Web-ресурсы математического содержания”. По итогам проведённого тестирования метод продемонстрировал высокую эффективность работы и был применён для системы “Научные сотрудники – математики СО РАН” и разрабатываемой в данный момент интегрированной системы удалённого доступа к разнородным ресурсам библиографической тематики.
С учетом требований конкретной задачи – усовершенствования информационной системы “Научные сотрудники - математики СО РАН” - реализован метод решения, основанный на использовании в качестве функции похожести наибольшей общей подпоследовательности двух строк. Метод был протестирован на трёх базах данных публикаций СО РАН – Базе данных публикаций журнала “Вычислительные технологии”, Базе данных публикаций сотрудников Института вычислительных технологий СО РАН и Базе данных публикаций системы “Web-ресурсы математического содержания”. По итогам проведённого тестирования метод продемонстрировал высокую эффективность работы и был применён для системы “Научные сотрудники – математики СО РАН” и разрабатываемой в данный момент интегрированной системы удалённого доступа к разнородным ресурсам библиографической тематики.
О возможности борьбы с дубликатами при запросах к разнородным библиографическим источникам (244 Kb, скачиваний: 616)
Последние изменения: 16 октября 2009