Técnicas de agrupamiento de valores similares para la reducción de la inconsistencia en bases de datos
Sergio Luján-Mora
Trabajo de investigación, programa de doctorado 3798 "Ingeniería lingüística, aprendizaje automático y reconocimiento de formas", Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Presentado el 15/12/2000.
(TInv'00)
Informe interno / Internal report
Resumen
Trabajo de investigación, programa de doctorado 3798 "Ingeniería lingüística, aprendizaje automático y reconocimiento de formas", Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Este trabajo aborda el problema de la inconsistencia en bases de datos, donde un mismo término puede aparecer representado de múltiples formas debido a errores ortográficos, abreviaturas, diferencias de idioma, entre otros. Esta inconsistencia dificulta la búsqueda y recuperación de información, así como la integración de datos provenientes de distintas fuentes. Las principales contribuciones de este trabajo son: (1) Desarrollo de técnicas para agrupar automáticamente valores similares en bases de datos; (2) Introducción de métricas de similitud adaptadas a problemas como transposiciones de palabras y diferencias lingüísticas; (3) Evaluación exhaustiva mediante conjuntos de datos reales y sintéticos, demostrando la efectividad de las propuestas.