Modelo de extracción automática de información a partir de tablas HTML

Este trabajo presenta un modelo de extracción e integración de información contenida dentro de tablas de tipo HTML, el modelo de extracción de información se apoya en un conjunto de heurísticas y reglas de deducción. Para determinar este conjunto de reglas se determino una detección rigurosa de tabl...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Suarez Baron, Marco Javier
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2004
Materias:
DTD
XML
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/22509
Aporte de:
Descripción
Sumario:Este trabajo presenta un modelo de extracción e integración de información contenida dentro de tablas de tipo HTML, el modelo de extracción de información se apoya en un conjunto de heurísticas y reglas de deducción. Para determinar este conjunto de reglas se determino una detección rigurosa de tablas y elementos de tablas HTML según su tipo de estructura y complejidad. El propósito de la investigación es extractar e integrar la información con el propósito de generar información estructurada bajo la forma documentos de tipo XML.