Desarrollo de herramientas para generación de material de entrenamiento y análisis de textos estructurados

En este artículo se describen las herramientas desarrolladas para la investigación sobre técnicas de análisis de textos y minería de datos aplicando métodos y algoritmos de análisis de texto estructurado y no estructurado, estableciendo un conjunto de criterios y seleccionando la mejor alternativa e...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Cardenas, Marina E., Castillo, Julio J., Hernández, Nicolás
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2023
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/163313
Aporte de:
Descripción
Sumario:En este artículo se describen las herramientas desarrolladas para la investigación sobre técnicas de análisis de textos y minería de datos aplicando métodos y algoritmos de análisis de texto estructurado y no estructurado, estableciendo un conjunto de criterios y seleccionando la mejor alternativa en base a los mismos. En este contexto, se describen las herramientas desarrolladas que permiten abordar la problemática de la escasez de material de entrenamiento para el análisis de textos y herramientas que utilizadas para el análisis y procesamientos de grandes volúmenes de textos, con el objetivo de simplificar el trabajo necesario para analizar, crear, y modificar material de entrenamiento para sistemas basados en aprendizaje por computadora, a la vez que permiten ahorrar tiempo, y disminuir errores manuales cuando se trabaja con textos. Este trabajo se encuentra enmarcado dentro de un proyecto de investigación homologado por la Secretaría de Ciencia y Tecnología (SCyT) de la UTN que tiene por objetivo el crear herramientas que permitan analizar grandes volúmenes de datos que se encuentran en forma de archivos de textos estructurados o no estructurados, adecuando la información para su utilización en el entrenamiento de sistemas de análisis de texto. Dentro los archivos a analizar se pueden mencionar los archivos de código fuente de lenguajes de programación como Python, Java, C++ y C, con la reciente incorporación de archivos de word, pdf y txt.