Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings

Tesis (Lic. en Física)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.

Guardado en:
Detalles Bibliográficos
Autor principal: Tejerina, Maximiliano Ezequiel
Otros Autores: Domínguez, Martín Ariel
Formato: bachelorThesis
Lenguaje:Español
Publicado: 2023
Materias:
Acceso en línea:http://hdl.handle.net/11086/549596
Aporte de:
id I10-R141-11086-549596
record_format dspace
institution Universidad Nacional de Córdoba
institution_str I-10
repository_str R-141
collection Repositorio Digital Universitario (UNC)
language Español
topic Reforma laboral
Tópicos de diarios
Distancia euclidiana de dos diarios
LDA sobre diarios
Embeddings de diarios
Latent Dirichlet allocation
Word embeddings
spellingShingle Reforma laboral
Tópicos de diarios
Distancia euclidiana de dos diarios
LDA sobre diarios
Embeddings de diarios
Latent Dirichlet allocation
Word embeddings
Tejerina, Maximiliano Ezequiel
Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
topic_facet Reforma laboral
Tópicos de diarios
Distancia euclidiana de dos diarios
LDA sobre diarios
Embeddings de diarios
Latent Dirichlet allocation
Word embeddings
description Tesis (Lic. en Física)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.
author2 Domínguez, Martín Ariel
author_facet Domínguez, Martín Ariel
Tejerina, Maximiliano Ezequiel
format bachelorThesis
author Tejerina, Maximiliano Ezequiel
author_sort Tejerina, Maximiliano Ezequiel
title Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title_short Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title_full Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title_fullStr Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title_full_unstemmed Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
title_sort análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings
publishDate 2023
url http://hdl.handle.net/11086/549596
work_keys_str_mv AT tejerinamaximilianoezequiel analisiscronologicodeopinionendiariosutilizandoextracciondetopicosywordembeddings
_version_ 1806949373023617024
spelling I10-R141-11086-5495962023-10-24T06:33:32Z Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings Tejerina, Maximiliano Ezequiel Domínguez, Martín Ariel Matta, Andrés Reforma laboral Tópicos de diarios Distancia euclidiana de dos diarios LDA sobre diarios Embeddings de diarios Latent Dirichlet allocation Word embeddings Tesis (Lic. en Física)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022. Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina. Este trabajo tiene como objetivo el análisis del discurso de dos diarios argentinos La Nación y Página 12, intentando capturar el comportamiento de dos editoriales con opiniones políticas antagónicas. Para lograr el análisis se recopilaron notas periodísticas de ambas fuentes, que traten el tema de la “Reforma Laboral”, desde el año 1995 al 2021. Con este conjunto de artículos, se separó en períodos presidenciales, y se utilizaron herramientas de extracción de temas, para analizar la manera en que cada editorial trata el tema elegido. Adicionalmente, se utilizaron técnicas de “word embeddings” para analizar la distancia entre ambos discursos en los diferentes períodos temporales.. Para llevar a cabo la tarea, se evaluaron tres modelos de aprendizaje automático con múltiples configuraciones, con el objetivo de encontrar así el mejor rendimiento. En este sentido, en una primera instancia, con técnicas de Procesamiento de Lenguaje Natural aplicadas sobre el contenido de los artículos, se capturó la tematización y limpieza del texto. En una segunda instancia se logró inferir un modelo LDA (Latent Dirichlet Allocation) en dos librerías de python. Luego, construimos los “word embeddings” utilizando Fasttext para poder obtener las distancias entre las opiniones de ambos diarios. Del análisis de los resultados obtenidos por LDA para la detección de tópicos se concluyó que, debido a la tipología de los artículos, los resultados no eran satisfactorios. Para solucionar este problema, se exploró otra técnica, Top2Vec. Los resultados obtenidos con esta nueva técnica, fueron satisfactorios, y permitieron identificar algunas particularidades en el tratamiento de las temáticas en cada periódico, las que pueden ser asociadas a agendas y marcos interpretativos diferentes. This work aims to analyze the discourse of two Argentine newspapers La Nación and Página 12, trying to capture the behavior of two editorials with antagonistic political opinions. To achieve the analysis, journalistic notes from both sources were compiled, which deal with the issue of the "Labor Reform", from the year 1995 to 2021. With this set of articles, it was separated into presidential periods, and topic extraction tools were used to analyze the way in which each editorial deals with the chosen topic. Additionally, "word embeddings" techniques were used to analyze the distance between both discourses in the different time periods. To carry out the task, three machine learning models with multiple configurations were evaluated, with the aim of finding the best performance. In this sense, in the first instance, with Natural Language Processing techniques applied to the content of the articles, the thematization and cleanliness of the text was captured. In a second instance, it was possible to infer an LDA (Latent Dirichlet Allocation) model in two python libraries, Then, we build the "word embeddings" using Fasttext in order to obtain the distances between the opinions of both newspapers. From the analysis of the results obtained by LDA for the detection of topics, it was concluded that, due to the type of articles, the results were not satisfactory. To solve this problem, another technique, Top2Vec, was explored. The results obtained with this new technique were satisfactory, and allowed to identify some particularities in the treatment of the themes in each newspaper, which can be associated with different agendas and interpretive frameworks. Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina. 2023-10-23T13:44:16Z 2023-10-23T13:44:16Z 2023 bachelorThesis http://hdl.handle.net/11086/549596 spa Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/