Indexado de Wikipedia a través de una arquitectura Map Reduce

El objetivo de este trabajo de tesis es el desarrollo de un algoritmo que permite generar un índice de caminos entre dos artículos cualesquiera de Wikipedia, lo cual se logró a través de la adaptación de un algoritmo BFS preexistente. Este algoritmo fue desarrollado adaptando Wikipedia para ser proc...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Larroque, José Luis
Otros Autores: Díaz, Alicia
Formato: Tesis Tesis de grado
Lenguaje:Español
Publicado: 2017
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/59677
Aporte de:
Descripción
Sumario:El objetivo de este trabajo de tesis es el desarrollo de un algoritmo que permite generar un índice de caminos entre dos artículos cualesquiera de Wikipedia, lo cual se logró a través de la adaptación de un algoritmo BFS preexistente. Este algoritmo fue desarrollado adaptando Wikipedia para ser procesada como un grafo en Giraph, un framework de procesamiento de grafos utilizado por grandes compañías como Facebook, Twitter, Yahoo, etc. La arquitectura de base utilizada fue Hadoop, a través de su modelo de procesamiento Map Reduce, en el cual Giraph se basa de soporte para la ejecución de algoritmos de procesamiento de grafos. La plataforma de cómputo utilizada para ejecutar este trabajo fue Amazon Web Services, a través de la funcionalidad Elastic Map Reduce. Al ser pago dicho entorno, se usó el mismo a través de una subvención para investigación.