Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data

La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo n...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autor principal:	Fajardo, Hugo Manuel
Otros Autores:	Hasperué, Waldo
Formato:	Tesis Trabajo de especializacion
Lenguaje:	Español
Publicado:	2023
Materias:	Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka
Acceso en línea:	http://sedici.unlp.edu.ar/handle/10915/155135
Aporte de:	SEDICI (UNLP) de Universidad Nacional de La Plata

id	I19-R120-10915-155135
record_format	dspace
spelling	I19-R120-10915-1551352023-07-08T04:08:34Z http://sedici.unlp.edu.ar/handle/10915/155135 Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data Fajardo, Hugo Manuel 2023-05-09 2023 2023-07-06T13:28:59Z Hasperué, Waldo es Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink. Facultad de Informática Tesis Trabajo de especializacion http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf
institution	Universidad Nacional de La Plata
institution_str	I-19
repository_str	R-120
collection	SEDICI (UNLP)
language	Español
topic	Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka
spellingShingle	Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka Fajardo, Hugo Manuel Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
topic_facet	Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka
description	La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.
author2	Hasperué, Waldo
author_facet	Hasperué, Waldo Fajardo, Hugo Manuel
format	Tesis Trabajo de especializacion
author	Fajardo, Hugo Manuel
author_sort	Fajardo, Hugo Manuel
title	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_short	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_full	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_fullStr	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_full_unstemmed	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_sort	estudio comparativo entre apache spark y apache flink en el procesamiento de streaming en entornos big data
publishDate	2023
url	http://sedici.unlp.edu.ar/handle/10915/155135
work_keys_str_mv	AT fajardohugomanuel estudiocomparativoentreapachesparkyapacheflinkenelprocesamientodestreamingenentornosbigdata
_version_	1771439024630661120

Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data

Ejemplares similares