Predicción de patogenicidad en SNPs usando aprendizaje automático

El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más re...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Langberg, Martín Ezequiel
Otros Autores: Berenstein, Ariel José
Formato: Tesis de grado publishedVersion
Lenguaje:Español
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2019
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/seminario_nCOM000625_Langberg
Aporte de:
id seminario:seminario_nCOM000625_Langberg
record_format dspace
spelling seminario:seminario_nCOM000625_Langberg2025-08-08T16:50:27Z Predicción de patogenicidad en SNPs usando aprendizaje automático Langberg, Martín Ezequiel Berenstein, Ariel José Turjanski, Pablo Guillermo APRENDIZAJE AUTOMATICO BIOINFORMATICA SNPS PATOGENICIDAD GENETICA El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más reducidos y accesibles. En este contexto, resulta de gran importancia la capacidad de identificar polimorfismos de un solo nucleótido (SNPs, por sus siglas en inglés) causales de enfermedades humanas y diferenciarlos respecto de aquellos con efecto inocuo para el organismo. Dada la gran cantidad de SNPs presentes en el genoma humano, esta línea de investigación ha cobrado un marcado interés por parte de la comunidad científica en general, motivando esfuerzos interdisciplinarios, en particular de trabajos que subyacen en la frontera de las ciencias de la computación y las ciencias biológicas. En el presente trabajo, mediante el uso de técnicas de aprendizaje automático supervisado convencionales hemos elaborado un método de predicción de patogenicidad para SNPs en regiones codificantes que resulten en un cambio de aminoácido, normalmente referidas como SNPs con cambio de sentido. Nuestro modelo de clasificación binaria, se basa en las fuentes de Clinvar y Humsavar para clasificar el efecto patogénico de SNPs conocidos, y en distintas fuentes de información para extraer variables que caractericen los SNPs desde distintas aristas biológicas. En particular hemos explorado la importancia relativa y el poder predictivo de variables que den a cuenta del cambio estructural producido por el cambio de aminoácido (variación de energía, superficie de exposición del aminoácido, entre otras), variables de tipo físico-químico (hidrofobicidad, aromaticidad, polaridad, etc) y de conservación a nivel genómico (PhyloP y PhastCons, por ejemplo). Evaluamos la importancia relativa de cada una de estas dimensiones aplicando técnicas clásicas de aprendizaje automático supervisado: Regresión Logística, Support Vector Machines y Random Forest. Finalmente, evaluamos la combinación de las variables con una técnica más avanzada de aprendizaje automático, XGBoost, con el que alcanzamos un AUC de 0.90. Fil: Langberg, Martín Ezequiel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2019 info:eu-repo/semantics/bachelorThesis info:ar-repo/semantics/tesis de grado info:eu-repo/semantics/publishedVersion application/pdf spa info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/seminario_nCOM000625_Langberg
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-134
collection Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA)
language Español
orig_language_str_mv spa
topic APRENDIZAJE AUTOMATICO
BIOINFORMATICA
SNPS
PATOGENICIDAD
GENETICA
spellingShingle APRENDIZAJE AUTOMATICO
BIOINFORMATICA
SNPS
PATOGENICIDAD
GENETICA
Langberg, Martín Ezequiel
Predicción de patogenicidad en SNPs usando aprendizaje automático
topic_facet APRENDIZAJE AUTOMATICO
BIOINFORMATICA
SNPS
PATOGENICIDAD
GENETICA
description El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más reducidos y accesibles. En este contexto, resulta de gran importancia la capacidad de identificar polimorfismos de un solo nucleótido (SNPs, por sus siglas en inglés) causales de enfermedades humanas y diferenciarlos respecto de aquellos con efecto inocuo para el organismo. Dada la gran cantidad de SNPs presentes en el genoma humano, esta línea de investigación ha cobrado un marcado interés por parte de la comunidad científica en general, motivando esfuerzos interdisciplinarios, en particular de trabajos que subyacen en la frontera de las ciencias de la computación y las ciencias biológicas. En el presente trabajo, mediante el uso de técnicas de aprendizaje automático supervisado convencionales hemos elaborado un método de predicción de patogenicidad para SNPs en regiones codificantes que resulten en un cambio de aminoácido, normalmente referidas como SNPs con cambio de sentido. Nuestro modelo de clasificación binaria, se basa en las fuentes de Clinvar y Humsavar para clasificar el efecto patogénico de SNPs conocidos, y en distintas fuentes de información para extraer variables que caractericen los SNPs desde distintas aristas biológicas. En particular hemos explorado la importancia relativa y el poder predictivo de variables que den a cuenta del cambio estructural producido por el cambio de aminoácido (variación de energía, superficie de exposición del aminoácido, entre otras), variables de tipo físico-químico (hidrofobicidad, aromaticidad, polaridad, etc) y de conservación a nivel genómico (PhyloP y PhastCons, por ejemplo). Evaluamos la importancia relativa de cada una de estas dimensiones aplicando técnicas clásicas de aprendizaje automático supervisado: Regresión Logística, Support Vector Machines y Random Forest. Finalmente, evaluamos la combinación de las variables con una técnica más avanzada de aprendizaje automático, XGBoost, con el que alcanzamos un AUC de 0.90.
author2 Berenstein, Ariel José
author_facet Berenstein, Ariel José
Langberg, Martín Ezequiel
format Tesis de grado
Tesis de grado
publishedVersion
author Langberg, Martín Ezequiel
author_sort Langberg, Martín Ezequiel
title Predicción de patogenicidad en SNPs usando aprendizaje automático
title_short Predicción de patogenicidad en SNPs usando aprendizaje automático
title_full Predicción de patogenicidad en SNPs usando aprendizaje automático
title_fullStr Predicción de patogenicidad en SNPs usando aprendizaje automático
title_full_unstemmed Predicción de patogenicidad en SNPs usando aprendizaje automático
title_sort predicción de patogenicidad en snps usando aprendizaje automático
publisher Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate 2019
url https://hdl.handle.net/20.500.12110/seminario_nCOM000625_Langberg
work_keys_str_mv AT langbergmartinezequiel predicciondepatogenicidadensnpsusandoaprendizajeautomatico
_version_ 1843125898119741440