Predicción de patogenicidad en SNPs usando aprendizaje automático
El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más re...
Guardado en:
| Autor principal: | |
|---|---|
| Otros Autores: | |
| Formato: | Tesis de grado publishedVersion |
| Lenguaje: | Español |
| Publicado: |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
2019
|
| Materias: | |
| Acceso en línea: | https://hdl.handle.net/20.500.12110/seminario_nCOM000625_Langberg |
| Aporte de: |
| id |
seminario:seminario_nCOM000625_Langberg |
|---|---|
| record_format |
dspace |
| spelling |
seminario:seminario_nCOM000625_Langberg2025-08-08T16:50:27Z Predicción de patogenicidad en SNPs usando aprendizaje automático Langberg, Martín Ezequiel Berenstein, Ariel José Turjanski, Pablo Guillermo APRENDIZAJE AUTOMATICO BIOINFORMATICA SNPS PATOGENICIDAD GENETICA El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más reducidos y accesibles. En este contexto, resulta de gran importancia la capacidad de identificar polimorfismos de un solo nucleótido (SNPs, por sus siglas en inglés) causales de enfermedades humanas y diferenciarlos respecto de aquellos con efecto inocuo para el organismo. Dada la gran cantidad de SNPs presentes en el genoma humano, esta línea de investigación ha cobrado un marcado interés por parte de la comunidad científica en general, motivando esfuerzos interdisciplinarios, en particular de trabajos que subyacen en la frontera de las ciencias de la computación y las ciencias biológicas. En el presente trabajo, mediante el uso de técnicas de aprendizaje automático supervisado convencionales hemos elaborado un método de predicción de patogenicidad para SNPs en regiones codificantes que resulten en un cambio de aminoácido, normalmente referidas como SNPs con cambio de sentido. Nuestro modelo de clasificación binaria, se basa en las fuentes de Clinvar y Humsavar para clasificar el efecto patogénico de SNPs conocidos, y en distintas fuentes de información para extraer variables que caractericen los SNPs desde distintas aristas biológicas. En particular hemos explorado la importancia relativa y el poder predictivo de variables que den a cuenta del cambio estructural producido por el cambio de aminoácido (variación de energía, superficie de exposición del aminoácido, entre otras), variables de tipo físico-químico (hidrofobicidad, aromaticidad, polaridad, etc) y de conservación a nivel genómico (PhyloP y PhastCons, por ejemplo). Evaluamos la importancia relativa de cada una de estas dimensiones aplicando técnicas clásicas de aprendizaje automático supervisado: Regresión Logística, Support Vector Machines y Random Forest. Finalmente, evaluamos la combinación de las variables con una técnica más avanzada de aprendizaje automático, XGBoost, con el que alcanzamos un AUC de 0.90. Fil: Langberg, Martín Ezequiel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2019 info:eu-repo/semantics/bachelorThesis info:ar-repo/semantics/tesis de grado info:eu-repo/semantics/publishedVersion application/pdf spa info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/seminario_nCOM000625_Langberg |
| institution |
Universidad de Buenos Aires |
| institution_str |
I-28 |
| repository_str |
R-134 |
| collection |
Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA) |
| language |
Español |
| orig_language_str_mv |
spa |
| topic |
APRENDIZAJE AUTOMATICO BIOINFORMATICA SNPS PATOGENICIDAD GENETICA |
| spellingShingle |
APRENDIZAJE AUTOMATICO BIOINFORMATICA SNPS PATOGENICIDAD GENETICA Langberg, Martín Ezequiel Predicción de patogenicidad en SNPs usando aprendizaje automático |
| topic_facet |
APRENDIZAJE AUTOMATICO BIOINFORMATICA SNPS PATOGENICIDAD GENETICA |
| description |
El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permiten el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más reducidos y accesibles. En este contexto, resulta de gran importancia la capacidad de identificar polimorfismos de un solo nucleótido (SNPs, por sus siglas en inglés) causales de enfermedades humanas y diferenciarlos respecto de aquellos con efecto inocuo para el organismo. Dada la gran cantidad de SNPs presentes en el genoma humano, esta línea de investigación ha cobrado un marcado interés por parte de la comunidad científica en general, motivando esfuerzos interdisciplinarios, en particular de trabajos que subyacen en la frontera de las ciencias de la computación y las ciencias biológicas. En el presente trabajo, mediante el uso de técnicas de aprendizaje automático supervisado convencionales hemos elaborado un método de predicción de patogenicidad para SNPs en regiones codificantes que resulten en un cambio de aminoácido, normalmente referidas como SNPs con cambio de sentido. Nuestro modelo de clasificación binaria, se basa en las fuentes de Clinvar y Humsavar para clasificar el efecto patogénico de SNPs conocidos, y en distintas fuentes de información para extraer variables que caractericen los SNPs desde distintas aristas biológicas. En particular hemos explorado la importancia relativa y el poder predictivo de variables que den a cuenta del cambio estructural producido por el cambio de aminoácido (variación de energía, superficie de exposición del aminoácido, entre otras), variables de tipo físico-químico (hidrofobicidad, aromaticidad, polaridad, etc) y de conservación a nivel genómico (PhyloP y PhastCons, por ejemplo). Evaluamos la importancia relativa de cada una de estas dimensiones aplicando técnicas clásicas de aprendizaje automático supervisado: Regresión Logística, Support Vector Machines y Random Forest. Finalmente, evaluamos la combinación de las variables con una técnica más avanzada de aprendizaje automático, XGBoost, con el que alcanzamos un AUC de 0.90. |
| author2 |
Berenstein, Ariel José |
| author_facet |
Berenstein, Ariel José Langberg, Martín Ezequiel |
| format |
Tesis de grado Tesis de grado publishedVersion |
| author |
Langberg, Martín Ezequiel |
| author_sort |
Langberg, Martín Ezequiel |
| title |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
| title_short |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
| title_full |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
| title_fullStr |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
| title_full_unstemmed |
Predicción de patogenicidad en SNPs usando aprendizaje automático |
| title_sort |
predicción de patogenicidad en snps usando aprendizaje automático |
| publisher |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| publishDate |
2019 |
| url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000625_Langberg |
| work_keys_str_mv |
AT langbergmartinezequiel predicciondepatogenicidadensnpsusandoaprendizajeautomatico |
| _version_ |
1843125898119741440 |