Funciones de distancia para la clasificación de familias de proteínas
Las proteínas son grandes moléculas compuestas por cadenas de aminoácidos. Una posible abstracción de la estructura de una proteína es a través de una secuencia de caracteres, donde cada aminoácido se corresponde con un caracter. Esta representación se corresponde con lo que se denomina estructura p...
Autor principal: | |
---|---|
Formato: | Tesis de Grado |
Lenguaje: | Español |
Publicado: |
2020
|
Materias: | |
Acceso en línea: | https://hdl.handle.net/20.500.12110/seminario_nCOM000444_Ciraco |
Aporte de: |
id |
todo:seminario_nCOM000444_Ciraco |
---|---|
record_format |
dspace |
spelling |
todo:seminario_nCOM000444_Ciraco2023-10-03T16:48:31Z Funciones de distancia para la clasificación de familias de proteínas Ciraco, Agustina FAMILIAS DE PROTEINAS REPETICIONES MAXIMALES FUNCION DE DISTANCIA TRIE Las proteínas son grandes moléculas compuestas por cadenas de aminoácidos. Una posible abstracción de la estructura de una proteína es a través de una secuencia de caracteres, donde cada aminoácido se corresponde con un caracter. Esta representación se corresponde con lo que se denomina estructura primaria de una proteína. En la naturaleza, existen ciertas proteínas que presentan patrones estructurales recurrentes en su estructura primaria. Estas macromoléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición que las constituyen. Aquellas para las cuales sus patrones de repetición son cortos (menores o iguales a 5 aminoácidos), se denominan fibrilares; para cuyas repeticiones se componen de 6 a 60 aminoácidos se denominan repetitivas; y, finalmente las restantes, se denominan globulares. En el presente trabajo abordamos el desafío de proponer una función de distancia entre familias de proteínas, para su clasificación, a partir de un subconjunto de sus patrones de repetición maximales (Mrs). Como paso previo a la propuesta de una función de distancia, propusimos la estructura de Trie para contener los prefijos de los MRs de las familias de las proteínas. Partiendo de esa estructura exploramos la posibilidad de utilizar algoritmos existentes dentro del campo de las redes de computadoras para la comparación de dichas estructuras. Los resultados obtenidos en esta dirección no fueron exitosos, pues no pudimos encontrar un algoritmo que cumpliera con nuestros requerimientos. A partir del resultado anterior, decidimos proponer una función propia de distancia entre familias de proteínas. Exploramos diversas alternativas, siempre basadas en prefijos de MRs. A todas ellas las pusimos a prueba utilizando como caso de estudio más de 50 familias de proteínas naturales (repetitivas y globulares) y de control. Los resultados obtenidos nos permitieron, en algunas casos, discriminar entre familias de proteínas naturales y de control. Sin embargo, no hemos podido hallar una función que permita agrupar, por un lado familias de proteínas repetitivas, y por el otro globulares. En vista de los resultados obtenidos se puede considerar la posibilidad de que para lograr el objetivo de separar las familias de proteínas globulares de las repetitivas, no alcance solo con los patrones ya que los mismos quizás no posean suficiente información. Tal vez, para poder distinguirlas falte, a modo de ejemplo, información acerca del código de plegado; o quizás sea necesario utilizar otra representación del alfabeto. Queda como línea futura de trabajo pensar alternativas para poder lograr incorporar nueva información. Fil: Ciraco, Agustina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. 2020 Tesis de Grado PDF Español info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/seminario_nCOM000444_Ciraco |
institution |
Universidad de Buenos Aires |
institution_str |
I-28 |
repository_str |
R-134 |
collection |
Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA) |
language |
Español |
orig_language_str_mv |
Español |
topic |
FAMILIAS DE PROTEINAS REPETICIONES MAXIMALES FUNCION DE DISTANCIA TRIE |
spellingShingle |
FAMILIAS DE PROTEINAS REPETICIONES MAXIMALES FUNCION DE DISTANCIA TRIE Ciraco, Agustina Funciones de distancia para la clasificación de familias de proteínas |
topic_facet |
FAMILIAS DE PROTEINAS REPETICIONES MAXIMALES FUNCION DE DISTANCIA TRIE |
description |
Las proteínas son grandes moléculas compuestas por cadenas de aminoácidos. Una posible abstracción de la estructura de una proteína es a través de una secuencia de caracteres, donde cada aminoácido se corresponde con un caracter. Esta representación se corresponde con lo que se denomina estructura primaria de una proteína. En la naturaleza, existen ciertas proteínas que presentan patrones estructurales recurrentes en su estructura primaria. Estas macromoléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición que las constituyen. Aquellas para las cuales sus patrones de repetición son cortos (menores o iguales a 5 aminoácidos), se denominan fibrilares; para cuyas repeticiones se componen de 6 a 60 aminoácidos se denominan repetitivas; y, finalmente las restantes, se denominan globulares. En el presente trabajo abordamos el desafío de proponer una función de distancia entre familias de proteínas, para su clasificación, a partir de un subconjunto de sus patrones de repetición maximales (Mrs). Como paso previo a la propuesta de una función de distancia, propusimos la estructura de Trie para contener los prefijos de los MRs de las familias de las proteínas. Partiendo de esa estructura exploramos la posibilidad de utilizar algoritmos existentes dentro del campo de las redes de computadoras para la comparación de dichas estructuras. Los resultados obtenidos en esta dirección no fueron exitosos, pues no pudimos encontrar un algoritmo que cumpliera con nuestros requerimientos. A partir del resultado anterior, decidimos proponer una función propia de distancia entre familias de proteínas. Exploramos diversas alternativas, siempre basadas en prefijos de MRs. A todas ellas las pusimos a prueba utilizando como caso de estudio más de 50 familias de proteínas naturales (repetitivas y globulares) y de control. Los resultados obtenidos nos permitieron, en algunas casos, discriminar entre familias de proteínas naturales y de control. Sin embargo, no hemos podido hallar una función que permita agrupar, por un lado familias de proteínas repetitivas, y por el otro globulares. En vista de los resultados obtenidos se puede considerar la posibilidad de que para lograr el objetivo de separar las familias de proteínas globulares de las repetitivas, no alcance solo con los patrones ya que los mismos quizás no posean suficiente información. Tal vez, para poder distinguirlas falte, a modo de ejemplo, información acerca del código de plegado; o quizás sea necesario utilizar otra representación del alfabeto. Queda como línea futura de trabajo pensar alternativas para poder lograr incorporar nueva información. |
format |
Tesis de Grado |
author |
Ciraco, Agustina |
author_facet |
Ciraco, Agustina |
author_sort |
Ciraco, Agustina |
title |
Funciones de distancia para la clasificación de familias de proteínas |
title_short |
Funciones de distancia para la clasificación de familias de proteínas |
title_full |
Funciones de distancia para la clasificación de familias de proteínas |
title_fullStr |
Funciones de distancia para la clasificación de familias de proteínas |
title_full_unstemmed |
Funciones de distancia para la clasificación de familias de proteínas |
title_sort |
funciones de distancia para la clasificación de familias de proteínas |
publishDate |
2020 |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000444_Ciraco |
work_keys_str_mv |
AT ciracoagustina funcionesdedistanciaparalaclasificaciondefamiliasdeproteinas |
_version_ |
1807323259686879232 |