SARSA BB: Un algoritmo on policy para Sistemas Clasificadores

El modelo básico de Aprendizaje por Refuerzo (AR) está integrado por un agente y un ambiente que interactúan entre sí. El agente debe, mediante un proceso de prueba y error, aprender a mapear situaciones en acciones intentando, a lo largo del tiempo, maximizar la recompensa que el ambiente le provee...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Errecalde, Marcelo Luis, Garis, Ana Gabriela, Leguizamón, Guillermo
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2002
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/23038
Aporte de:
id I19-R120-10915-23038
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
Sistemas Clasificadores
Algorithms
Aprendizaje por Refuerzo
Learning
Algoritmos on-policy
spellingShingle Ciencias Informáticas
Sistemas Clasificadores
Algorithms
Aprendizaje por Refuerzo
Learning
Algoritmos on-policy
Errecalde, Marcelo Luis
Garis, Ana Gabriela
Leguizamón, Guillermo
SARSA BB: Un algoritmo on policy para Sistemas Clasificadores
topic_facet Ciencias Informáticas
Sistemas Clasificadores
Algorithms
Aprendizaje por Refuerzo
Learning
Algoritmos on-policy
description El modelo básico de Aprendizaje por Refuerzo (AR) está integrado por un agente y un ambiente que interactúan entre sí. El agente debe, mediante un proceso de prueba y error, aprender a mapear situaciones en acciones intentando, a lo largo del tiempo, maximizar la recompensa que el ambiente le provee. El AR caracteriza una clase de problemas de aprendizaje, cuya resolución se ha basado en dos grandes clases de métodos: los Sistemas Clasificadores (SC) y los métodos de diferencia temporal (o métodos TD). El objetivo del presente trabajo es realizar una contribución en la transferencia de experiencias entre SC y métodos TD. Para ello, se presenta un nuevo esquema para la actualización de la fortaleza de las reglas de un Sistema Clasificador, tomando como base el método de TD denominado SARSA. El algoritmo resultante, al que denominamos SARSA BB, tiene varios atributos interesantes: a) su fórmula de actualización se ha demostrado que garantiza la convergencia a una política óptima bajo condiciones particulares; b) no require mayores modificaciones a la forma de actualización estándard utilizada en SC; c) es un algoritmo on-policy y por lo tanto puede tener un mejor desempeño que algoritmos off-policy como Q-Learning, en problemas donde la exploración que efectivamente realiza el agente impacta significativamente en las recompensas recibidas desde el ambiente. Para mostrar este último aspecto, SARSA BB, es comparado con Q-Learning en un problema con estas características.
format Objeto de conferencia
Objeto de conferencia
author Errecalde, Marcelo Luis
Garis, Ana Gabriela
Leguizamón, Guillermo
author_facet Errecalde, Marcelo Luis
Garis, Ana Gabriela
Leguizamón, Guillermo
author_sort Errecalde, Marcelo Luis
title SARSA BB: Un algoritmo on policy para Sistemas Clasificadores
title_short SARSA BB: Un algoritmo on policy para Sistemas Clasificadores
title_full SARSA BB: Un algoritmo on policy para Sistemas Clasificadores
title_fullStr SARSA BB: Un algoritmo on policy para Sistemas Clasificadores
title_full_unstemmed SARSA BB: Un algoritmo on policy para Sistemas Clasificadores
title_sort sarsa bb: un algoritmo on policy para sistemas clasificadores
publishDate 2002
url http://sedici.unlp.edu.ar/handle/10915/23038
work_keys_str_mv AT errecaldemarceloluis sarsabbunalgoritmoonpolicyparasistemasclasificadores
AT garisanagabriela sarsabbunalgoritmoonpolicyparasistemasclasificadores
AT leguizamonguillermo sarsabbunalgoritmoonpolicyparasistemasclasificadores
bdutipo_str Repositorios
_version_ 1764820468005601283