Lessons learned from contrasting a BLAS kernel implementations
This work reviews the experience of implementing different versions of the SSPR rank-one update operation of the BLAS library. The main objective was to contrast CPU versus GPU implementation effort and complexity of an optimized BLAS routine, not considering performance. This work contributes with...
Guardado en:
| Autor principal: | More, Andres |
|---|---|
| Formato: | Objeto de conferencia |
| Lenguaje: | Inglés |
| Publicado: |
2013
|
| Materias: | |
| Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/31702 |
| Aporte de: |
Ejemplares similares
-
A Study of Hardware Performance Counters Selection for Cross Architectural GPU Power Modeling
por: Pi Puig, Martín, et al.
Publicado: (2019) -
Evaluación de performance en Redes Definidas por Software para
Centro de Datos : Hipótesis de Trabajo
por: Bolatti, Diego, et al.
Publicado: (2016) -
An Optimization-based Tool to Support the cost-effective Production of Software Architecture Documentation
por: Nicoletti, Matías, et al.
Publicado: (2016) -
Automatic mapping tasks to cores : Evaluating AMTHA Algorithm in multicore architectures
por: De Giusti, Laura Cristina, et al.
Publicado: (2009) -
Localización de errores dirigida por la arquitectura en sistemas basados en eventos
por: Soria, Alvaro
Publicado: (2003)