Areshk Blog

Atención en Memoria Analógica: LLMs más rápidos que en GPU

Los LLMs en la actualidad dependen de la autoatención, en GPUs mover el KV-Cache entre memorias es el mayor cuello de botella de rendimiento, realmente no es el computo. Cuando cada token se reescribe y se lee toma demasiada energia y tiempo.

Un equipo de Jülich/RWTH presenta en un reciente paper una arquitectura de autoatención para Transformers que mueve el cálculo del Kv-cache, usando “gain cells” (memorias analógicas basadas en carga) para almacenarlos y computar los dos productos punto de la atención en el dominio analógico, evitando traslados de datos y ADCs convencionales. El resultado que se obtuvo en simulación, fue reducir hasta 2 órdenes menos de latencia y 5 órdenes menos de energía que en GPUs, en la parte de atención. Los investigradores mapean GPT‑2 a este hardware con un algoritmo de adaptación sin reentrenar desde cero y alcanzan resultados comparables.

¿Por qué es tan rápido?

Modelos:

Resultados que se mostraron en el paper:

Riesgos y realidad

G0pRUlRaMAAZYkK

¡Muchas gracias por leer hasta aqui! El equipo también ha mostrado como hacerlo caseramente, si tienes los recursos y deseas correr el mecanismo de atención de un LLM de manera análoga es momento de que lo intentes :)

Lecturas y recursos

#AI Hardware #Analog #Edge AI #Eficiencia Energética #IA #In-Memory Computing #LLM #Transformers