Moonshot AI introduce Attention Residuals, una mejora novedosa en la arquitectura transformer

Moonshot AI publicó Attention Residuals, un artículo de investigación y repositorio de código que propone modificaciones al mecanismo de atención estándar de los transformers. El trabajo recibió atención significativa en Hacker News con 164 votos, sugiriendo mejoras significativas en cómo los modelos de lenguaje procesan y retienen información entre capas. La técnica agrega conexiones residuales específicamente dentro del cálculo de atención, mejorando potencialmente la estabilidad del entrenamiento.