Un nuevo proyecto open-source llamado Flash-MoE ganó 113 votos en Hacker News por demostrar cómo ejecutar un modelo de 397 mil millones de parámetros en un Mac con solo 48GB de RAM. La técnica usa enrutamiento eficiente de expertos y pesos mapeados en memoria para cargar solo los expertos activos necesarios. Este avance hace accesibles los modelos de IA de vanguardia sin costosas instancias GPU en la nube.