Qwen 3.5 de Alibaba: cómo ejecutar este potente modelo localmente con soporte de 256K contexto

Alibaba lanzó Qwen 3.5, una nueva familia de modelos de lenguaje multimodal que está capturando la atención de la comunidad de IA open-source por su combinación de capacidades: soporte de contexto de 256,000 tokens en 201 idiomas, modo de razonamiento híbrido (thinking/non-thinking), y rendimiento competitivo con modelos de laboratorios occidentales en benchmarks de código, visión y tareas de agentes.

La familia incluye modelos desde 0.8B hasta 397B parámetros. Unsloth, la plataforma especializada en optimización de inferencia local, publicó una guía completa para ejecutar Qwen 3.5 con llama.cpp, incluyendo cuantizaciones dinámicas propias que mantienen menos del 1% de degradación de rendimiento frente al modelo original.

Para hardware de consumo, las referencias son importantes: el modelo 35B-A3B (una arquitectura Mixture of Experts con solo 3B parámetros activos) corre en una Mac o PC con 22GB de RAM/VRAM en cuantización de 4 bits. El 27B corre con 17GB. El pequeño 9B necesita apenas 6.5GB en 4-bit.

El modelo más grande, Qwen 3.5-397B-A17B, está en el mismo tier de rendimiento que Gemini 3 Pro, Claude Opus 4.5 y GPT-5.2 según benchmarks de terceros, y puede ejecutarse en un único Mac M3 Ultra de 256GB.

Para desarrolladores en Latinoamérica, la capacidad multiidioma de Qwen 3.5 con soporte nativo de español entre sus 201 idiomas es un diferenciador real. La posibilidad de correr inferencia local elimina la dependencia de APIs cloud y los costos asociados —una consideración especialmente relevante en mercados donde el acceso a tarjetas de crédito internacionales o la estabilidad del tipo de cambio encarecen el uso de servicios externos.

El ecosistema de herramientas alrededor de Qwen 3.5 ya incluye soporte para LM Studio, OpenAI Codex y Claude Code como frontends.