Hallazgos reales del taller: qué modelo local usar como cerebro de agente

qwen2.5:7b ~4,7 GB ~20 s

El cerebro de agente ideal

Rápido y fiable para function calling. Para un agente que decide y actúa, prioriza velocidad y fiabilidad sobre tamaño.

qwen3:30b ~18 GB · MoE 75–134 s

Razona mejor, pero lento

En instancia compartida tarda minutos: sube el timeout del nodo HTTP Request a 300.000 ms para que no se corte.

Aviso crítico

Los modelos "thinking" rompen el tool calling

El razonamiento en campo aparte interfiere con la llamada a herramientas. Como controlador de agente, elige un modelo sin thinking, como qwen2.5.

Truco de rendimiento

"format": "json" acota y acelera

Forzar salida JSON da una respuesta limpia para los siguientes nodos y acelera la generación al acotar lo que el modelo puede emitir.