Imagina un asistente de IA que lee tus facturas, clasifica tus correos de proveedor y consulta tu S/4HANA en lenguaje natural sin que un solo byte salga de tu red. Sin un equipo de Machine Learning (aprendizaje automático) de veinte personas. Sin enviar el maestro de materiales a un endpoint en otro continente. Sin una factura mensual que crece con cada llamada.
Durante años, esa frase sonaba a fantasía o a proyecto de I+D de seis meses con presupuesto de seis cifras. Hoy es otra cosa. Bastan dos piezas de software open source (código abierto) y una máquina decente para tenerlo funcionando.
Este artículo no es un manifiesto sobre la soberanía del dato. Es el “cómo”: la arquitectura práctica de IA local sobre SAP, los modelos que conviene elegir en 2026, el hardware real que necesitas y un ejemplo de workflow (flujo de trabajo) que puedes replicar. Con los hallazgos honestos que salieron al montarlo, incluidos los que no funcionaron a la primera.
Si trabajas con SAP y la palabra “IA” te genera más dudas de cumplimiento que entusiasmo, sigue leyendo. La barrera que creías técnica resulta ser otra cosa.
Contenido
Las dos piezas
Toda la arquitectura se apoya en dos componentes. Ninguno requiere licencia de pago para empezar, y ambos corren dentro de tu perímetro.
Ollama: el motor de IA en tu hardware
Ollama es un runtime (motor de ejecución) de modelos de lenguaje que funciona en local. Descargas un modelo, lo arrancas y expone una API REST en tu propia máquina. Esa API es compatible con la API de OpenAI, así que cualquier herramienta que ya hable ese dialecto funciona apuntando a localhost en lugar de a la nube.
Tiene imagen Docker oficial, una curva de aprendizaje plana y se ha convertido en el estándar de facto para IA local en la empresa media. La idea clave: el modelo se ejecuta en tu hardware. La factura que le pasas, el correo del proveedor, el JSON del pedido… nada de eso viaja fuera. El dato se queda donde nació.
n8n: el orquestador que pega todo
n8n es un orquestador low-code (de bajo código), open source y self-hosted (autoalojado). Más de 400 integraciones listas para usar y un editor visual donde construyes flujos arrastrando nodos. Es la pieza que conecta tu SAP, Ollama y el resto de tu stack corporativo.
Y no es un actor menor en el ecosistema SAP. Desde SAP TechEd 2025, n8n es partner oficial de SAP: Joule Studio integrará workflows de n8n. Lo que hasta ayer era “una herramienta de automatización más” pasa a tener un asiento en la mesa de la integración empresarial SAP.
En esta arquitectura, n8n es el pegamento. Habla con SAP por un lado, con Ollama por otro y distribuye el resultado a tu stack.
La arquitectura en una frase
Todo el diseño cabe en una línea. SAP entrega datos por OData, n8n orquesta el proceso y Ollama ejecuta el modelo de lenguaje. Y todo ocurre on-premise (en tus instalaciones).
El dato sale de SAP, pasa por n8n, lo procesa el modelo local y vuelve transformado: un resumen, una clasificación, una decisión. Ningún byte cruza tu cortafuegos hacia un proveedor externo.
Qué modelo elegir en 2026
Ollama ejecuta el modelo, pero no elige por ti. El panorama de modelos abiertos en 2026 es amplio y cada familia tiene su perfil. Esta es la comparativa que manejamos en el taller.
La recomendación del taller es clara: Qwen 3. Por tres motivos que se acumulan. La licencia Apache 2.0 te deja usarlo en producción sin sustos legales, es multilingüe de serie (clave si tus correos de proveedor van en varios idiomas) y su function calling (llamada a funciones) es fiable, que es justo lo que necesitas para dar el salto de “chatbot” a “agente”.
Hardware sin mitos
Aquí es donde suelen aparecer los miedos infundados. “Para IA local necesitas un centro de datos.” No. El factor que manda es la memoria (RAM o VRAM), porque el modelo tiene que caber en ella. Lo demás escala con el número de usuarios concurrentes.
El equipo de demo que usamos en el taller es un Mac Studio M3 Ultra de 192 GB, unos 7.000 €. Una sola máquina, sin rack, sin refrigeración especial, capaz de mover modelos grandes con holgura. Un apunte de actualidad: esa configuración de 192 GB se descontinuó en marzo de 2026 por la escasez global de memoria, y hoy el Mac Studio con M3 Ultra se configura hasta 96 GB (desde unos 3.999 USD); el M3 Ultra sigue siendo el chip tope de gama (no existe un M4 Ultra).
Compara esos números con el coste recurrente de una API en la nube a escala empresarial, súmale que el dato nunca sale, y la cuenta cambia de signo. La inversión es de capital, no una sangría mensual.
Ejemplo concreto: resumen inteligente de un pedido de compra
Vamos al caso práctico. Queremos que, dado un Purchase Order (pedido de compra) en SAP, el sistema genere un resumen en lenguaje natural y señale posibles riesgos, y lo distribuya por Outlook o Teams. Todo con un modelo local.
El corazón está en el paso 3. Así de aproximada es la llamada a Ollama:
POST http://localhost:11434/api/chat
{
“model”: “qwen3”,
“messages”: [
{
“role”: “user”,
“content”: “Resume este pedido de compra y señala riesgos: <json del pedido>”
}
],
“stream”: false,
“format”: “json”
}
Cada parte cuenta:
- POST http://localhost:11434/api/chat — el endpoint de chat de Ollama. Ese localhost es la clave de todo: el modelo está en tu máquina.
- model — qué modelo usar. Aquí qwen3, el que ya descargaste.
- messages — la conversación. En content metes la instrucción y, embebido, el JSON del pedido que vino del nodo SAP OData.
- stream: false — pides la respuesta completa de una vez, no troceada token a token. Más cómodo de procesar en un workflow.
- format: “json” — fuerzas a que el modelo devuelva JSON estructurado. Esto, además de darte una salida limpia para los siguientes nodos, acelera la respuesta porque acota lo que el modelo puede generar.
Hallazgos reales del taller
Aquí va el valor honesto, lo que solo se aprende montándolo de verdad. No todos los modelos se comportan igual, y elegir mal te puede dejar un agente lento o directamente roto.
Dos lecciones concretas:
- Para function calling, prioriza velocidad y fiabilidad. qwen2.5:7b ocupa unos 4,7 GB y responde en torno a 20 segundos. Es el candidato ideal para ser el cerebro de un agente que tiene que decidir y actuar rápido.
- Si usas un modelo grande, ajusta el timeout. qwen3:30b tiene arquitectura MoE (Mixture of Experts, mezcla de expertos), ocupa unos 18 GB y razona mejor, pero en una instancia compartida tarda entre 75 y 134 segundos. Sube el timeout del nodo HTTP Request a 300000 ms (cinco minutos) para que no se corte, y usa “format”: “json” para acotar la salida y acelerarla.
Y el aviso más importante, que cuesta caro descubrir solo:
Los modelos “thinking” (de razonamiento) pueden romper el tool calling. qwen3:30b emite su razonamiento en un campo thinking aparte, y ese comportamiento puede interferir con la llamada a herramientas. Para agentes que usan herramientas, elige como cerebro un modelo sin thinking, como qwen2.5. El modelo que razona en voz alta es estupendo para análisis, pésimo como controlador de un agente.
Function calling: el salto a agente
Hasta aquí hemos hecho que un modelo lea y resuma. El salto cualitativo llega con el function calling: el modelo deja de solo responder y empieza a decidir y actuar.
La idea es esta. En lugar de programar tú la secuencia, n8n expone cada operación SAP como una tool (herramienta): una para listar pedidos, otra para crear un pedido, otra para consultar un proveedor. El modelo local recibe la petición del usuario (“créame un pedido para el material X al proveedor Y”) y decide qué herramienta usar y con qué parámetros. n8n ejecuta esa herramienta contra SAP y le devuelve el resultado al modelo.
El resultado es un agente que conversa con tu SAP en lenguaje natural, razonando qué acción tomar en cada momento. Y todo el razonamiento ocurre en local, sin que la pregunta del usuario ni la respuesta de SAP salgan de tu red.
Buenas prácticas
Montar esto en una tarde es posible. Montarlo bien requiere disciplina. Cuatro reglas que aplicamos siempre:
Conclusión
La IA soberana dejó de ser un proyecto de I+D de seis meses. Hoy es un docker compose up, un modelo descargado y una tarde de n8n. Las piezas son open source, el hardware cabe en una mesa y la arquitectura cabe en una frase.
La barrera ya no es técnica. Tampoco es económica. La única barrera que queda es decidir empezar.
Fuentes
- Ollama — Documentación oficial (ollama.com)
- n8n — Documentación oficial (docs.n8n.io)
- Qwen 3 — Anuncio y documentación (qwenlm.github.io)
- Nodo n8n-nodes-sap-odata — avanai SAP Connect
- SAP + n8n — Anuncio de partnership en SAP TechEd 2025

