IA local explicada fácil: qué son los parámetros, la cuantización y por qué un modelo cabe en tu

portátil

“8B”, “Q4”, “MoE”, “un millón de tokens de contexto”… el vocabulario de la IA local parece diseñado para que no entiendas nada y firmes lo que te pongan delante. Cada folleto de proveedor viene cargado de siglas, y la sensación es que, o tienes un doctorado en Machine Learning (aprendizaje automático), o aceptas lo que te digan.

No hace falta el doctorado. Hace falta una buena imagen mental. Y la que vamos a usar es una sola, de principio a fin: una máquina de café. Con ella vas a entender qué es un parámetro, por qué un modelo pesa lo que pesa, qué ganas al comprarte uno más grande y por qué los gigantes de la nube no caben en tu oficina (y se llevan tus datos de paseo).

El objetivo es concreto: que cuando tengas que decidir qué modelo y qué máquina comprar para automatizar tu SAP, decidas tú y no el comercial de turno. Vamos a desmontar el vocabulario pieza a pieza.

El parámetro = una perilla

Imagina una máquina de café con millones de perillas diminutas. Cada perilla controla una parte del resultado: la presión, la temperatura, el molido, la cantidad de agua, mil matices más. Gira todas en la posición correcta y sale un café perfecto. Un modelo de inteligencia artificial es exactamente eso: una máquina con millones de perillas, y cada una empuja un poquito el resultado final.

Esas perillas tienen un nombre técnico: parámetros. Y aquí viene lo importante: nadie las ajusta a mano. Sería imposible. Se ajustan solas durante el entrenamiento (training) — un proceso de prueba, error y corrección repetido miles de millones de veces, hasta que las perillas quedan en la posición que da buenos resultados.

¿Buenos resultados para qué, exactamente? Para una tarea que suena mucho más simple de lo que parece: predecir la siguiente palabra. Eso es, en el fondo, todo lo que hace un modelo de lenguaje. Le das un texto y calcula qué palabra viene después, y luego la siguiente, y la siguiente. Toda la “inteligencia” que ves emerge de hacer esa predicción increíblemente bien, con millones de perillas afinadas.

Neuronas y pesos = las mismas perillas

Aquí es donde el vocabulario empieza a multiplicarse y a marear. Vas a oír hablar de “redes neuronales”, de “neuronas”, de “pesos”. Suena místico, suena a cerebro humano, suena a ciencia ficción. No lo es.

Una red neuronal (neural network) es, simplemente, un montón de pequeñas unidades llamadas neuronas artificiales, organizadas en capas y conectadas entre sí. Cada conexión entre dos neuronas tiene un número asociado que mide su fuerza. Ese número se llama peso (weight).

Y ese peso ES una perilla. La misma perilla de la que hablábamos antes. Quédate con esta equivalencia, porque te va a ahorrar mucha confusión:

Peso = parámetro = conexión = perilla. Es la misma idea con cuatro nombres distintos.

Así que cuando leas “este modelo tiene 8.000 millones de parámetros”, traduce mentalmente: este modelo tiene 8.000 millones de perillas. Es, sencillamente, el tamaño del cerebro del modelo.

Un apunte para ponerlo en perspectiva. El cerebro humano tiene del orden de 86.000 millones de neuronas y alrededor de 100 billones de conexiones. Una barbaridad. Y aun así, funciona con unos 20 vatios — menos que una bombilla. Un modelo de IA gigante, en cambio, consume megavatios para hacer mucho menos. La naturaleza nos gana por goleada en eficiencia. Pero esa es otra historia; lo que nos interesa ahora es el tamaño, y el tamaño se mide en perillas.

La letra B (8B/14B/32B) y la regla de la servilleta

Ya tienes la pieza clave. Ahora descifremos la sigla que aparece en el nombre de casi todos los modelos: la letra B.

La B es “billion” en inglés, que son mil millones. Un modelo “8B” tiene 8.000 millones de perillas. Uno “14B”, catorce mil millones. Uno “32B”, treinta y dos mil millones. La regla es directa: más B = cerebro más grande = más memoria RAM necesaria para hacerlo funcionar.

¿Y cuánta memoria? Aquí entra el segundo concepto. Cada perilla tiene que guardarse en algún sitio, y ocupa espacio. En su formato original — llamado FP16 — cada perilla ocupa 2 bytes. Pero hay un truco enorme: podemos guardar versiones comprimidas de esas perillas, y a eso se le llama cuantización (quantization).

Piénsalo como una foto. La foto original, sin comprimir, pesa muchísimo. La misma foto en JPEG pesa una fracción y, a simple vista, se ve casi igual. La cuantización hace eso con las perillas del modelo:

El estándar en empresa es Q4 (también lo verás como INT4). Ocupa cuatro veces menos memoria que el original y la calidad es casi idéntica para el trabajo del día a día. Salvo casos muy exigentes, Q4 es lo que vas a usar.

Con esto ya puedes hacer la cuenta tú mismo, en una servilleta, sin pedírsela a nadie. La fórmula es:

RAM ≈ (miles de millones de parámetros × bytes por parámetro) + 8 GB de margen

Ese margen de 8 GB es el colchón para el sistema operativo y el funcionamiento normal. Apliquémosla a los tres tamaños habituales, todos en Q4 (0,5 bytes por perilla):

Fíjate en lo que esto significa: un modelo de 14B cuantizado cabe en un portátil decente. No necesitas un datacenter. Necesitas, más o menos, una máquina de gama media-alta como la que muchos equipos ya tienen.

8B vs 32B: qué ganas al agrandar el cerebro

Si un 8B ya cabe casi en cualquier sitio, ¿para qué querrías un 32B? Volvamos a la máquina de café: más perillas significa más matices que la máquina puede controlar. En la práctica, agrandar el cerebro te da cuatro cosas:

Ahora bien — y esto es lo que el folleto no te cuenta — más grande no siempre gana. Un 8B rápido te sobra para clasificar correos, extraer cuatro datos de un albarán o etiquetar tickets. Para eso, montar un 32B es como usar un camión para ir a por el pan: caro y lento sin necesidad. Reserva el cerebro grande para lo que de verdad necesita cabeza.

En el mundo SAP esto deja de ser una cuestión de gusto. Si un modelo se equivoca al procesar una factura o al crear un pedido, las consecuencias pueden ser legales. El EU AI Act (Reglamento (UE) 2024/1689) ya regula el uso de IA según el riesgo. Por eso, elegir el tamaño del modelo en un proceso SAP es una decisión de riesgo, no una moda. Tú decides cuánta cabeza necesita cada tarea, y dimensionas en consecuencia.

Los gigantes de la nube no caben en tu oficina (y por eso tus datos viajan)

Habrás oído nombres como Claude Opus o Gemini Pro y los habrás visto hacer cosas asombrosas. ¿Por qué no te los instalas y ya está? Por una razón física: no caben.

Estos gigantes manejan, según se estima, de 500.000 millones (500B) a más de 1,5 billones de parámetros. Compáralo con los 8B o 32B de antes y verás la diferencia de escala. Además, suelen usar una arquitectura llamada Mixture of Experts (mezcla de expertos), o MoE: en lugar de un solo cerebro gigante, son muchos cerebros especialistas con un “director” que, ante cada pregunta, despierta solo a los expertos que hacen falta. Eficiente, pero igualmente enorme.

Para mover algo así necesitas clústeres de decenas de GPUs empresariales — las Nvidia H100 y similares — y varios terabytes de memoria. Eso no vive en tu oficina: vive en los datacenters de Google, Amazon o Microsoft. Y aquí está la consecuencia que importa al CISO y al DPO: cuando usas uno de estos modelos, tu pregunta y tus datos viajan a sus servidores para ser procesados. Salen de tu edificio.

La sorpresa agradable es que, para la mayoría de tareas SAP, no necesitas un Opus. Un Qwen 3 de 14B a 32B corriendo en tu propia oficina clasifica, extrae, resume y razona de sobra para el trabajo real — y lo hace sin que un solo dato cruce la puerta. Cabe en tu máquina, según la cuenta de la servilleta de antes, y se queda en casa.

El contexto y “1 millón de tokens” = la mesa de trabajo

Falta la última sigla, y es la que más confusión genera porque parece otra forma de medir el cerebro. No lo es. Aquí hay que distinguir dos memorias distintas:

  • Lo que el modelo sabe: son sus parámetros, las perillas. Es fijo, viene de fábrica con el entrenamiento.
  • Lo que el modelo puede tener delante en una conversación: es el contexto (context), su memoria a corto plazo, lo que está mirando ahora mismo mientras te responde.

Vuelve a la metáfora, con un giro. El modelo es un trabajador experto: su formación es lo que estudió (los parámetros), y la lleva siempre consigo. El contexto es su mesa de trabajo: los papeles que tiene abiertos en este preciso momento.

El contexto se mide en tokens. Un token es un trozo de palabra: más o menos 4 letras, o unas 0,75 palabras. Cuando un proveedor presume de “1 millón de tokens de contexto”, traduce: 1M tokens ≈ 750.000 palabras ≈ 15 novelas. Es poder ponerle delante un contrato entero, con todos sus anexos y su histórico, de una sola vez.

Suena maravilloso, pero tiene un coste que casi nadie menciona: el contexto consume RAM aparte del modelo. Esa memoria a corto plazo se guarda en una zona llamada KV Cache (caché de claves y valores), y crece con el tamaño de la conversación. Los órdenes de magnitud, redondeando:

Y atención: eso es por cada usuario y por cada conversación larga. Si diez personas usan el sistema a la vez con conversaciones extensas, multiplicas.

De ahí la regla de oro para comprar máquina. Dimensionar el hardware no es solo mirar lo que pesa el modelo. Es:

peso del modelo + coste del contexto × usuarios simultáneos

Olvidarte del segundo y tercer factor es el error más caro al planificar una instalación de IA local.

Tabla-resumen final (tu chuleta)

Guárdate esta tabla. Es todo lo anterior en una pantalla, lista para llevar a una reunión con un proveedor:

Analogía de cierre

Quédate con la imagen completa, porque resume toda la decisión de compra. El modelo, con sus parámetros, es tu formación: lo que estudiaste, lo que sabes, y va contigo a todas partes. El contexto es tu mesa de trabajo: los papeles que tienes abiertos en este momento concreto.

Una mesa más grande te deja tener más documentos a la vista a la vez — muy útil — pero ocupa más sitio en el despacho. Una formación enorme te hace más capaz, pero también más caro de mantener. Y una oficina con un trabajador hiperformado sentado en una mesa gigantesca es, sencillamente, una oficina cara.

Tu trabajo no es comprar la formación más grande ni la mesa más amplia. Es elegir la combinación justa para el trabajo que de verdad tienes que hacer.

Conclusión

No necesitas un doctorado en Machine Learning para decidir bien. Necesitas saber tres cosas: que un modelo de 14B cuantizado cabe en un portátil decente, que resuelve más o menos el 90% de tus casos SAP, y que nunca saca un dato de tu edificio. Con eso decides tú, y no el folleto del proveedor.

IMAGNE FINAL

Fuentes

  • Ollama — librería de modelos y cuantización
  • Qwen 3 (Alibaba)
  • Hugging Face — quantization
  • Hugging Face — Mixture of Experts
  • Hugging Face — attention / KV cache
  • EU AI Act (Reglamento (UE) 2024/1689)

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *