| Parámetro |
Una perilla que el entrenamiento ajustó sola. |
Es la unidad básica del “cerebro”; cuenta cuántas tiene el modelo. |
| Neurona / peso |
Cuatro nombres para la misma perilla. |
No te dejes impresionar por la jerga “neuronal”: es lo mismo. |
| 8B / 14B / 32B |
Miles de millones de perillas (B = mil millones). |
Más B = más cabeza, pero más RAM y más coste. |
| Cuantización Q4 |
Comprimir cada perilla a ~0,5 bytes, como un JPEG. |
Reduce la memoria 4× con calidad casi igual; es el estándar empresa. |
| RAM del modelo |
(parámetros × bytes) + 8 GB de margen. |
Te dice en qué máquina cabe sin pedírselo a nadie. |
| Calidad 8B→32B |
Más grande razona mejor y alucina menos. |
Elige tamaño según el riesgo de la tarea, no por moda. |
| Cloud (Claude / Gemini) |
Gigantes de 500B-1,5B con MoE en datacenters. |
No caben en tu oficina y tus datos viajan a sus servidores. |
| Token |
~4 letras ≈ 0,75 palabras. |
La unidad en la que se mide cuánto texto cabe delante del modelo. |
| Contexto / KV Cache |
La mesa de trabajo; consume RAM aparte, por usuario. |
El coste oculto al dimensionar; multiplícalo por usuarios simultáneos. |