LLaMA 3 en tu PC
RAM, GPU, VRAM y CPU — todo lo que necesitas saber antes de descargar el modelo. Tabla completa por versión con recomendaciones reales.
Selecciona tu hardware y te digo qué modelos LLaMA funcionan en tu máquina
La RAM del sistema (no la VRAM de la GPU). En Windows: clic derecho en "Este equipo" → Propiedades. En Mac: Apple → Acerca de este Mac.
En Windows: Administrador de tareas → Rendimiento → GPU. En Mac: si tiene chip M (Apple Silicon) selecciona la última opción.
Todos los modelos de la familia LLaMA 3, con sus requisitos mínimos y recomendados. La columna "velocidad sin GPU" indica si es usable en CPU pura para trabajo real.
| Modelo | Peso disco | RAM mín. | VRAM ideal | Sin GPU | Para qué sirve |
|---|---|---|---|---|---|
| LLaMA 3.2 1B | ~0.8 GB | 4 GB | 4 GB | ✅ Rápido | Pruebas, dispositivos limitados. Calidad básica. |
| LLaMA 3.2 3B | ~2 GB | 8 GB | 4–6 GB | ✅ Usable | Punto de entrada recomendado. Bueno para texto sencillo en español. |
| LLaMA 3.1 8B ⭐ | ~5 GB | 16 GB | 8 GB | ⚠️ Lento | Punto dulce. Calidad comparable a ChatGPT gratuito para escritura y análisis. |
| LLaMA 3.1 13B | ~8 GB | 16 GB | 12 GB | ❌ Muy lento | Salto cualitativo en razonamiento. Necesita GPU para ser práctico. |
| LLaMA 3.1 70B | ~40 GB | 32 GB | 2× GPU 24 GB | ❌ Impracticable | Calidad cercana a GPT-4. En Mac M-series con 32GB funciona bien. |
| LLaMA 3.3 70B | ~42 GB | 32 GB | 2× GPU 24 GB | ❌ Impracticable | Última versión del 70B. Mismos requisitos, mejoras incrementales. |
La confusión más común al buscar requisitos para IA local. RAM es la memoria del sistema (la que usa tu CPU). VRAM es la memoria de la GPU (tarjeta gráfica). Para Ollama, ambas sirven para cargar el modelo, pero con resultados muy distintos en velocidad.
Cuando el modelo cabe completamente en VRAM, la GPU lo procesa en paralelo y la generación es rápida — entre 20 y 80 tokens por segundo dependiendo de la GPU. Cuando el modelo no cabe en VRAM y se carga en RAM del sistema, la CPU lo procesa secuencialmente y la velocidad cae a 2–8 tokens por segundo. Funciona, pero para uso intensivo resulta lento.
La excepción importante son los Mac con chip M (Apple Silicon). Usan memoria unificada — la misma RAM sirve para CPU y GPU, y el chip M accede a ella con un ancho de banda muy superior al de un PC convencional. Por eso un Mac Mini M4 con 16GB corre LLaMA 8B más rápido que un PC con 16GB de RAM y sin GPU dedicada.
Ollama descarga automáticamente versiones cuantizadas de los modelos. La cuantización reduce la precisión de los pesos (de 32 bits a 4–8 bits) para que el modelo ocupe menos espacio y RAM, con una pérdida de calidad muy pequeña. Por defecto Ollama elige la cuantización Q4_K_M, que es el punto óptimo entre tamaño y calidad.
Si tienes poca RAM, puedes forzar versiones más ligeras con sufijo como :q4_0 o :q2_K. Cuanto menor el número, menor calidad pero también menores requisitos. Para la mayoría de usuarios, el valor por defecto es el correcto.
Si estás pensando en actualizar hardware o comprar un equipo dedicado para IA local, estas son las configuraciones que tienen más sentido según lo que quieres correr:
Estos son los equipos que recomiendo según tu caso. Si buscas un servidor dedicado de IA para casa, los mini PCs son la mejor opción. Si quieres la máxima velocidad en generación de imágenes y texto, las RTX son imprescindibles.
UM773 Lite 32GB
32GB DDR5, Ryzen 7 7735HS, GPU Radeon integrada. Corre LLaMA 8B muy bien. Sin GPU NVIDIA externa, pero perfecto como servidor 24/7 silencioso.
Mini M4 16GB
Memoria unificada — la RAM actúa como VRAM. LLaMA 70B funciona sorprendentemente bien. 20W de consumo, sin ventilador, chip M4 de última generación.
Super 12GB
12GB VRAM CUDA — corre LLaMA 8B y 13B a máxima velocidad. FLUX Dev y Stable Diffusion en segundos. La mejor relación precio/rendimiento para IA local.
Super 16GB
16GB VRAM — el salto definitivo. Corre LLaMA 13B entero en VRAM a máxima velocidad. FLUX y Stable Diffusion con tiempos de generación profesionales.