IA Local · Hardware
Requisitos para correr
LLaMA 3 en tu PC

RAM, GPU, VRAM y CPU — todo lo que necesitas saber antes de descargar el modelo. Tabla completa por versión con recomendaciones reales.

📊 Tabla completa por modelo 🎮 CPU y GPU incluidas 💡 Sin GPU también funciona
¿Qué modelo puedes correr tú?

Selecciona tu hardware y te digo qué modelos LLaMA funcionan en tu máquina

La RAM del sistema (no la VRAM de la GPU). En Windows: clic derecho en "Este equipo" → Propiedades. En Mac: Apple → Acerca de este Mac.

En Windows: Administrador de tareas → Rendimiento → GPU. En Mac: si tiene chip M (Apple Silicon) selecciona la última opción.

Tabla completa de requisitos por modelo

Todos los modelos de la familia LLaMA 3, con sus requisitos mínimos y recomendados. La columna "velocidad sin GPU" indica si es usable en CPU pura para trabajo real.

Modelo Peso disco RAM mín. VRAM ideal Sin GPU Para qué sirve
LLaMA 3.2 1B ~0.8 GB 4 GB 4 GB ✅ Rápido Pruebas, dispositivos limitados. Calidad básica.
LLaMA 3.2 3B ~2 GB 8 GB 4–6 GB ✅ Usable Punto de entrada recomendado. Bueno para texto sencillo en español.
LLaMA 3.1 8B ⭐ ~5 GB 16 GB 8 GB ⚠️ Lento Punto dulce. Calidad comparable a ChatGPT gratuito para escritura y análisis.
LLaMA 3.1 13B ~8 GB 16 GB 12 GB ❌ Muy lento Salto cualitativo en razonamiento. Necesita GPU para ser práctico.
LLaMA 3.1 70B ~40 GB 32 GB 2× GPU 24 GB ❌ Impracticable Calidad cercana a GPT-4. En Mac M-series con 32GB funciona bien.
LLaMA 3.3 70B ~42 GB 32 GB 2× GPU 24 GB ❌ Impracticable Última versión del 70B. Mismos requisitos, mejoras incrementales.
⭐ Mi recomendación para la mayoría: LLaMA 3.1 8B con 16GB de RAM. Es el equilibrio perfecto entre calidad, velocidad y requisitos de hardware. Con una RTX 4070 o superior la generación es prácticamente instantánea.
RAM vs VRAM — qué diferencia hay

La confusión más común al buscar requisitos para IA local. RAM es la memoria del sistema (la que usa tu CPU). VRAM es la memoria de la GPU (tarjeta gráfica). Para Ollama, ambas sirven para cargar el modelo, pero con resultados muy distintos en velocidad.

Cuando el modelo cabe completamente en VRAM, la GPU lo procesa en paralelo y la generación es rápida — entre 20 y 80 tokens por segundo dependiendo de la GPU. Cuando el modelo no cabe en VRAM y se carga en RAM del sistema, la CPU lo procesa secuencialmente y la velocidad cae a 2–8 tokens por segundo. Funciona, pero para uso intensivo resulta lento.

La excepción importante son los Mac con chip M (Apple Silicon). Usan memoria unificada — la misma RAM sirve para CPU y GPU, y el chip M accede a ella con un ancho de banda muy superior al de un PC convencional. Por eso un Mac Mini M4 con 16GB corre LLaMA 8B más rápido que un PC con 16GB de RAM y sin GPU dedicada.

Regla práctica: Para que un modelo sea "usable" en CPU pura, necesitas el doble de RAM respecto al peso del modelo. LLaMA 3.1 8B pesa ~5GB, así que con 16GB de RAM en CPU va razonablemente. LLaMA 70B pesa ~40GB — necesitas 64GB de RAM para que siquiera cargue en CPU, y la velocidad será muy baja.
Cuantización: el truco para reducir requisitos

Ollama descarga automáticamente versiones cuantizadas de los modelos. La cuantización reduce la precisión de los pesos (de 32 bits a 4–8 bits) para que el modelo ocupe menos espacio y RAM, con una pérdida de calidad muy pequeña. Por defecto Ollama elige la cuantización Q4_K_M, que es el punto óptimo entre tamaño y calidad.

Si tienes poca RAM, puedes forzar versiones más ligeras con sufijo como :q4_0 o :q2_K. Cuanto menor el número, menor calidad pero también menores requisitos. Para la mayoría de usuarios, el valor por defecto es el correcto.

Configuraciones recomendadas por presupuesto

Si estás pensando en actualizar hardware o comprar un equipo dedicado para IA local, estas son las configuraciones que tienen más sentido según lo que quieres correr:

Entrada
PC o portátil existente
RAM 16 GB
GPU Integrada / ninguna
Disco 20 GB libres
Coste extra 0 €
Modelos viables: LLaMA 3.2 3B ✅ · LLaMA 3.1 8B ⚠️ lento
Recomendado
Mini PC 32GB + RTX 4070
RAM 32 GB
VRAM 12 GB (RTX 4070 Super)
Disco 100 GB libres SSD
Coste aprox. 1.200–1.400 €
Modelos viables: hasta LLaMA 70B ✅ · Flux imágenes ✅
Pro
Mac Mini M4 / PC + RTX 4080
RAM 16–32 GB unificada / sistema
GPU M4 / RTX 4080 Super
VRAM Unificada / 16 GB
Coste aprox. 1.500–2.000 €
Modelos viables: todos ✅ · LLaMA 70B rápido ✅
Hardware que uso y recomiendo

Estos son los equipos que recomiendo según tu caso. Si buscas un servidor dedicado de IA para casa, los mini PCs son la mejor opción. Si quieres la máxima velocidad en generación de imágenes y texto, las RTX son imprescindibles.

🖥️
MINISFORUM UM773
🛒
Mini PC · Servidor IA
MINISFORUM
UM773 Lite 32GB
🛒 MEJOR OFERTA EN AMAZON
⚡ Rendimiento IA
7/10
💰 Precio/calidad
8/10
🎬 Para creadores
8/10

32GB DDR5, Ryzen 7 7735HS, GPU Radeon integrada. Corre LLaMA 8B muy bien. Sin GPU NVIDIA externa, pero perfecto como servidor 24/7 silencioso.

✅ Pros
+32GB RAM lista
+Silencioso 24/7
+LLaMA 8B fluido
❌ Contras
Sin CUDA NVIDIA
70B algo lento
Sin FLUX rápido
💻
Mac Mini M4
🛒
Mac · Memoria Unificada
Apple Mac
Mini M4 16GB
🛒 MEJOR OFERTA EN AMAZON
⚡ Rendimiento IA
9/10
💰 Precio/calidad
7/10
🎬 Para creadores
10/10

Memoria unificada — la RAM actúa como VRAM. LLaMA 70B funciona sorprendentemente bien. 20W de consumo, sin ventilador, chip M4 de última generación.

✅ Pros
+LLaMA 70B fluido
+Memoria unificada
+Solo 20W
❌ Contras
Solo ecosistema Mac
RAM no ampliable
Precio más elevado
🎮
RTX 4070 Super
🛒
GPU · CUDA · 12 GB VRAM
RTX 4070
Super 12GB
🛒 MEJOR OFERTA EN AMAZON
⚡ Rendimiento IA
9/10
💰 Precio/calidad
9/10
🎬 Para creadores
9/10

12GB VRAM CUDA — corre LLaMA 8B y 13B a máxima velocidad. FLUX Dev y Stable Diffusion en segundos. La mejor relación precio/rendimiento para IA local.

✅ Pros
+12GB VRAM CUDA
+FLUX muy rápido
+LLaMA 13B fluido
❌ Contras
Necesita PC base
Consume 220W
70B no cabe en VRAM
🎮
RTX 4080 Super
🛒
GPU · CUDA · 16 GB VRAM
RTX 4080
Super 16GB
🛒 MEJOR OFERTA EN AMAZON
⚡ Rendimiento IA
10/10
💰 Precio/calidad
7/10
🎬 Para creadores
9/10

16GB VRAM — el salto definitivo. Corre LLaMA 13B entero en VRAM a máxima velocidad. FLUX y Stable Diffusion con tiempos de generación profesionales.

✅ Pros
+16GB VRAM CUDA
+LLaMA 13B en VRAM
+FLUX profesional
❌ Contras
Precio elevado
Consume 250W
70B sigue sin caber
Preguntas frecuentes
¿LLaMA 3 funciona sin tarjeta gráfica? +
Sí, pero la velocidad es mucho menor. Los modelos pequeños (3B) son perfectamente usables en CPU. El 8B en CPU con 16GB va lento pero funciona para uso ocasional. Para trabajo diario intensivo sin GPU, el 3B es lo más práctico.
¿Vale una GPU AMD para Ollama? +
Sí, Ollama soporta GPU AMD vía ROCm en Linux. En Windows el soporte AMD es más limitado y menos estable que NVIDIA CUDA. Si tu objetivo principal es IA local en Windows, NVIDIA da menos problemas. En Linux, AMD funciona bien para LLaMA pero el soporte para Stable Diffusion/FLUX es más inconsistente.
¿Qué pasa si mi GPU no tiene suficiente VRAM para el modelo entero? +
Ollama carga automáticamente las capas que caben en VRAM y el resto en RAM del sistema. Es más lento que tener todo en VRAM, pero más rápido que CPU pura. Por ejemplo, con una RTX con 8GB VRAM puedes correr LLaMA 13B de forma "parcial" — más lento que con 12GB, pero funcional.
¿LLaMA 70B es realmente comparable a GPT-4? +
En algunas tareas sí, en otras no. Para escritura creativa, análisis de textos y razonamiento en español, LLaMA 3.1 70B es sorprendentemente competitivo con GPT-4. En matemáticas complejas, código muy técnico o razonamiento multipasos largo, GPT-4o sigue por delante. Para el trabajo diario de un creador de contenido, la diferencia práctica es mínima.
¿Cuánto consume de electricidad tener Ollama corriendo? +
En reposo Ollama consume muy poco — el modelo se descarga de memoria cuando no se usa. Durante la generación, un mini PC con CPU consume 15–35W. Con GPU NVIDIA activa, 100–250W dependiendo del modelo. Un Mac Mini M4 consume entre 10–30W incluso generando. El coste eléctrico de un servidor de IA local en casa es de menos de 5€ al mes en uso normal.
* Este artículo contiene enlaces de afiliado a Amazon. Si compras a través de ellos recibo una pequeña comisión sin coste adicional para ti. Solo recomiendo productos que uso o he probado personalmente.