¿LLaMA 3 funciona sin tarjeta gráfica (GPU)?

Sí, LLaMA 3 puede funcionar usando solo el procesador (CPU) y la RAM del sistema. Sin embargo, la velocidad de generación será notablemente inferior a la obtenida con una tarjeta gráfica dedicada como NVIDIA o AMD.

¿Cuánta RAM necesito para LLaMA 3.1 8B?

Para ejecutar el modelo LLaMA 3.1 de 8B (el más recomendado para uso general) de forma fluida, se recomienda un mínimo de 16 GB de RAM en el sistema o 8 GB de VRAM en tu tarjeta gráfica.

¿Cuál es la diferencia entre RAM y VRAM para IA local?

La RAM es la memoria del sistema (CPU), mientras que la VRAM es la memoria dedicada de la tarjeta gráfica (GPU). Para Inteligencia Artificial, cargar el modelo en la VRAM permite un procesamiento en paralelo muchísimo más rápido que en la RAM normal.

Requisitos para LLaMA 3 y Ollama (RAM, GPU y VRAM) 🖥️

IA Local · Hardware

Requisitos para correr
LLaMA 3 en tu PC

RAM, GPU, VRAM y CPU — todo lo que necesitas saber antes de descargar el modelo. Tabla completa por versión con recomendaciones reales.

📊 Tabla completa por modelo 🎮 CPU y GPU incluidas 💡 Sin GPU también funciona

¿Qué modelo puedes correr tú?

Selecciona tu hardware y te digo qué modelos LLaMA funcionan en tu máquina

¿Cuánta RAM tiene tu ordenador?

La RAM del sistema (no la VRAM de la GPU). En Windows: clic derecho en "Este equipo" → Propiedades. En Mac: Apple → Acerca de este Mac.

¿Tienes GPU NVIDIA o AMD?

En Windows: Administrador de tareas → Rendimiento → GPU. En Mac: si tiene chip M (Apple Silicon) selecciona la última opción.

Tabla completa de requisitos por modelo

Todos los modelos de la familia LLaMA 3, con sus requisitos mínimos y recomendados. La columna "velocidad sin GPU" indica si es usable en CPU pura para trabajo real.

Modelo	Peso disco	RAM mín.	VRAM ideal	Sin GPU	Para qué sirve
LLaMA 3.2 1B	~0.8 GB	4 GB	4 GB	✅ Rápido	Pruebas, dispositivos limitados. Calidad básica.
LLaMA 3.2 3B	~2 GB	8 GB	4–6 GB	✅ Usable	Punto de entrada recomendado. Bueno para texto sencillo en español.
LLaMA 3.1 8B ⭐	~5 GB	16 GB	8 GB	⚠️ Lento	Punto dulce. Calidad comparable a ChatGPT gratuito para escritura y análisis.
LLaMA 3.1 13B	~8 GB	16 GB	12 GB	❌ Muy lento	Salto cualitativo en razonamiento. Necesita GPU para ser práctico.
LLaMA 3.1 70B	~40 GB	32 GB	2× GPU 24 GB	❌ Impracticable	Calidad cercana a GPT-4. En Mac M-series con 32GB funciona bien.
LLaMA 3.3 70B	~42 GB	32 GB	2× GPU 24 GB	❌ Impracticable	Última versión del 70B. Mismos requisitos, mejoras incrementales.

⭐ Mi recomendación para la mayoría: LLaMA 3.1 8B con 16GB de RAM. Es el equilibrio perfecto entre calidad, velocidad y requisitos de hardware. Con una RTX 4070 o superior la generación es prácticamente instantánea.

RAM vs VRAM — qué diferencia hay

La confusión más común al buscar requisitos para IA local. RAM es la memoria del sistema (la que usa tu CPU). VRAM es la memoria de la GPU (tarjeta gráfica). Para Ollama, ambas sirven para cargar el modelo, pero con resultados muy distintos en velocidad.

Cuando el modelo cabe completamente en VRAM, la GPU lo procesa en paralelo y la generación es rápida — entre 20 y 80 tokens por segundo dependiendo de la GPU. Cuando el modelo no cabe en VRAM y se carga en RAM del sistema, la CPU lo procesa secuencialmente y la velocidad cae a 2–8 tokens por segundo. Funciona, pero para uso intensivo resulta lento.

La excepción importante son los Mac con chip M (Apple Silicon). Usan memoria unificada — la misma RAM sirve para CPU y GPU, y el chip M accede a ella con un ancho de banda muy superior al de un PC convencional. Por eso un Mac Mini M4 con 16GB corre LLaMA 8B más rápido que un PC con 16GB de RAM y sin GPU dedicada.

Regla práctica: Para que un modelo sea "usable" en CPU pura, necesitas el doble de RAM respecto al peso del modelo. LLaMA 3.1 8B pesa ~5GB, así que con 16GB de RAM en CPU va razonablemente. LLaMA 70B pesa ~40GB — necesitas 64GB de RAM para que siquiera cargue en CPU, y la velocidad será muy baja.

Cuantización: el truco para reducir requisitos

Ollama descarga automáticamente versiones cuantizadas de los modelos. La cuantización reduce la precisión de los pesos (de 32 bits a 4–8 bits) para que el modelo ocupe menos espacio y RAM, con una pérdida de calidad muy pequeña. Por defecto Ollama elige la cuantización Q4_K_M, que es el punto óptimo entre tamaño y calidad.

Si tienes poca RAM, puedes forzar versiones más ligeras con sufijo como :q4_0 o :q2_K. Cuanto menor el número, menor calidad pero también menores requisitos. Para la mayoría de usuarios, el valor por defecto es el correcto.

Configuraciones recomendadas por presupuesto

Si estás pensando en actualizar hardware o comprar un equipo dedicado para IA local, estas son las configuraciones que tienen más sentido según lo que quieres correr:

Entrada

PC o portátil existente

RAM 16 GB

GPU Integrada / ninguna

Disco 20 GB libres

Coste extra 0 €

Modelos viables: LLaMA 3.2 3B ✅ · LLaMA 3.1 8B ⚠️ lento

Recomendado

Mini PC 32GB + RTX 4070

RAM 32 GB

VRAM 12 GB (RTX 4070 Super)

Disco 100 GB libres SSD

Coste aprox. 1.200–1.400 €

Modelos viables: hasta LLaMA 70B ✅ · Flux imágenes ✅

Pro

Mac Mini M4 / PC + RTX 4080

RAM 16–32 GB unificada / sistema

GPU M4 / RTX 4080 Super

VRAM Unificada / 16 GB

Coste aprox. 1.500–2.000 €

Modelos viables: todos ✅ · LLaMA 70B rápido ✅

Hardware que uso y recomiendo

Estos son los equipos que recomiendo según tu caso. Si buscas un servidor dedicado de IA para casa, los mini PCs son la mejor opción. Si quieres la máxima velocidad en generación de imágenes y texto, las RTX son imprescindibles.

🖥️

MINISFORUM UM773

🛒

Mini PC · Servidor IA

MINISFORUM
UM773 Lite 32GB

🛒 MEJOR OFERTA EN AMAZON

⚡ Rendimiento IA

★★★★★

7/10

💰 Precio/calidad

★★★★★

8/10

🎬 Para creadores

★★★★★

8/10

32GB DDR5, Ryzen 7 7735HS, GPU Radeon integrada. Corre LLaMA 8B muy bien. Sin GPU NVIDIA externa, pero perfecto como servidor 24/7 silencioso.

✅ Pros

+32GB RAM lista

+Silencioso 24/7

+LLaMA 8B fluido

❌ Contras

–Sin CUDA NVIDIA

–70B algo lento

–Sin FLUX rápido

💻

Mac Mini M4

🛒

Mac · Memoria Unificada

Apple Mac
Mini M4 16GB

🛒 MEJOR OFERTA EN AMAZON

⚡ Rendimiento IA

★★★★★

9/10

💰 Precio/calidad

★★★★★

7/10

🎬 Para creadores

★★★★★

10/10

Memoria unificada — la RAM actúa como VRAM. LLaMA 70B funciona sorprendentemente bien. 20W de consumo, sin ventilador, chip M4 de última generación.

✅ Pros

+LLaMA 70B fluido

+Memoria unificada

+Solo 20W

❌ Contras

–Solo ecosistema Mac

–RAM no ampliable

–Precio más elevado

🎮

RTX 4070 Super

🛒

GPU · CUDA · 12 GB VRAM

RTX 4070
Super 12GB

🛒 MEJOR OFERTA EN AMAZON

⚡ Rendimiento IA

★★★★★

9/10

💰 Precio/calidad

★★★★★

9/10

🎬 Para creadores

★★★★★

9/10

12GB VRAM CUDA — corre LLaMA 8B y 13B a máxima velocidad. FLUX Dev y Stable Diffusion en segundos. La mejor relación precio/rendimiento para IA local.

✅ Pros

+12GB VRAM CUDA

+FLUX muy rápido

+LLaMA 13B fluido

❌ Contras

–Necesita PC base

–Consume 220W

–70B no cabe en VRAM

🎮

RTX 4080 Super

🛒

GPU · CUDA · 16 GB VRAM

RTX 4080
Super 16GB

🛒 MEJOR OFERTA EN AMAZON

⚡ Rendimiento IA

★★★★★

10/10

💰 Precio/calidad

★★★★★

7/10

🎬 Para creadores

★★★★★

9/10

16GB VRAM — el salto definitivo. Corre LLaMA 13B entero en VRAM a máxima velocidad. FLUX y Stable Diffusion con tiempos de generación profesionales.

✅ Pros

+16GB VRAM CUDA

+LLaMA 13B en VRAM

+FLUX profesional

❌ Contras

–Precio elevado

–Consume 250W

–70B sigue sin caber

Preguntas frecuentes

¿LLaMA 3 funciona sin tarjeta gráfica? +

Sí, pero la velocidad es mucho menor. Los modelos pequeños (3B) son perfectamente usables en CPU. El 8B en CPU con 16GB va lento pero funciona para uso ocasional. Para trabajo diario intensivo sin GPU, el 3B es lo más práctico.

¿Vale una GPU AMD para Ollama? +

Sí, Ollama soporta GPU AMD vía ROCm en Linux. En Windows el soporte AMD es más limitado y menos estable que NVIDIA CUDA. Si tu objetivo principal es IA local en Windows, NVIDIA da menos problemas. En Linux, AMD funciona bien para LLaMA pero el soporte para Stable Diffusion/FLUX es más inconsistente.

¿Qué pasa si mi GPU no tiene suficiente VRAM para el modelo entero? +

Ollama carga automáticamente las capas que caben en VRAM y el resto en RAM del sistema. Es más lento que tener todo en VRAM, pero más rápido que CPU pura. Por ejemplo, con una RTX con 8GB VRAM puedes correr LLaMA 13B de forma "parcial" — más lento que con 12GB, pero funcional.

¿LLaMA 70B es realmente comparable a GPT-4? +

En algunas tareas sí, en otras no. Para escritura creativa, análisis de textos y razonamiento en español, LLaMA 3.1 70B es sorprendentemente competitivo con GPT-4. En matemáticas complejas, código muy técnico o razonamiento multipasos largo, GPT-4o sigue por delante. Para el trabajo diario de un creador de contenido, la diferencia práctica es mínima.

¿Cuánto consume de electricidad tener Ollama corriendo? +

En reposo Ollama consume muy poco — el modelo se descarga de memoria cuando no se usa. Durante la generación, un mini PC con CPU consume 15–35W. Con GPU NVIDIA activa, 100–250W dependiendo del modelo. Un Mac Mini M4 consume entre 10–30W incluso generando. El coste eléctrico de un servidor de IA local en casa es de menos de 5€ al mes en uso normal.

Continúa aquí

⚡

Instalar ya

Ollama: instala cualquier IA en tu ordenador en 5 minutos

🏠

Tutorial completo

Cómo instalar tu propio ChatGPT gratis en casa

🔍

Fundamentos

Qué es Ollama y cómo funciona — guía completa

🗺️

Visión completa

IA Local para creadores — guía y hoja de ruta

* Este artículo contiene enlaces de afiliado a Amazon. Si compras a través de ellos recibo una pequeña comisión sin coste adicional para ti. Solo recomiendo productos que uso o he probado personalmente.