IA Local · Texto · Creadores
LLaMA 70B:
el modelo que uso
para guiones de vídeo
"Este modelo de IA crea guiones de vídeo mejores que los que hacía yo a mano. Es gratis, corre en mi ordenador y nadie ve mis prompts — ni OpenAI, ni nadie."
🧠 LLaMA 3.3 70B — modelo de referencia 🆓 100% gratis en local 📝 Guiones, hooks y descripciones ⏱️ Prompts reales incluidos
Por qué LLaMA 70B y no otro modelo

Cuando empecé a usar modelos de IA en local para crear contenido, probé versiones de 7B y 13B primero — son más rápidos y menos exigentes. El problema es que los outputs eran predecibles, genéricos y requerían mucha edición manual para que sonaran como yo.

LLaMA 70B cambia esto. Con 70.000 millones de parámetros, el modelo entiende matices, mantiene el tono a lo largo de un guión completo y sigue instrucciones complejas de estilo sin perder el hilo. La diferencia de calidad respecto a los modelos pequeños es grande — no incremental.

🧠
LLaMA 3.3 70B
Recomendado

El punto dulce. Calidad de escritura cercana a GPT-4, sigue instrucciones complejas, mantiene tono y estructura. Requiere 48GB RAM o 24GB VRAM. Mi modelo diario para guiones.

LLaMA 3.1 8B
Rápido

Para borradores rápidos y brainstorming. Corre en cualquier ordenador con 8GB RAM. Calidad inferior en textos largos pero útil para variantes de hooks y primeras ideas.

📦
LLaMA 3.2 1B / 3B
Ultra ligero

Para dispositivos con poca RAM o generación en batch automatizada. No recomendado para guiones — la calidad narrativa cae demasiado. Útil para clasificación o etiquetado.

Nota sobre cuantización: Si no tienes 48GB de RAM, usa la versión Q4_K_M de LLaMA 70B (~40GB en RAM). La pérdida de calidad respecto al modelo completo es mínima y la diferencia de velocidad es notable. Ollama la descarga automáticamente.
Instala LLaMA 70B en 3 pasos

Uso Ollama para gestionar los modelos — descarga, actualiza y ejecuta LLaMA con un solo comando. Si ya tienes Ollama instalado, salta directamente al paso 2.

Requisitos mínimos para 70B: 48GB RAM (o 24GB VRAM GPU NVIDIA) para la versión completa. Con menos memoria usa llama3.3:70b-instruct-q4_K_M que requiere ~40GB. → Guía completa de hardware
1
Instala Ollama

Ve a ollama.com y descarga el instalador para tu sistema (Windows, Mac o Linux). El proceso es idéntico al de instalar cualquier programa. Abre una terminal y verifica que funciona:

ollama --version
2
Descarga LLaMA 70B

En la terminal ejecuta el siguiente comando. Ollama descarga el modelo (~40GB), lo cuantiza automáticamente y lo deja listo para usar. La primera vez tarda según tu conexión:

ollama pull llama3.3

Si tienes memoria limitada, usa la versión cuantizada explícita:

ollama pull llama3.3:70b-instruct-q4_K_M
3
Ejecuta y empieza a usarlo

Lanza el modelo en modo chat desde la terminal y empieza a escribir tus prompts directamente:

ollama run llama3.3

Para usarlo con interfaz gráfica, instala Open WebUI — conecta con Ollama automáticamente y tienes una experiencia similar a ChatGPT en tu navegador, 100% local.

Los prompts que uso cada semana

Estos son los prompts exactos que uso en mi flujo de trabajo. Los he afinado durante meses de uso real. Cópialos, ajusta el tema y úsalos directamente.

🎣 Prompt 01 — Hook de vídeo Copiar
Eres un experto en crear hooks para vídeos de YouTube y TikTok en español. Escríbeme 5 hooks diferentes para un vídeo sobre [TEMA]. El vídeo va dirigido a [AUDIENCIA]. Requisitos para cada hook: - Máximo 2 frases (15 palabras máximo en total) - Empieza con tensión, pregunta o dato sorprendente - Sin signos de exclamación - Tono directo, sin relleno Formato de respuesta: numera los 5 hooks, sin explicaciones adicionales.
✅ Ejemplo de output — tema: "Ollama"
1. Instalé ChatGPT en mi ordenador hace 3 meses. No he pagado nada desde entonces.
2. Este modelo de IA no sabe que existes. Y es exactamente lo que necesitas.
3. Tienes un servidor de IA en casa y ni lo sabes todavía.
4. El modelo que usas en el teléfono cuesta 20€ al mes. El mío: cero.
5. Tu próxima IA no estará en la nube. Estará en tu escritorio.
📝 Prompt 02 — Guión completo YouTube Copiar
Eres un guionista de vídeos de YouTube especializado en tecnología y productividad en español. Escríbeme el guión completo para un vídeo de [DURACIÓN: 8-10 minutos] sobre [TEMA]. Datos clave a incluir: [AÑADE LOS PUNTOS QUE QUIERES CUBRIR] Estructura obligatoria: 1. HOOK (0:00-0:15): Primeras 2 frases que enganchen sin dar info todavía 2. PROBLEMA (0:15-1:00): El dolor real que tiene la audiencia 3. SOLUCIÓN (1:00-1:30): Presenta la solución brevemente — crea expectativa 4. DESARROLLO (1:30-7:30): Paso a paso con ejemplos concretos. Cada sección lleva un título corto. 5. CIERRE (7:30-8:30): Resultado + CTA natural a suscribirse o ver otro vídeo Tono: directo, sin relleno, como explicar a un amigo. Sin frases motivacionales. Incluye indicaciones de B-roll entre corchetes donde ayuden a la edición.
✅ Estructura de output que genera
El modelo devuelve el guión completo con tiempos marcados, indicaciones de edición como [B-ROLL: pantalla de terminal] y transiciones naturales. El tono se mantiene consistente en todo el guión sin que tengas que editar cada párrafo.
🔍 Prompt 03 — Descripción YouTube + SEO Copiar
Escríbeme la descripción completa para un vídeo de YouTube sobre [TEMA]. Keyword principal: [KEYWORD] Keywords secundarias: [KW2, KW3, KW4] Duración del vídeo: [DURACIÓN] Estructura de la descripción: 1. Primer párrafo (máx. 150 caracteres): incluye keyword principal, sin spoilers 2. Segundo párrafo: qué aprenderá el espectador (3-5 puntos en texto corrido) 3. Timestamps: mínimo 5 entradas con el formato 00:00 - Sección 4. Recursos mencionados: lista con links (yo añado los links reales después) 5. Hashtags finales: 5 hashtags relevantes, sin spam Sin emojis en exceso. Tono informativo y directo.
✅ Lo que consigues
Una descripción lista para pegar en YouTube con keywords integradas de forma natural, timestamps generados a partir del guión y hashtags coherentes con el tema — todo en menos de 30 segundos.
🏷️ Prompt 04 — Variantes de título para test A/B Copiar
Genera 8 variantes de título para un vídeo de YouTube sobre [TEMA]. El vídeo trata de: [DESCRIPCIÓN BREVE DEL CONTENIDO EN 1-2 FRASES] Audiencia: [AUDIENCIA] Keyword objetivo: [KEYWORD] Tipos de título a incluir (al menos 1 de cada): - Tipo "Cómo..." (tutorial directo) - Tipo número ("X formas de...") - Tipo comparativa - Tipo curiosidad/tensión - Tipo resultado concreto Límite: máximo 60 caracteres por título. Incluye la keyword objetivo en mínimo 4 de los 8 títulos. Sin clickbait vacío — cada título debe cumplir la promesa del vídeo.
✅ Por qué 8 variantes
Con 8 opciones puedes hacer un test A/B real en YouTube Studio durante las primeras 48h del vídeo. LLaMA 70B genera variantes suficientemente distintas — no paráfrasis del mismo título.
Tip de flujo de trabajo: Uso estos 4 prompts en secuencia para cada vídeo — primero los hooks, luego el guión, luego la descripción y finalmente los títulos para el A/B. Todo el proceso lleva menos de 10 minutos y el 80% del output va directo a producción sin edición mayor.
Hardware mínimo para LLaMA 70B

La parte crítica con el 70B es la memoria — el modelo no cabe en RAM/VRAM pequeña. Esta tabla resume qué esperar según tu equipo:

Equipo LLaMA 70B Velocidad aprox. Notas
Mac Mini M4 / M4 Pro 64GB ✅ Perfecto 10–15 tokens/seg La mejor opción todo-en-uno para creadores
PC con RTX 4090 (24GB VRAM) ✅ Ideal 25–40 tokens/seg Máxima velocidad — modelo completo en VRAM
PC con RTX 4080 Super (16GB VRAM) ⚠️ Parcial 8–14 tokens/seg Usa Q4 — parte del modelo se carga en RAM
PC 64GB RAM (sin GPU potente) ⚠️ Lento 2–5 tokens/seg Funciona pero no para uso intensivo en producción
PC con menos de 32GB RAM ❌ No viable Usa LLaMA 8B o Mistral 7B en su lugar
Hardware recomendado para LLaMA 70B

Si vas a usar LLaMA 70B como herramienta de trabajo real, esto es lo que necesitas mínimo. Los dos equipos que recomiendo según tu sistema operativo:

💻
Mac Mini M4
🛒
Mac · LLaMA + FLUX · Todo en uno
Apple Mac
Mini M4 16GB
🛒 MEJOR OFERTA EN AMAZON
⚡ LLaMA 70B
8/10
💰 Precio/calidad
7/10
🎬 Para creadores
10/10

Con 16GB de memoria unificada corre LLaMA 8B cómodamente. Para el 70B necesitas el modelo M4 Pro con 48GB o el base con 24GB. All-in-one sin configuración compleja — Ollama funciona nativo.

✅ Pros
+Ollama nativo Mac
+Solo 20W consumo
+FLUX + LLaMA juntos
❌ Contras
Solo ecosistema Mac
RAM no ampliable
70B requiere 24GB+
🎮
RTX 4080 Super
🛒
GPU · CUDA · 16 GB VRAM
RTX 4080
Super 16GB
🛒 MEJOR OFERTA EN AMAZON
⚡ LLaMA 70B
8/10
💰 Precio/calidad
7/10
🎬 Para creadores
9/10

16GB VRAM — LLaMA 70B Q4 carga parcialmente en VRAM, el resto en RAM. Con 64GB RAM el sistema es estable y rápido. Para Windows con PC base ya montado.

✅ Pros
+16GB VRAM CUDA
+LLaMA 70B viable
+FLUX rápido también
❌ Contras
Precio elevado
Consume 250W
Necesita PC base
Preguntas frecuentes
¿LLaMA 70B es mejor que ChatGPT para guiones?+
Para seguir instrucciones específicas de formato y estilo, LLaMA 70B está a la altura de GPT-3.5 y se acerca a GPT-4 en muchos casos. La ventaja no es que sea mejor en calidad bruta — es que corre en local, es gratis, ilimitado y tus prompts son privados. Para la mayoría de casos de uso de guiones, la calidad es más que suficiente.
¿En qué idiomas funciona bien?+
LLaMA 3.3 tiene buen soporte en español — notablemente mejor que versiones anteriores de LLaMA. Los guiones en español salen naturales sin necesidad de pasar por inglés. Para variantes de español latino o castellano de España, simplemente especifícalo en el prompt del sistema.
¿Se pueden usar estos prompts con Claude o GPT-4 también?+
Sí. Los prompts están escritos de forma genérica — funcionan en cualquier modelo de lenguaje. Si tienes acceso a Claude o GPT-4, los resultados con estos prompts serán incluso mejores. La ventaja de LLaMA es que no pagas por cada uso.
¿Necesito conexión a internet para usarlo?+
No. Una vez descargado el modelo con Ollama, funciona completamente offline. Ni tus prompts ni los outputs salen de tu ordenador. Es la principal razón por la que lo uso para contenido de clientes.
¿Qué pasa si solo tengo 16GB de RAM?+
Con 16GB de RAM no vas a poder correr LLaMA 70B de forma estable. La alternativa es LLaMA 3.1 8B — requiere solo 8GB RAM y produce resultados aceptables para drafts y brainstorming. Para guiones completos de calidad necesitas mínimo 32–48GB RAM o GPU con 16GB+ VRAM.
¿Quieres automatizar
tu flujo con PosontyAI?

PosontyAI integra LLaMA, Mistral y otros modelos en tu WordPress. Genera, optimiza y publica sin saltar entre herramientas.

Ver PosontyAI →
* Este artículo contiene enlaces de afiliado a Amazon. Si compras a través de ellos recibo una pequeña comisión sin coste adicional para ti. Solo recomiendo productos que uso o he probado personalmente.
Creado con GeneratePress