el modelo que uso
para guiones de vídeo
Cuando empecé a usar modelos de IA en local para crear contenido, probé versiones de 7B y 13B primero — son más rápidos y menos exigentes. El problema es que los outputs eran predecibles, genéricos y requerían mucha edición manual para que sonaran como yo.
LLaMA 70B cambia esto. Con 70.000 millones de parámetros, el modelo entiende matices, mantiene el tono a lo largo de un guión completo y sigue instrucciones complejas de estilo sin perder el hilo. La diferencia de calidad respecto a los modelos pequeños es grande — no incremental.
El punto dulce. Calidad de escritura cercana a GPT-4, sigue instrucciones complejas, mantiene tono y estructura. Requiere 48GB RAM o 24GB VRAM. Mi modelo diario para guiones.
Para borradores rápidos y brainstorming. Corre en cualquier ordenador con 8GB RAM. Calidad inferior en textos largos pero útil para variantes de hooks y primeras ideas.
Para dispositivos con poca RAM o generación en batch automatizada. No recomendado para guiones — la calidad narrativa cae demasiado. Útil para clasificación o etiquetado.
Uso Ollama para gestionar los modelos — descarga, actualiza y ejecuta LLaMA con un solo comando. Si ya tienes Ollama instalado, salta directamente al paso 2.
llama3.3:70b-instruct-q4_K_M que requiere ~40GB. → Guía completa de hardware
Ve a ollama.com y descarga el instalador para tu sistema (Windows, Mac o Linux). El proceso es idéntico al de instalar cualquier programa. Abre una terminal y verifica que funciona:
En la terminal ejecuta el siguiente comando. Ollama descarga el modelo (~40GB), lo cuantiza automáticamente y lo deja listo para usar. La primera vez tarda según tu conexión:
Si tienes memoria limitada, usa la versión cuantizada explícita:
Lanza el modelo en modo chat desde la terminal y empieza a escribir tus prompts directamente:
Para usarlo con interfaz gráfica, instala Open WebUI — conecta con Ollama automáticamente y tienes una experiencia similar a ChatGPT en tu navegador, 100% local.
Estos son los prompts exactos que uso en mi flujo de trabajo. Los he afinado durante meses de uso real. Cópialos, ajusta el tema y úsalos directamente.
2. Este modelo de IA no sabe que existes. Y es exactamente lo que necesitas.
3. Tienes un servidor de IA en casa y ni lo sabes todavía.
4. El modelo que usas en el teléfono cuesta 20€ al mes. El mío: cero.
5. Tu próxima IA no estará en la nube. Estará en tu escritorio.
La parte crítica con el 70B es la memoria — el modelo no cabe en RAM/VRAM pequeña. Esta tabla resume qué esperar según tu equipo:
| Equipo | LLaMA 70B | Velocidad aprox. | Notas |
|---|---|---|---|
| Mac Mini M4 / M4 Pro 64GB | ✅ Perfecto | 10–15 tokens/seg | La mejor opción todo-en-uno para creadores |
| PC con RTX 4090 (24GB VRAM) | ✅ Ideal | 25–40 tokens/seg | Máxima velocidad — modelo completo en VRAM |
| PC con RTX 4080 Super (16GB VRAM) | ⚠️ Parcial | 8–14 tokens/seg | Usa Q4 — parte del modelo se carga en RAM |
| PC 64GB RAM (sin GPU potente) | ⚠️ Lento | 2–5 tokens/seg | Funciona pero no para uso intensivo en producción |
| PC con menos de 32GB RAM | ❌ No viable | — | Usa LLaMA 8B o Mistral 7B en su lugar |
Si vas a usar LLaMA 70B como herramienta de trabajo real, esto es lo que necesitas mínimo. Los dos equipos que recomiendo según tu sistema operativo:
Mini M4 16GB
Con 16GB de memoria unificada corre LLaMA 8B cómodamente. Para el 70B necesitas el modelo M4 Pro con 48GB o el base con 24GB. All-in-one sin configuración compleja — Ollama funciona nativo.
Super 16GB
16GB VRAM — LLaMA 70B Q4 carga parcialmente en VRAM, el resto en RAM. Con 64GB RAM el sistema es estable y rápido. Para Windows con PC base ya montado.
tu flujo con PosontyAI?
PosontyAI integra LLaMA, Mistral y otros modelos en tu WordPress. Genera, optimiza y publica sin saltar entre herramientas.
Ver PosontyAI →