IA Local · Guía Completa
Qué es Ollama
y cómo funciona

La herramienta que convierte tu ordenador en un servidor de IA privado, gratuito y sin límites. Todo lo que necesitas saber antes de instalarla.

🔍 Guía completa 🖥️ Windows · Mac · Linux 🆓 Gratis y open source ⏱️ Lectura: 8 min
Qué es Ollama exactamente
Definición
Ollama es una herramienta open source que permite descargar y ejecutar modelos de IA directamente en tu ordenador, sin conexión a internet, sin suscripciones y sin que tus datos salgan de tu máquina.

La forma más fácil de entenderlo: imagina que Netflix te permitiera descargar sus series para siempre, gratis, y verlas sin conexión. Eso es Ollama con los modelos IA. Tú descargas el modelo una vez y lo tienes para siempre en tu ordenador, listo para usarlo cuando quieras sin pagar por token ni depender de que el servidor de OpenAI esté disponible.

Ollama se instala en tu sistema como cualquier otra aplicación y expone una API local en localhost:11434. Eso significa que cualquier herramienta que sepa hablar con una API de IA puede conectarse a Ollama: extensiones de VS Code, flujos de n8n, chatbots propios, scripts de Python o incluso otras aplicaciones de escritorio.

Importante: Ollama no es un modelo de IA. Es el contenedor y gestor que permite que los modelos corran en tu hardware. Los modelos (LLaMA, Mistral, Gemma, Phi…) son proyectos independientes que Ollama descarga y ejecuta automáticamente.
Cómo funciona por dentro

No hace falta entender la arquitectura técnica para usar Ollama, pero saber cómo funciona ayuda a entender sus capacidades y límites. El flujo completo es este:

⬇️
Descarga del modelo desde Ollama Library

Con ollama pull nombre-modelo se descarga el modelo cuantizado (formato GGUF) desde el repositorio de Ollama. Una descarga de 2–40 GB dependiendo del modelo. Solo se hace una vez.

🧠
Carga en RAM (y VRAM si hay GPU)

Al ejecutar el modelo, Ollama lo carga en la memoria de tu sistema. Si tienes GPU NVIDIA o AMD, carga las capas del modelo en VRAM para acelerar la inferencia. En Mac con chip M, usa la memoria unificada, que es especialmente eficiente.

🔌
API REST local en puerto 11434

Ollama levanta un servidor HTTP local que acepta peticiones en el mismo formato que la API de OpenAI. Eso significa que puedes apuntar cualquier cliente compatible con OpenAI a localhost:11434 y funciona sin tocar el código.

💬
Inferencia local — generación de texto

Cuando envías un prompt, el modelo procesa los tokens y genera la respuesta directamente en tu hardware. Todo ocurre en local: tu prompt nunca sale de tu ordenador, la respuesta nunca pasa por ningún servidor externo.

📤
Respuesta en streaming o completa

Ollama puede devolver la respuesta token a token (streaming, como ves en ChatGPT) o esperar a tener la respuesta completa. Ambos modos son configurables según la aplicación que uses.

¿Qué es la cuantización? Los modelos originales pesan cientos de GB. La cuantización es una técnica que reduce la precisión de los pesos del modelo (de 32 bits a 4–8 bits) para que quepan en hardware doméstico con una pérdida de calidad mínima. Ollama gestiona esto automáticamente — tú simplemente eliges el modelo y él descarga la versión óptima para tu hardware.
Para qué sirve — casos de uso reales

Ollama no es solo para desarrolladores o entusiastas técnicos. Estos son los usos concretos que más valor dan en el día a día de un creador de contenido o emprendedor digital:

✍️
Asistente de escritura sin límites

Guiones, descripciones de producto, emails, artículos. Sin límite de mensajes diarios, sin cola de espera, sin cortes cuando el servidor está saturado. LLaMA 8B hace el 80% de lo que hace ChatGPT para escritura.

🎙️
Pipeline de transcripción + análisis

Combinas Whisper (también local) para transcribir vídeos y Ollama para analizar la transcripción. Extraes ganchos, estructura narrativa, palabras clave. Todo sin enviar el audio ni el texto a ningún servidor externo.

🤖
Backend de automatizaciones

Conectas Ollama a n8n, Make o cualquier herramienta de automatización via API. Procesas documentos, clasificas emails, generas respuestas automáticas — sin pagar por cada llamada a la API de OpenAI.

🔐
Datos sensibles de clientes

Si trabajas con datos de clientes, contratos o información confidencial, Ollama elimina el riesgo de que esos datos acaben en el training de otra empresa. Todo queda en tu máquina.

💻
Asistente de código en el IDE

Con extensiones como Continue o Twinny en VS Code, conectas Ollama directamente al editor. Tienes autocompletado y chat de código completamente local, sin que tu código salga de tu máquina.

🗣️
Chatbot con contexto de tu negocio

Con herramientas como Open WebUI puedes cargar tus propios documentos (PDFs, textos) y hacer que el modelo responda basándose en ellos. Tu base de conocimiento privada, completamente local.

Qué modelos puedes correr con Ollama

Ollama tiene su propia biblioteca con más de 100 modelos listos para descargar. Los más populares y los que más uso para trabajo real:

Meta · Texto general
LLaMA 3.1 / 3.2

El modelo de referencia de Meta. Versiones de 3B, 8B y 70B. Excelente en español. Mi recomendación para escritura y uso general.

Mistral AI · Código
Mistral 7B

Modelo francés de alto rendimiento. Especialmente bueno para código y análisis técnico. Más rápido que LLaMA para tareas estructuradas.

Microsoft · Portátiles
Phi-3 / Phi-4

Modelos pequeños pero sorprendentemente capaces. Ideales para hardware con poca RAM o portátiles. Phi-4 Mini es impresionante para su tamaño.

Google · Multimodal
Gemma 2

Modelo de Google optimizado para eficiencia. Versiones de 2B y 9B. Buena opción si ya usas el ecosistema Google y quieres consistencia.

DeepSeek · Razonamiento
DeepSeek R1

Modelo chino de razonamiento. Especialmente potente para matemáticas, lógica y análisis profundo. Alternativa seria a los modelos de OpenAI.

Mistral AI · Código
Codestral

Especializado 100% en código. Soporta más de 80 lenguajes de programación. Si programas, este es tu modelo local de cabecera.

¿Cuál elegir? Para empezar: ollama run llama3.2 si tienes 8GB de RAM, o ollama run llama3.1:8b si tienes 16GB. Son los mejores puntos de entrada para uso general en español.

→ Guía de requisitos por modelo: cuánta RAM necesitas para cada uno
Ventajas y limitaciones honestas

No voy a venderte Ollama como la solución a todos los problemas. Tiene ventajas reales y limitaciones reales que necesitas conocer antes de decidir si encaja en tu flujo de trabajo.

✅ Ventajas
+Gratis para siempre — sin suscripción, sin pago por token
+Privacidad total — tus datos nunca salen de tu ordenador
+Sin límites de uso — sin cuotas diarias ni límites de mensajes
+Funciona offline — sin internet una vez descargado el modelo
+API compatible con OpenAI — integración inmediata con miles de herramientas
+Multi-modelo — tienes todos los modelos instalados y cambias entre ellos en segundos
❌ Limitaciones
Requiere hardware — necesitas RAM suficiente para cada modelo
Más lento sin GPU — en CPU pura, la generación puede ser lenta
Calidad inferior en tareas complejas — GPT-4o sigue siendo mejor para razonamiento muy profundo
Sin acceso a internet — el modelo no puede buscar información actualizada por sí solo
Sin multimodalidad completa — la mayoría de modelos locales no procesan imágenes aún
Ollama vs ChatGPT — cuándo usar cada uno

La pregunta que me hace todo el mundo. La respuesta es que no es un "uno u otro" — son herramientas complementarias. Esta tabla te ayuda a decidir cuándo usar cada una:

Tarea Ollama local ChatGPT / Claude
Escritura de guiones y textos ✅ Perfecto ✅ Perfecto
Datos sensibles de clientes ✅ Recomendado ❌ Evitar
Uso intensivo sin límites ✅ Sin límites ⚠️ Cuota diaria
Razonamiento complejo / análisis profundo ⚠️ Modelos grandes ✅ Mejor opción
Información actualizada / búsqueda web ❌ No disponible ✅ Con plugins
Automatizaciones sin coste variable ✅ Cero coste por llamada ❌ Pago por token
Procesamiento de imágenes ⚠️ LLaVA / limitado ✅ Nativo
Trabajo offline sin internet ✅ Funciona ❌ Requiere conexión
Mi setup real: Uso Ollama para el 70–80% del trabajo diario — escritura, análisis de transcripciones, automatizaciones. Reservo ChatGPT o Claude para tareas que requieren razonamiento muy profundo o acceso a información actualizada. El resultado: facturas de IA divididas por 4 sin perder calidad en lo que importa.
Preguntas frecuentes
¿Ollama es difícil de instalar? +
No. En Windows es un instalador .exe de doble clic. En Mac, un .dmg o un comando de Homebrew. En Linux, un curl de una línea. El proceso completo lleva menos de 5 minutos. Guía de instalación paso a paso →
¿Ollama es completamente gratuito? +
Sí. Ollama es open source (licencia MIT) y gratuito para uso personal y comercial. Los modelos que descarga también son gratuitos. No hay plan de pago, no hay suscripción. Solo pagas la electricidad de tu ordenador.
¿Puedo usar Ollama con una interfaz gráfica? +
Sí. La herramienta más popular es Open WebUI, que te da una interfaz de chat idéntica a ChatGPT pero apuntando a tus modelos locales. También puedes usar extensiones de VS Code, aplicaciones de escritorio como Enchanted (Mac) o integrar Ollama en cualquier app que soporte la API de OpenAI.
¿Cuánto espacio en disco ocupa? +
La instalación de Ollama es de unos 200MB. Los modelos varían: LLaMA 3.2 3B ocupa ~2GB, LLaMA 3.1 8B ~5GB, LLaMA 3.1 70B ~40GB. Puedes instalar y desinstalar modelos libremente para gestionar el espacio con ollama rm nombre-modelo.
¿Funciona Ollama en español? +
Sí. LLaMA 3.1 y Mistral tienen excelente soporte en español — simplemente escribes en español y responden en español. Para uso intensivo en español, LLaMA 3.1 8B es la mejor opción dentro de los modelos que caben en hardware doméstico.
¿Puedo conectar Ollama a otras herramientas como n8n o Make? +
Sí. Ollama expone una API REST compatible con el formato de OpenAI. En n8n, por ejemplo, usas el nodo de OpenAI apuntando a http://localhost:11434 en lugar de a los servidores de OpenAI. Funciona sin modificar el flujo.
¿Listo para instalarlo?

La teoría está clara. El siguiente paso es instalarlo y correr tu primer modelo en menos de 5 minutos.

Guía de instalación paso a paso →
Creado con GeneratePress