y cómo funciona
La herramienta que convierte tu ordenador en un servidor de IA privado, gratuito y sin límites. Todo lo que necesitas saber antes de instalarla.
La forma más fácil de entenderlo: imagina que Netflix te permitiera descargar sus series para siempre, gratis, y verlas sin conexión. Eso es Ollama con los modelos IA. Tú descargas el modelo una vez y lo tienes para siempre en tu ordenador, listo para usarlo cuando quieras sin pagar por token ni depender de que el servidor de OpenAI esté disponible.
Ollama se instala en tu sistema como cualquier otra aplicación y expone una API local en localhost:11434. Eso significa que cualquier herramienta que sepa hablar con una API de IA puede conectarse a Ollama: extensiones de VS Code, flujos de n8n, chatbots propios, scripts de Python o incluso otras aplicaciones de escritorio.
No hace falta entender la arquitectura técnica para usar Ollama, pero saber cómo funciona ayuda a entender sus capacidades y límites. El flujo completo es este:
Con ollama pull nombre-modelo se descarga el modelo cuantizado (formato GGUF) desde el repositorio de Ollama. Una descarga de 2–40 GB dependiendo del modelo. Solo se hace una vez.
Al ejecutar el modelo, Ollama lo carga en la memoria de tu sistema. Si tienes GPU NVIDIA o AMD, carga las capas del modelo en VRAM para acelerar la inferencia. En Mac con chip M, usa la memoria unificada, que es especialmente eficiente.
Ollama levanta un servidor HTTP local que acepta peticiones en el mismo formato que la API de OpenAI. Eso significa que puedes apuntar cualquier cliente compatible con OpenAI a localhost:11434 y funciona sin tocar el código.
Cuando envías un prompt, el modelo procesa los tokens y genera la respuesta directamente en tu hardware. Todo ocurre en local: tu prompt nunca sale de tu ordenador, la respuesta nunca pasa por ningún servidor externo.
Ollama puede devolver la respuesta token a token (streaming, como ves en ChatGPT) o esperar a tener la respuesta completa. Ambos modos son configurables según la aplicación que uses.
Ollama no es solo para desarrolladores o entusiastas técnicos. Estos son los usos concretos que más valor dan en el día a día de un creador de contenido o emprendedor digital:
Guiones, descripciones de producto, emails, artículos. Sin límite de mensajes diarios, sin cola de espera, sin cortes cuando el servidor está saturado. LLaMA 8B hace el 80% de lo que hace ChatGPT para escritura.
Combinas Whisper (también local) para transcribir vídeos y Ollama para analizar la transcripción. Extraes ganchos, estructura narrativa, palabras clave. Todo sin enviar el audio ni el texto a ningún servidor externo.
Conectas Ollama a n8n, Make o cualquier herramienta de automatización via API. Procesas documentos, clasificas emails, generas respuestas automáticas — sin pagar por cada llamada a la API de OpenAI.
Si trabajas con datos de clientes, contratos o información confidencial, Ollama elimina el riesgo de que esos datos acaben en el training de otra empresa. Todo queda en tu máquina.
Con extensiones como Continue o Twinny en VS Code, conectas Ollama directamente al editor. Tienes autocompletado y chat de código completamente local, sin que tu código salga de tu máquina.
Con herramientas como Open WebUI puedes cargar tus propios documentos (PDFs, textos) y hacer que el modelo responda basándose en ellos. Tu base de conocimiento privada, completamente local.
Ollama tiene su propia biblioteca con más de 100 modelos listos para descargar. Los más populares y los que más uso para trabajo real:
El modelo de referencia de Meta. Versiones de 3B, 8B y 70B. Excelente en español. Mi recomendación para escritura y uso general.
Modelo francés de alto rendimiento. Especialmente bueno para código y análisis técnico. Más rápido que LLaMA para tareas estructuradas.
Modelos pequeños pero sorprendentemente capaces. Ideales para hardware con poca RAM o portátiles. Phi-4 Mini es impresionante para su tamaño.
Modelo de Google optimizado para eficiencia. Versiones de 2B y 9B. Buena opción si ya usas el ecosistema Google y quieres consistencia.
Modelo chino de razonamiento. Especialmente potente para matemáticas, lógica y análisis profundo. Alternativa seria a los modelos de OpenAI.
Especializado 100% en código. Soporta más de 80 lenguajes de programación. Si programas, este es tu modelo local de cabecera.
ollama run llama3.2 si tienes 8GB de RAM, o ollama run llama3.1:8b si tienes 16GB. Son los mejores puntos de entrada para uso general en español.
→ Guía de requisitos por modelo: cuánta RAM necesitas para cada uno
No voy a venderte Ollama como la solución a todos los problemas. Tiene ventajas reales y limitaciones reales que necesitas conocer antes de decidir si encaja en tu flujo de trabajo.
La pregunta que me hace todo el mundo. La respuesta es que no es un "uno u otro" — son herramientas complementarias. Esta tabla te ayuda a decidir cuándo usar cada una:
| Tarea | Ollama local | ChatGPT / Claude |
|---|---|---|
| Escritura de guiones y textos | ✅ Perfecto | ✅ Perfecto |
| Datos sensibles de clientes | ✅ Recomendado | ❌ Evitar |
| Uso intensivo sin límites | ✅ Sin límites | ⚠️ Cuota diaria |
| Razonamiento complejo / análisis profundo | ⚠️ Modelos grandes | ✅ Mejor opción |
| Información actualizada / búsqueda web | ❌ No disponible | ✅ Con plugins |
| Automatizaciones sin coste variable | ✅ Cero coste por llamada | ❌ Pago por token |
| Procesamiento de imágenes | ⚠️ LLaVA / limitado | ✅ Nativo |
| Trabajo offline sin internet | ✅ Funciona | ❌ Requiere conexión |
ollama rm nombre-modelo.
http://localhost:11434 en lugar de a los servidores de OpenAI. Funciona sin modificar el flujo.
La teoría está clara. El siguiente paso es instalarlo y correr tu primer modelo en menos de 5 minutos.
Guía de instalación paso a paso →