de TikTok a texto
en automático
Hay tres formas de transcribir TikToks a texto, cada una con un perfil de usuario diferente. Elige la tuya antes de seguir:
Whisper es el modelo de reconocimiento de voz de OpenAI — open source, gratuito y con una precisión en español que supera a cualquier alternativa. Corre en tu ordenador sin mandar nada a ningún servidor.
Instala Whisper una vez y transcribe cualquier vídeo, audio o clip de forma ilimitada. La precisión en español es del 95%+ con el modelo "large-v3" — incluye puntuación, mayúsculas y timestamps por párrafo si los necesitas.
Abre una terminal y ejecuta:
Copia la URL del TikTok y descarga solo el audio con yt-dlp:
Ejecuta Whisper sobre el archivo. Para español usa el flag de idioma:
Whisper genera un .txt con la transcripción completa en el mismo directorio. Con GPU NVIDIA tarda 5–15 segundos para un vídeo de 60 segundos.
La opción más rápida para uso puntual. Hay bots de Telegram especializados en transcripción que aceptan archivos de audio, vídeo o URLs directas. En menos de 30 segundos tienes el texto en el chat.
En el buscador de Telegram escribe @transcriber_bot o @vosk_transcriber_bot. Hay varios disponibles — busca uno con reseñas recientes y soporte de español.
La mayoría de bots aceptan archivos de audio MP3/M4A directos o URLs de plataformas. Si el bot no acepta URL de TikTok, descarga el audio primero con yt-dlp y envía el archivo.
El bot responde con el texto transcrito. Cópialo, pásalo a tu herramienta de análisis o directamente al LLaMA para extraer la estructura del guión.
Si analizas competidores regularmente o quieres procesar decenas de vídeos a la vez, este script de Python combina yt-dlp + Whisper para transcribir en batch. Con una GPU NVIDIA procesa un vídeo de 60 segundos en menos de 10 segundos.
La transcripción es solo el primer paso. El valor real está en analizarla con un LLM para extraer patrones — hooks, estructura narrativa, llamadas a la acción. Estos son los prompts que uso después de transcribir:
| Criterio | Whisper Local | Bot Telegram | API / Python |
|---|---|---|---|
| Coste | 0€ — ilimitado | Gratis con límites | 0€ si es Whisper local |
| Privacidad | Total | Servidor externo | Total |
| Setup inicial | 10 min (Python) | 0 min | 20–30 min |
| Velocidad por vídeo | 5–20 seg (con GPU) | 20–40 seg | 5–15 seg (batch) |
| Precisión español | 95%+ (large-v3) | 85–92% (depende del bot) | 95%+ (large-v3) |
| Límite de duración | Sin límite | 5–15 min según bot | Sin límite |
| Uso desde móvil | No | Sí | No |
| Batch / lotes | Manual | No | Sí — automatizado |
Whisper funciona en cualquier ordenador, pero la velocidad varía mucho. Con CPU es lento — procesando un vídeo de 5 minutos puede tardar más que el vídeo mismo. Con GPU NVIDIA o chip Apple M, el tiempo de transcripción cae a segundos:
| Hardware | Velocidad (vídeo 60s) | Modelo recomendado | Uso práctico |
|---|---|---|---|
| Mac M4 / M4 Pro | 4–8 segundos | large-v3 | Flujo de trabajo diario sin fricción |
| PC con RTX 4070+ (CUDA) | 3–6 segundos | large-v3 | Máxima velocidad — batch de 50+ vídeos en minutos |
| PC con RTX 3060 / 4060 | 8–15 segundos | medium | Aceptable para uso puntual |
| PC con GPU integrada | 45–90 segundos | small o base | Lento — solo para transcripciones ocasionales |
| Solo CPU (sin GPU dedicada) | ❌ 5–15 minutos | tiny o base | No viable para trabajo regular — tarda más que el vídeo |
Mini M4 16GB
Whisper large-v3 en Mac M4 tarda 4–8 segundos por vídeo de 60 segundos. Silencioso, solo 20W de consumo — puedes dejarlo procesando lotes de vídeos de fondo mientras trabajas. Ollama y LLaMA funcionan en el mismo equipo.
--language Spanish al comando para forzar el idioma.pip install faster-whisper y la API es muy similar. Recomendable si procesas lotes grandes de vídeos frecuentemente.con PosontyAI
PosontyAI integra Whisper y LLaMA en tu WordPress. Transcribe, analiza y convierte vídeos virales en contenido propio sin saltar entre herramientas.
Ver PosontyAI →