Scroll to top
© 2022, SYNTONIZE Digital Pulse

Whisper V3 la nueva versión de la IA transcriptora de OpenAI

En el último evento de OpenAI DevDay hubo una herramienta que pasó desapercibida. Los protagonistas fueron ChatGPT 4 Turbo y los GPTs y no se le dedicó mucho tiempo a Whisper V3. Esta es la nueva versión de Whisper de OpenAI, una herramienta para transcribir audios más importante de lo que parece.

Whisper V3 una nueva forma de hacer las cosas

Este modelo es conocido por ser una de las mejores herramientas de transcripción.  No solo entiende y traduce centenares de idiomas, si no también transcribe conversaciones. Es decir, es capaz de transcribir conversaciones enteras con una precisión excelente. Una herramienta de gran utilidad para usarlas en reuniones, procesos testimoniales o incluso conversaciones en otros idiomas.

Entre las curiosidades que diferencia esta herramienta de las demás de OpenAI como ChatGPT o Dall-E, esta es open source. Es decir, código abierto, y puede ser usado libremente a través de Replicate o Hugging Face. Su funcionamiento es muy simple, subiendo el archivo de audio y ejecutándolo ya comienza trabajar.

Más de 1 millón de horas de entrenamiento

Esta herramienta, Whisper V3 ha sido entrenado con más un millón de horas de audio etiquetado, lo que significa que su precisión es muy alta. Pero no acaba aquí, también cuenta con más de cuatro millones de horas entrenadas de audio pseudoetiquetado. Este nivel de entrenamiento le ha llevado a situarle entre un 10% y un 20% menos de errores. Siendo el español uno de los idiomas que mejor transcribe con errores inferiores al 15%.

Expertos que ya usan esta herramienta ya aseguraban que con Whisper V2 el nivel de transcripción conseguirlo era excelente. Pero, tras probar whisper V3 el resultado fue muy similar, salvo que entendía las pausas de conversación, incluso, las comas. El nivel de acierto de esta herramienta ha dejado boquiabierto a muchos profesionales que necesitan transcribir conversaciones a diario.

Pero transcribir audios no es su única función. Whisper de OpenAI, puede servir como traductor de idiomas. Es decir, durante la conversación, puede detectar cuando se cambia de un idioma a otro. El principal objetivo de OpenAI, es que los desarrolladores o empresas lo usen como sus asistentes de voz. Otro aspecto a tener en cuenta, es su disponibilidad en varios tamaños. Puedes incluirlo en diferentes aplicaciones desde versiones de menos de 1 GB de VRAM , entrenada con 9 millones de parámetros. O optar por la opción más grande que cuenta con unos requisitos de 10 GB de VRAM y más de 1550 millones de parámetros.

Whisper V3
Gracias a la existencia de herramientas como Whisper V3 transcribir se ha vuelto una herramienta común y sencilla.

Anteriormente las transcripciones de audio a texto eran una locura, donde se dejaba muchas cosas en el tintero. Muchas de las herramientas anteriores daban demasiados fallos y no transcribían y cómo debían. Al final debías de reescuchar el audio, lo que te quitaba mucho tiempo y añadir el tiempo de corrección.

Somos Syntonize, expertos en transformación digital e inteligencia artificial. Pásate a la era digital con tu negocio e integra junto a nosotros la Inteligencia Artificial a tu negocio. Para más información ponte en contacto con nosotros y realiza un MVP para reducir riesgos.

Contacta con nosotros.