Publicado el: 20/03/2025

OpenAI Presenta Nuevos Modelos de Audio para Agentes de Voz

OpenAI ha dado un paso significativo en la evolución de la inteligencia artificial conversacional con el lanzamiento de tres nuevos modelos de audio en su API. Este avance permite a desarrolladores y empresas crear agentes de voz más sofisticados, precisos y naturales, abriendo la puerta a una nueva era de interacciones humanas con la IA.

Nuevos Modelos de Audio: Transcripción y Conversión de Texto a Voz

GPT-4o Transcribe y GPT-4o Mini Transcribe

OpenAI ha presentado dos modelos avanzados de speech-to-text que superan a su predecesor, Whisper, en todos los idiomas probados. Estos modelos permiten transcripciones más precisas y rápidas con una notable reducción en la tasa de error de palabras, consolidando su liderazgo en el procesamiento de voz.

GPT-4o Transcribe ofrece una precisión de vanguardia por 0.6 centavos por minuto, el mismo costo que Whisper.

GPT-4o Mini Transcribe, una versión más eficiente y accesible, está disponible por 0.3 centavos por minuto, la mitad del precio de su contraparte mayor.

Ambos modelos incluyen cancelación de ruido y un nuevo detector de actividad de voz semántica, que mejora la segmentación del audio y evita la transcripción de frases incompletas.

GPT-4o Mini TTS: Conversión de Texto a Voz con Personalización

Otro gran hito es el GPT-4o Mini TTS, un modelo de text-to-speech que introduce la posibilidad de controlar cómo se expresan las respuestas, permitiendo a los desarrolladores ajustar tono, energía y emociones en el habla generada.

Disponible por 1 centavo por minuto, este modelo es ideal para aplicaciones que requieren voces naturales y expresivas, como asistentes virtuales, audiolibros o aplicaciones de accesibilidad.

Integración con el Agents SDK: Creando Agentes de Voz Inteligentes

OpenAI también ha actualizado su Agents SDK, facilitando la conversión de agentes de texto en agentes de voz avanzados con apenas unas líneas de código. Esta herramienta permite a los desarrolladores implementar sistemas conversacionales de voz que pueden interactuar en tiempo real con los usuarios.

Los agentes de voz pueden implementarse de dos maneras:

Modelos speech-to-speech en tiempo real: Procesan el audio directamente y responden con voz generada, optimizando la velocidad.

Enfoque en cadena (speech-to-text + LLM + text-to-speech): Un método modular que garantiza mayor control, fiabilidad y facilidad de depuración.

Casos de Uso y Aplicaciones Potenciales

Con estas mejoras, OpenAI habilita la creación de soluciones innovadoras para diversos sectores:

Atención al cliente: Chatbots de voz con respuestas más humanas y precisas.

Educación y aprendizaje de idiomas: Asistentes interactivos para mejorar la pronunciación y comprensión.

Accesibilidad: Soluciones de transcripción en tiempo real y lectura de texto para personas con discapacidades visuales.

Entretenimiento: Generación de narraciones y personajes con voces personalizadas para videojuegos y contenido multimedia.

Prueba y Competencia de OpenAI.fm

Para demostrar las capacidades del modelo GPT-4o Mini TTS, OpenAI ha lanzado la plataforma OpenAI.fm, donde los usuarios pueden experimentar con las distintas voces y tonos. Además, han organizado un concurso para descubrir las aplicaciones más creativas del modelo, con premios exclusivos de edición limitada.

Un Nuevo Horizonte en la IA Conversacional

El lanzamiento de estos modelos marca un punto de inflexión en la evolución de la IA conversacional. OpenAI continúa impulsando la accesibilidad y la personalización en las interacciones de voz, facilitando la integración de estas tecnologías en aplicaciones del mundo real. Con el Agents SDK y los nuevos modelos de audio, las posibilidades son ilimitadas para desarrolladores y empresas que buscan innovar en el ámbito de la IA conversacional.

Vídeo Presentación