ChatGPT ya puede ver, oír y hablar

OpenAI presenta nuevas funciones de voz e imagen en ChatGPT, que permiten a los usuarios mantener conversaciones de voz y mostrar imágenes a la IA. Estas funciones ofrecen formas más intuitivas de interactuar con ChatGPT en diversos escenarios, como hablar de lugares emblemáticos, planificar comidas o ayudar con problemas matemáticos. Las conversaciones de voz pueden iniciarse activando la función en los ajustes de la aplicación móvil y seleccionando la voz preferida entre cinco opciones. La función de voz se basa en un modelo de texto a voz y en actores de doblaje profesionales. Los usuarios también pueden mostrar imágenes ChatGPT y utilizar la herramienta de dibujo para centrarse en partes concretas. Los modelos GPT multimodales permiten comprender las imágenes. OpenAI está desplegando estas capacidades gradualmente para garantizar la seguridad y perfeccionar la mitigación de riesgos. La tecnología de voz tiene potenciales aplicaciones creativas y de accesibilidad, pero también conlleva riesgos, por lo que se está utilizando específicamente para el chat de voz. Los modelos basados en la visión están diseñados para ayudar a los usuarios en su vida cotidiana y se han basado en la colaboración con organizaciones como Be My Eyes. OpenAI es transparente sobre las limitaciones de los modelos y desaconseja determinados casos de uso. Los usuarios Plus y Enterprise tendrán acceso a las capacidades de voz e imagen en primer lugar, con planes para ampliar el acceso a otros grupos de usuarios en el futuro.

La tecnología de OpenAI está diseñada para ayudar a los usuarios en su vida cotidiana.

Artículo completo

Deja una respuesta