OpenAI a présenté son dernier projet Voice Engine, un outil de clonage vocal, en mettant l’accent sur les considérations éthiques et les mesures de sécurité pour éviter les abus potentiels de la technologie.

Voice Engine, un modèle développé par OpenAI, promet de générer une parole naturelle qui ressemble étroitement à celle du locuteur d’origine en utilisant simplement un texte en entrée et un seul échantillon audio de 15 secondes.


« Il est remarquable qu’un petit modèle avec un seul échantillon de 15 secondes puisse créer des voix émotives et réalistes », a déclaré OpenAI dans un blog.


OpenAI a introduit Voice Engine pour la première fois fin 2022, avec des voix prédéfinies dans l’API de synthèse vocale ainsi que ChatGPT Voice et Read Aloud. Cependant, l’organisation a adopté une approche prudente quant à sa diffusion à plus grande échelle en raison de préoccupations concernant une éventuelle utilisation abusive.


« Nous reconnaissons que générer un discours qui ressemble à la voix du peuple comporte des risques sérieux, qui sont particulièrement importants en période d’élections », a déclaré la start-up basée à San Francisco.


Pour répondre à ces préoccupations, OpenAI s’est engagé avec les États-Unis et un large éventail de partenaires internationaux, y compris le gouvernement, les médias, le divertissement, l’éducation et la société civile, pour recueillir des commentaires au fur et à mesure de son développement.


Pour atténuer les risques, OpenAI a mis en place des politiques d’utilisation pour les partenaires testant Voice Engine. Ces politiques interdisent l’usurpation d’identité d’autres personnes ou organisations sans consentement ni droit légal, exigent le consentement explicite et éclairé de l’orateur d’origine et exigent une divulgation claire au public que les voix sont générées par l’IA.


De plus, des mesures de sécurité ont été mises en place pour retracer l’origine des audios générés par Voice Engine et surveiller de manière proactive la façon dont il est utilisé.


« Nous pensons que tout déploiement à grande échelle de technologie vocale synthétique devrait s’accompagner d’expériences d’authentification vocale qui vérifient que l’orateur d’origine ajoute sciemment sa voix au service et d’une liste de voix interdites qui détecte et empêche la création de voix trop similaires à celles de personnalités éminentes », a affirmé OpenAI.


Pour l’avenir, OpenAI souligne l’importance de la résilience sociétale face aux défis posés par des modèles génératifs de plus en plus convaincants.


Ils préconisent des mesures telles que l’élimination progressive de l’authentification vocale pour les informations sensibles, des politiques protégeant la voix des individus dans l’IA, l’éducation du public sur les capacités et les limites de l’IA et le développement accéléré de techniques de suivi de l’origine du contenu audiovisuel.


« Nous espérons que cette avant-première de Voice Engine souligne à la fois son potentiel et motive également la nécessité de renforcer la résilience sociétale face aux défis posés par des modèles génératifs toujours plus convaincants », a déclaré OpenAI.
Partager :