На алатката на OpenAI за гласовно клонирање ѝ требаат само 15 секунди за да направи клип од вашиот глас

1799

Време зa читање: 3 минути

OpenAI нуди ограничен пристап до платформата за генерирање текст-во-глас што ја разви, наречена Voice Engine, која може да создаде синтетички глас врз основа на клип од 15 секунди од нечиј глас. Гласот генериран со вештачка интелигенција може да чита текстуални инструкции по команда на истиот јазик како и звучникот или на голем број други јазици. „Овие распоредувања од мал обем помагаат да се информира нашиот пристап, заштитни мерки и размислување за тоа како Voice Engine може да се користи за добро во различни индустрии“, рече OpenAI во својот блог пост.

Компаниите со пристап ја вклучуваат образовната технолошка компанија Age of Learning, платформата за визуелно раскажување приказни HeyGen, производителот на здравствени софтвери во првите редови Dimagi, креаторот на апликацијата за комуникација со вештачка интелигенција Livox и здравствениот систем Lifespan.

Во овие примероци објавени од OpenAI, можете да слушнете што прави Age of Learning со технологијата за генерирање однапред напишана содржина со глас, како и читање „во реално време, персонализирани одговори“ на студентите напишани од GPT-4 .
OpenAI соопшти дека започнал да го развива Voice Engine кон крајот на 2022 година и дека технологијата веќе ги напојува претходно поставените гласови за API-то за текст во говор и функцијата Read Aloud на ChatGPT. Во интервју за TechCrunch, Џеф Харис, член на тимот за производи на OpenAI за Voice Engine, рече дека моделот бил обучен за „мешавина од лиценцирани и јавно достапни податоци“. OpenAI изјави за публикацијата дека моделот ќе биде достапен само за околу 10 програмери.

Генерирањето текст во аудио со вештачка интелигенција е област на генеративна вештачка интелигенција која продолжува да се развива. Додека повеќето се фокусираат на инструментални или природни звуци, помалку се фокусирале на генерирање глас, делумно поради прашањата наведени OpenAI. Некои имиња во просторот вклучуваат компании како Podcastle и ElevenLabs, кои обезбедуваат технологија за клонирање глас со вештачка интелигенција и алатки кои Vergecast ги истражуваше минатата година.

Во исто време, американската влада се обидува да ја спречи неетичката употреба на говорната технологија за вештачка интелигенција. Минатиот месец, Федералната комисија за комуникации забрани роботски повици со помош на гласови со вештачка интелигенција, откако луѓето добија спам-повици од гласот на претседателот Џо Бајден, клониран со вештачка интелигенција.

Според OpenAI, неговите партнери се согласиле да се придржуваат до неговите политики за користење кои велат дека нема да користат Voice Generation за да имитираат луѓе или организации без нивна согласност. Исто така, бара од партнерите да добијат „експлицитна и информирана согласност“ од оригиналниот звучник, да не градат начини за поединечни корисници да создаваат свои гласови и да им откријат на слушателите дека гласовите се генерирани со вештачка интелигенција. OpenAI додаде и воден печат на аудио клиповите за да го следи нивното потекло и активно да следи како се користи аудиото.

OpenAI предложи неколку чекори за кои мисли дека би можеле да ги ограничат ризиците околу алатките како овие, вклучително и постепено укинување на гласовната автентикација за пристап до банкарски сметки, политики за заштита на употребата на гласовите на луѓето во вештачката интелигенција, поголемо образование за длабоки фалсификување со вештачка интелигенција и развој на системи за следење на содржината на вештачка интелигенција.

На алатката на OpenAI за гласовно клонирање ѝ требаат само 15 секунди за да направи клип од вашиот глас

слично