語音引擎(Voice Engine)是什麼?為什麼OpenAI小心翼翼測試?
根據OpenAI在官網上揭露的訊息,這項技術名為「語音引擎」(Voice Engine),原先主要是用於文字轉語音技術及ChatGPT朗讀功能中的預設語音,提供系統約15秒的材料後,便可以讓AI使用你想要的聲音念出輸入的各種文本。OpenAI也在官網上提供了素材與生成結果的對照音檔。
OpenAI表示,他們想要進一步了解這項技術的應用潛力,但也深知語音生成一旦遭到濫用,後果將不堪設想,於是從去年底開始,他們決定與一小部分的合作夥伴進行私下測試。目前獲得許可的開發者包括教育科技公司Age of Learning、AI影片創作平台HeyGen、醫療軟體開發商Dimagi等公司,目前只有約10間公司能夠測試這項技術。
所有獲得許可的合作夥伴都必須遵守其政策,代表不得以此技術冒用他人或組織身分,並且語音素材的提供者必須明確知道聲音用途,同時需要告知聽眾這些聲音是AI生成的,而非真人。
「基於我們對AI的態度以及承諾,我們選擇提供預覽但不廣泛發布這項技術。」OpenAI表示,他們希望Voice Engine這次預覽能夠突顯其潛力,也能促進社會能夠擁有更強大的抵禦能力,面對愈來愈逼真的生成式AI技術。
語音引擎可以應用在哪裡?
至於透過與合作夥伴的測試,目前OpenAI發掘了哪些應用可能性?OpenAI也在官網上提供一些例子:
1. 語音朗讀功能: 可以用更自然、有情感的聲音為兒童或不看書的人提供語音教學內容,讓更廣泛的族群能夠用更輕鬆的方式,吸收書本內的知識。
2. 翻譯影片或Podcast: 創作者可以輸入聲音,為自己的影片生成眾多語言版本,以接觸到更多的潛在受眾, 並且在翻譯時會保留母語口音 。
3. 為偏遠地區建立溝通橋樑: 能夠為偏遠地區的人們提供各種即時的諮詢服務,甚至是使用一些當地非正式語言進行互動式的問答。
4. 協助失聲患者: 讓無法說話的障礙人士透過語音引擎,依然能夠以語音溝通,並選擇最適合自己的自然聲音。目前還有研究團隊測試如何利用這項技術為失語症患者提供協助。
延伸閱讀:Google在台灣推「Gemini學院」!首波瞄準1000名老師,還有哪些AI種子計畫?
語音引擎有哪些風險?OpenAI怎麼防範?
OpenAI表示,他們非常了解這項技術可能遭到惡意使用的可能性,正在與政府、媒體、娛樂、教育等各個領域的國內外合作夥伴一同努力,並積極接納他們提供的回饋。
根據《Wired》報導, AI生成的逼真語言甚至得以通過銀行的語音認證功能 , 詐騙集團也可能利用這項工具冒用親人聲音,誘使他人付款或轉帳 。尤其美國總統大選即將在2024年11月登場,針對政客的AI攻擊更是層出不窮。
今年初,美國總統拜登的聲音便被冒用在一通AI生成、呼籲選民不要參加投票的電話錄音中。 圖/ YouTube
例如今年初,美國政府拜登的聲音就遭到冒用,在捏造的電話語音中呼籲選民不要參加初選投票,也讓白宮團隊出面澄清這並非拜登總統的錄音,是有心人士刻意破壞選舉。
為了防範AI語音技術的濫用,OpenAI目前除了在使用政策上進行規範外,還實施了一套安全措施,包括:為所有生成內容添加浮水印,追蹤所有生成內容的使用方式,同時還會推出禁止名單,防止部分公眾人物、知名人士的聲音遭到利用。
延伸閱讀:全球首位AI工程師「Devin」誕生!5分鐘做出網站,還能debug,背後10人團隊揭秘
資料來源:The Verge、Wired、TechCrunch
責任編輯:林美欣
免責聲明:本文為合作外稿授權《民視新聞網》原文轉載,如對內文有任何疑問請逕與原作單位確認。
更多新聞: 元智大學結合AI判讀斷層影像奪冠 準確率達93%關鍵技術曝光