AI語音初創公司Sonantic表示,他們在音頻深度模仿方面取得了一項小小的突破,創造出了一種可以表達挑逗和調情等微妙情感的合成聲音。該公司表示,其進步的關鍵是將非語言聲音融入到音頻中:訓練AI模型重現那些微小的呼吸氣息,諸如微小的嘲笑和半隱藏的笑,使得AI的聲音打上真實的生物印記。
Sonantic的研究目標是看看AI是否可以模擬微妙的情緒,諸如憤怒、恐懼、高興、悲傷和富于感情等。
Sonantic的首席執行官齊娜·庫雷希(Zeena Qureshi)將該公司的軟件描述為“聲音的Photoshop”。它的界面可以讓用戶輸入他們想要合成的語音,指定講話的語氣,然后從一組AI聲音中選擇,這些聲音大部分都是模仿真人演員的。這絕不是一種獨一無二的產品(其競爭對手,如Descript也銷售類似產品),但Sonantic表示,其定制化程度比競爭對手更深入。
情感選擇囊括憤怒、恐懼、悲傷、幸福和喜悅。而今最新選項還囊括調情、忸怩、戲弄和自夸。“導演模式”允許進行更多的調整:聲音的音調可以調整,聲音的強度可以上下調節,還有那些非語言的聲音,譬如笑聲和呼吸。
這是Sonantic的主要特色:指導、控制、編輯和塑造表演的能力。如今客戶大多是游戲工作室和娛樂工作室,但公司正在向其他行業拓展。早些時候,剛剛與奔馳達成了合作(定制其車內數字助手)。
然而,就像此類技術的常見情況一樣,Sonantic成就的真正基準是其機器學習模型的音頻,而不是那些經過潤色的、為公關準備好的演示版本。
人工優化是為了最大限度地發揮人工智能聲音的作用。很多AI的努力都是如此,譬如自動駕駛汽車,它們已經成功實現了非常基本的駕駛自動化,但仍在努力實現最后也是最重要的那5%的人類能力。這意味著要實現完全自動化、完全可信的AI語音合成還有很長的路要走。
可是除了技術本身的問題,Sonantic的研究還引發了其他問題——譬如,部署調情人工智能的道德標準是什么?以這種方式操縱聽眾公平嗎?為什么Sonantic要把調情的形象塑導致女性呢?(在男性占主導地位的科技行業,這種選擇算不算一種微妙的性別歧視。)
Sonantic表示,他們選擇女性聲音只是受到了斯派克·瓊斯(Spike Jonze) 2013年的電影《她》(Her)的啟發。在這部電影中,主人公愛上了一名名為薩曼莎(Samantha)的女性AI助理。另一方面,Sonantic表示已經認識到伴隨新技術發展而來的道德困境,并且在怎樣以及在何處使用AI聲音方面非常謹慎。
首席執行官庫雷希表示:“這是我們堅持從事娛樂業務的最大原因之一。它被用于最好的娛樂產品和模擬。“
將AI語音合成與其他娛樂產品進行比較是合理的。畢竟,我們可以分辨電影和電視劇的真假(因為它們都是假的)。
但還有一點需要說明的是,AI將允許大規模部署此類操縱,而較少關注其在個別案例中的影響。比如,在世界各地(囊括國內),人們已經開始與AI聊天機器人建立關系,甚至墜入愛河。給這些機器人添加AI生成的聲音肯定會讓它們變得更強大,這引發了人們對這些和其他系統應該怎樣設計的疑問。假如AI的聲音可以令人信服地調情,它們會說服你做什么?