您的位置:首頁(yè) >綜合 > 滾動(dòng) >

聽(tīng)障人士的“人生第一句”

杭州的馬塍路,2022年夏天開(kāi)了兩家特殊的店鋪,一家熟客靠小紙條、打字溝通的理發(fā)店,一家沒(méi)有“歡迎光臨”問(wèn)候聲的面包店。這兩個(gè)靠聽(tīng)障者經(jīng)營(yíng)的店鋪格外安靜,但生意卻火熱,街道也因此得到了“無(wú)聲街道”的稱呼。

隔了一年的夏天,AIGC技術(shù)開(kāi)始席卷國(guó)內(nèi)外的商業(yè)世界,互聯(lián)網(wǎng)公司紛紛投入到新一輪的技術(shù)浪潮中。AI技術(shù)的風(fēng)也吹到了這條街道。

今年45歲的聽(tīng)障理發(fā)師沈師傅難得地?fù)芡俗约耗赣H的電話,通過(guò)用自己的音色合成的話,說(shuō)出了自己對(duì)媽媽表示感謝的“人生第一句”。店里的熟客也終于聽(tīng)到了這位長(zhǎng)期為自己理發(fā)的“Tony”的聲音。

先天聽(tīng)障的甜品師小陳,做出拿手的奶凍和牛角包,總是最快售罄。平時(shí)發(fā)不出完整聲音的她,也人生第一次跟顧客說(shuō)了“歡迎光臨?!薄疤鹌沸枰獮槟虬鼏幔俊?/p>

對(duì)一部分聽(tīng)障人士來(lái)說(shuō),說(shuō)出完整的句子、甚至音節(jié)都是現(xiàn)實(shí)的難題。普通人輕易可以做到的這件事,對(duì)他們卻是時(shí)間跨越幾十年后,才終于靠技術(shù)得到的一種完全的展現(xiàn)。技術(shù)讓這種缺憾有了彌補(bǔ)的可能性。

有數(shù)據(jù)顯示,中國(guó)聽(tīng)力障礙殘疾人數(shù)約為2780萬(wàn)。對(duì)比來(lái)看,聽(tīng)障專業(yè)服務(wù)人士只有約1萬(wàn)名,助聽(tīng)器的應(yīng)用不到5%。這意味著,聽(tīng)障人士需要主動(dòng)或者被動(dòng)地減少溝通。

正是有了網(wǎng)易互娛的聽(tīng)障人士AI復(fù)原原聲的工具,聽(tīng)障人士只需要上傳2分鐘沒(méi)有完整語(yǔ)義的發(fā)聲片段,就能重建出屬于自己獨(dú)一無(wú)二的聲音。之后,只需輸入文字,就可以通過(guò)個(gè)人音色傳達(dá)出來(lái)。這項(xiàng)新技術(shù)的成熟正在漸漸消除聽(tīng)障人士溝通的困難和情感表達(dá)的阻礙。

被掛掉的電話和“歡迎光臨

45年來(lái),沈師傅的母親已經(jīng)習(xí)慣了兒子聲音的“缺席”。沈師傅因?yàn)閮簳r(shí)的一場(chǎng)高燒,失去了聽(tīng)力,世界的聲音逐漸消失。跟異地的妻子聯(lián)系時(shí),兩人也只能通過(guò)手語(yǔ)交流。沈師傅的母親從來(lái)沒(méi)接到兒子電話,以至于第一次打去電話時(shí),她下意識(shí)地選擇了掛斷。

一句屬于沈師傅聲線合成的“媽媽,謝謝你”,換來(lái)了電話那頭的母親隔著電話,傳過(guò)來(lái)的興奮,“太像太像了”。她用紹興話在電話那頭“嘰里咕嚕”地說(shuō)著話,似乎已經(jīng)忘記兒子聽(tīng)不見(jiàn)自己聲音。

這是一家同樣不會(huì)說(shuō)“歡迎光臨”的理發(fā)店。價(jià)低,但手藝被熟客認(rèn)可。熟客們到發(fā)廊時(shí),會(huì)用手比劃,或者在寫字板上,用盡量精簡(jiǎn)的語(yǔ)言表達(dá)自己的理發(fā)訴求。再后來(lái),店里又專門增加了一臺(tái)預(yù)約機(jī)器,用機(jī)器取締更多興許不順暢的溝通。

到訪的那天,沈師傅又迎來(lái)了一位熟客,對(duì)頭發(fā)的訴求就寫在隨便撕下的紙片上,“兩耳邊修一下,頭后也盡量短點(diǎn)”。沈師傅點(diǎn)開(kāi)自己的聲音,跟他進(jìn)行了第一次剪發(fā)需求的溝通,不依賴機(jī)械的機(jī)器人聲,而是被媽媽認(rèn)可的,像他的聲線的聲音。

沈師傅的隔壁,就是筑夢(mèng)無(wú)聲烘培。沈師傅的人生第一句說(shuō)給了媽媽,烘培坊的小陳則完成了跟顧客的一次語(yǔ)言溝通。

小陳曾經(jīng)遇到過(guò)商品原材料質(zhì)量問(wèn)題,當(dāng)面跟顧客道歉,又是比劃,又是打字。雖然最終沒(méi)有發(fā)生大的沖突,但沒(méi)法直接說(shuō)出歉意,讓她很愧疚。她同樣也遇到過(guò),因?yàn)闇贤ɡщy,遇到?jīng)]耐心的顧客,明知對(duì)方是聽(tīng)力障礙人士,聽(tīng)不到卻還是不斷動(dòng)著嘴巴。

小陳說(shuō),這種表達(dá)語(yǔ)言的功能,可以讓他們和健全人一樣上班。“比如進(jìn)公司、實(shí)體門店就不會(huì)有阻礙了。”

小陳用完網(wǎng)易的AI聲音復(fù)原工具,店里終于有了“歡迎光臨”的聲音。屬于她的聲音,也開(kāi)始幫助她跟顧客溝通。小陳試用后也開(kāi)始向同學(xué)們推介,他們中多數(shù)人也同樣因?yàn)槁?tīng)力障礙,而留有遺憾或難以言表的感謝。

網(wǎng)易互娛AI Lab團(tuán)隊(duì)曾經(jīng)接觸過(guò)一個(gè)咖啡師,沒(méi)有親口對(duì)女朋友說(shuō)過(guò)情話,對(duì)他而言心中縱有萬(wàn)千思緒,卻難以言表。他想用自己的聲音說(shuō),但原有的AI產(chǎn)品沒(méi)有一個(gè)能真正實(shí)現(xiàn)。

曾經(jīng)參與世界巡演的舞蹈家顧老師,在一歲左右時(shí)同樣因?yàn)榘l(fā)燒打針引起了耳聾,100多分貝的聲音對(duì)著她的耳朵,也毫無(wú)反應(yīng)。在很長(zhǎng)的日子里,爸媽帶著她四處求醫(yī),針灸、吃藥成了家常便飯。但直到女兒出生,她的耳朵也未見(jiàn)好轉(zhuǎn)。如今,她能用自己的音色“說(shuō)話”了,還彌補(bǔ)了曾經(jīng)的遺憾,“女兒學(xué)說(shuō)話的時(shí)候不能陪她、教她。”

市場(chǎng)上,雖然文字轉(zhuǎn)換為語(yǔ)音的技術(shù)已經(jīng)高度成熟。比如從最早期的比較機(jī)械的聲音,到富有節(jié)奏韻律的語(yǔ)音合成效果,再到在短視頻中成熟應(yīng)用,可以帶著“情緒”的電影解說(shuō)配音,這種進(jìn)化代表著文字到語(yǔ)音轉(zhuǎn)化技術(shù)更加趨近實(shí)用。但對(duì)聽(tīng)障人士而言,相比于采用統(tǒng)一的聲線合成語(yǔ)音,他們更加渴望能夠使用他們自己獨(dú)特的聲線,向周邊人傳遞自己的心聲。努力讓每一個(gè)TA,在AI世界里,也能成為獨(dú)一無(wú)二存在,是技術(shù)團(tuán)隊(duì)追逐的目標(biāo)。

一場(chǎng)公益的共謀

在社交媒體上,越來(lái)越多的聽(tīng)障人士被關(guān)注,也從更大程度上展現(xiàn)了房間里的大象。對(duì)他們來(lái)說(shuō),如何與社會(huì)自如相處,更便捷、準(zhǔn)確的溝通,是終身的難題。

今年5月,網(wǎng)易互娛AI Lab團(tuán)隊(duì)開(kāi)始思考,在游戲場(chǎng)景之外,如何能把現(xiàn)有的技術(shù)拓展到更多的場(chǎng)景。幫助聽(tīng)障人士“說(shuō)話”的提議被拎出來(lái)討論。

技術(shù)是熟悉的,iSpeech技術(shù)曾在游戲很多場(chǎng)景應(yīng)用過(guò),但要應(yīng)用到聽(tīng)障人士群體,這個(gè)場(chǎng)景是陌生的,他們起初也不知道技術(shù)可以做到哪一步。

為了調(diào)研聽(tīng)障人士是否真的有這個(gè)需求,網(wǎng)易找到了浙江省殘疾人福利基金會(huì),做了一次調(diào)研。

調(diào)研結(jié)果顯示,僅有十分之一的受訪對(duì)象能夠通過(guò)簡(jiǎn)單的口語(yǔ)與身邊的人進(jìn)行交流。更多時(shí)候,還是依靠手語(yǔ)、更傳統(tǒng)的寫字或借助手機(jī)。他們中的大多數(shù)人經(jīng)歷過(guò)太多想說(shuō)但說(shuō)不出的自卑與懊惱,說(shuō)出“人生第一句”是一部分的“夢(mèng)想”。

在社交媒體上,也有不少正在通過(guò)“音書”等App練習(xí)發(fā)音、通過(guò)實(shí)施轉(zhuǎn)錄語(yǔ)音聽(tīng)網(wǎng)課的聽(tīng)障人士,他們也在通過(guò)各種辦法,找回語(yǔ)感、訓(xùn)練發(fā)音、或者找到跟其他人交流更便捷、有效的辦法。

在確認(rèn)需求后,網(wǎng)易互娛AI Lab團(tuán)隊(duì)總結(jié)出來(lái),在現(xiàn)有的技術(shù)方案下,音色克隆系統(tǒng)可以通過(guò)聽(tīng)障人士的發(fā)聲片段學(xué)習(xí)聲線特色,但無(wú)論是聲線的錄制、錄音上傳后的處理,都需要更便捷地完成。

大多數(shù)聽(tīng)障人士在闡述一句話時(shí),嘴巴在動(dòng),但一句話中,興許有部分音節(jié)能出發(fā)聲音,或者只是不完整的句子,沒(méi)有語(yǔ)義的聲音。這些對(duì)采集聲音造成了不小的挑戰(zhàn),也是團(tuán)隊(duì)主要攻克的難題。最終,他們通過(guò)技術(shù)層面的升級(jí),僅提取聽(tīng)障人士的聲紋信息,摒棄了傳統(tǒng)語(yǔ)音合成需要采集上百個(gè)句子(超半小時(shí))的語(yǔ)音量,將聲音收集的時(shí)間壓縮到最短2分鐘,進(jìn)而大幅度降低聽(tīng)障人士的使用門檻。

為了盡可能提升訓(xùn)練和合成的效果,網(wǎng)易互娛AI Lab還邀請(qǐng)聲優(yōu)、內(nèi)部人員,設(shè)計(jì)了大量的文本進(jìn)行語(yǔ)音錄制,隨后花了大量的精力進(jìn)行模型的訓(xùn)練和調(diào)參優(yōu)化。終于,花了兩個(gè)月時(shí)間,工具在聚集了許多聽(tīng)障人士的音書App上線。這才有了沈師傅、小陳說(shuō)出的“人生第一句”。

事實(shí)上,由于大多數(shù)聽(tīng)障人士無(wú)法完整清晰地表達(dá)一句話,因此在音頻被機(jī)器學(xué)習(xí)并轉(zhuǎn)化之后,他們的聲音中,仍然殘留著“嘶啞聲”。但在此過(guò)程中,聽(tīng)障人士們的一次次努力,一次次溝通,也構(gòu)成了一些人情感“缺憾里的完美”。

技術(shù)如何向善?

在為聽(tīng)障人士提供音色復(fù)原的技術(shù)之前,網(wǎng)易作為一家主營(yíng)業(yè)務(wù)為游戲的公司,早早就把iSpeech技術(shù)應(yīng)用在游戲場(chǎng)景中。

簡(jiǎn)單來(lái)說(shuō),網(wǎng)易的游戲產(chǎn)品中,NPC的語(yǔ)音生成、游戲中的系統(tǒng)播報(bào)、轉(zhuǎn)換音色等都有了基礎(chǔ)的應(yīng)用。當(dāng)一個(gè)成熟的新技術(shù)被驗(yàn)證,隨之而來(lái)的就是將其作用更極致化、鋪展開(kāi)的過(guò)程。

在開(kāi)始之前,團(tuán)隊(duì)反復(fù)考量,這事要如何更好地推進(jìn)下去。原本更多只是服務(wù)游戲的聲音合成技術(shù),在公益價(jià)值上得到了第二次的落地。

根本上,這更多旨在提供社會(huì)價(jià)值,而非商業(yè)價(jià)值。網(wǎng)易互娛AI Lab技術(shù)總監(jiān)林悅提到,現(xiàn)在沒(méi)有考慮(通過(guò)這個(gè)技術(shù))盈利賺錢。但相關(guān)技術(shù)除了游戲中應(yīng)用提高生產(chǎn)效率之外,也在不斷探索新的玩法。

他舉例說(shuō),在游戲開(kāi)發(fā)過(guò)程中,一些聲優(yōu)遇到需要補(bǔ)錄的問(wèn)題時(shí),跨地域、實(shí)地到錄音棚的周期會(huì)很長(zhǎng),但現(xiàn)在已經(jīng)可以通過(guò)AI以及音色復(fù)原的算法,對(duì)相應(yīng)的少量臺(tái)詞進(jìn)行修改。在做聽(tīng)障人士還原音色項(xiàng)目的過(guò)程中,也促使團(tuán)隊(duì)重新梳理語(yǔ)音合成技術(shù)的各個(gè)細(xì)節(jié)和可能提升的方案,這次合作也使得合成技術(shù)有了進(jìn)一步的提升,對(duì)未來(lái)在游戲中也有了更多應(yīng)用的可能性。

在做調(diào)研時(shí),他們還發(fā)現(xiàn),一個(gè)現(xiàn)實(shí)的問(wèn)題是,聽(tīng)障人士在使用無(wú)障礙通信軟件主要面臨需支付較高費(fèi)用、語(yǔ)音轉(zhuǎn)文字準(zhǔn)確率不夠、翻譯器翻譯有延遲等問(wèn)題。這也是網(wǎng)易將這個(gè)技術(shù)免費(fèi)開(kāi)放給聽(tīng)障人士的初心之一。能盡可能高準(zhǔn)確度地,為聽(tīng)障人士的日常溝通創(chuàng)造“情感”的價(jià)值,這也是一定要做出“聲線”的根本所在。

林悅說(shuō),下一步的計(jì)劃就是能在合成后,還能準(zhǔn)確表達(dá)出相應(yīng)的情緒。傳統(tǒng)工業(yè)界的做法往往是基于大量的帶情緒的訓(xùn)練數(shù)據(jù),或者是通過(guò)文本判斷情緒并在合成時(shí)做情感的遷移,但靠聽(tīng)障人士在錄制數(shù)據(jù)表達(dá)的語(yǔ)義信息,再帶上情感信息的仍然有難點(diǎn)。

在不少聽(tīng)障人士的人生故事中,溝通的不便捷會(huì)消磨掉一部分時(shí)刻的完整性。一位參與該項(xiàng)目的人士提到,她記得一個(gè)父親說(shuō)過(guò),他不能說(shuō)話的遺憾來(lái)自,在孩子的婚禮上,他沒(méi)辦法做致辭。親口說(shuō)話不可替代,人生就是有很多時(shí)刻,可能就是得親自來(lái)講話。

在那場(chǎng)調(diào)研中,有超過(guò)67%的受訪對(duì)象表示“愿意使用音色復(fù)原技術(shù)”,超過(guò)一半的受訪對(duì)象表示“愿意將音色復(fù)原技術(shù)推薦給身邊有需要的人”,也有部分受訪對(duì)象表示除了手機(jī) APP 軟件以外,希望音色復(fù)原技術(shù)應(yīng)用于在公交、出租、飯店、超市、銀行等公共場(chǎng)所。但這仍然需要長(zhǎng)時(shí)間的,社會(huì)各界的共謀。至少?gòu)默F(xiàn)在開(kāi)看,一些人找回了失去的聲音,盡管方式會(huì)更曲折。

沈師傅的故事在無(wú)聲街道上被多次關(guān)注,在許多的視頻、采訪中,沈師傅常常只是打著手語(yǔ),由不同的人擔(dān)當(dāng)翻譯。他喜歡說(shuō)“奮斗”,總是對(duì)來(lái)訪者提出的要求充分配合。但在使用了音色合成的工具后,沈師傅第一次在視頻中,通過(guò)自己的語(yǔ)言、聲音闡述自己的經(jīng)歷、思考和期盼,為自己完成了“配音”。

免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。

關(guān)鍵詞:
最新動(dòng)態(tài)
相關(guān)文章
聽(tīng)障人士的“人生第一句”
面對(duì)“七年之癢”,樂(lè)樂(lè)茶如何保持競(jìng)爭(zhēng)...
平安消費(fèi)金融榮獲第十二屆中國(guó)財(cái)經(jīng)峰會(huì)...
盼盼食品代言人張雨霏超神發(fā)揮,為中國(guó)...
廠長(zhǎng)親訴創(chuàng)業(yè)經(jīng)歷,愛(ài)采購(gòu)《你好!廠長(zhǎng)...
第六屆進(jìn)博會(huì)倒計(jì)時(shí)100天,德國(guó)卡赫積極...