每年9月的第4個星期日是國際聾人日。第二次全國殘疾人抽樣調(diào)查結(jié)果顯示,中國聽力障礙殘疾人數(shù)約2780萬。龐大的聾人群體不甘愿“沉默”,他們渴望能和其他人順利溝通。為幫助聾人群體更好融入社會,企業(yè)、高校齊發(fā)力,研發(fā)相關(guān)設(shè)備和系統(tǒng),讓聾人群體能夠“聽見”與“被聽見”。國際聾人日來臨之際,本報記者分別走訪了一些企業(yè)和高校,為您講述相關(guān)品牌研發(fā)背后的暖心故事。
讓更多聽障人士被“聽”見
本報記者 李家鼎
電視畫面中,主持人侃侃而談,一旁的“AI手語主播”同步出鏡,將包含大量冬季體育運(yùn)動專業(yè)詞匯的語言一一翻譯……這一幕,發(fā)生在北京冬奧會期間。在央視新聞冬奧直播特別節(jié)目中,“AI手語主播”的出現(xiàn)讓人眼前一亮,受到不少聽障人士的歡迎。
“能將科研成果帶到舉世矚目的冬奧會上,服務(wù)于電視機(jī)前的聽障觀眾,我們感到十分自豪?!碧旖蚶砉ご髮W(xué)聾人工學(xué)院副院長袁甜甜告訴記者,“AI手語主播”的背后,隱藏著一個龐大的手語視頻資料庫,過去5年,她帶領(lǐng)學(xué)校鯨言創(chuàng)益無障礙智能科技研發(fā)團(tuán)隊克服重重困難,構(gòu)建起30余萬條的視頻語料庫。如今,他們打造的“復(fù)雜場景下中國手語實時翻譯系統(tǒng)”已受到科創(chuàng)領(lǐng)域的不少關(guān)注,在未來各種應(yīng)用場景下,更多聽障人士被“聽”見,正在走向可能。
“為什么一定要把手語翻譯成文字或語言呢?現(xiàn)在語音識別軟件這么多,聽障人不會說,打字給健聽人看不就行了嗎?” 項目啟動之初,不少人曾對這項研究的必要性提出懷疑。“這些語音識別軟件,邏輯出發(fā)點永遠(yuǎn)繞不開健聽人,對聽障人來說,他們更渴望的是自己的‘語言’可以被社會聽見、聽懂?!痹鹛鹫f。
不久前,天津市急救中心工作人員聞訊找到袁甜甜:“你們的項目能否考慮在急救領(lǐng)域落地,我們太需要了!”在急救工作中,遇到聽障人士是常有的事,生死垂危之際,很少有患者還有意識在手機(jī)上打字,而要求醫(yī)生和急救人員會手語更不現(xiàn)實。
“要想讓這套系統(tǒng)應(yīng)用于更多場景,就需要讓語料庫變得更加豐富。”團(tuán)隊成員、聾人工學(xué)院網(wǎng)絡(luò)工程專業(yè)2018級學(xué)生王建源的主要工作就是搭建語料庫,“招募會手語的志愿者來錄視頻,反反復(fù)復(fù)地錄?!蓖踅ㄔ唇榻B。兩年時間里,王建源和伙伴們幾乎每天都會出現(xiàn)在學(xué)院三樓實驗室,有時忙到很晚,干脆席地而睡。他們已經(jīng)收集到30余萬條語料,“經(jīng)過測算對比,距離中國漢語水平考試的4級水平僅差100多個詞了?!蓖踅ㄔ础罢f”完,一旁的顯示屏上準(zhǔn)確顯示出上述文字。
手語是一門視覺語言,有它特定的語法、語序。手勢、表情、肢體動作自由排列組合,表達(dá)的是不同的意思。“比如說‘陽光總在風(fēng)雨后’這句話,手語的語序是‘風(fēng)/雨/結(jié)束/陽光’,讓健聽人看得懂,就要用到計算機(jī)算法。”計算機(jī)學(xué)院研一學(xué)生孫悅說,在算法模型搭建中,他們漸漸總結(jié)出規(guī)律,能夠?qū)⒁欢问终Z中的手勢、表情、肢體動作全部識別到位,“通俗地講,就是我們給計算機(jī)編了一套‘教材’。”在孫悅看來,這套“教材”正是他們找尋的聽障人溝通外界的那座“橋”。
“這套系統(tǒng)已經(jīng)涵蓋教育、法律、餐飲、交通等應(yīng)用場景,在光線充足的環(huán)境下,識別率可達(dá)95%?!痹鹛鹫f,系統(tǒng)還在飛速升級,“我們目標(biāo)是100萬條語料,基本覆蓋社會生活的常用場景?!?/p>
“溝通永遠(yuǎn)是雙向的,我身邊的這些孩子們不是殘障,他們只是‘不一樣’。我們要做的就是,用科技的力量讓他們被‘聽到’、被‘聽懂’?!痹鹛鹫f。
辦事過程比想象的還方便
本報記者 申智林
走進(jìn)湖南省長沙市開福區(qū)政務(wù)中心,來自吉林省的姑娘李麗打算咨詢一下殘疾證異地?fù)Q新的相關(guān)流程。由于存在聽力方面的障礙,她做好了因溝通不暢而辦不成事的準(zhǔn)備,卻沒想到,整個辦事過程遠(yuǎn)比想象中要方便。
大廳里,工作人員見李麗只能用手語交流,便將她引導(dǎo)至載有“樓層業(yè)務(wù)導(dǎo)引”功能的屏幕前進(jìn)行辦事分導(dǎo)。
令李麗驚喜的是,點開一級菜單,屏幕左上角立刻彈出一個小窗口,里邊赫然出現(xiàn)一個虛擬人物“千語”。每當(dāng)李麗往下劃動,虛擬人物都會迅速而準(zhǔn)確地打起手語,充當(dāng)導(dǎo)引內(nèi)容的翻譯。很快,李麗就找到了對應(yīng)的辦事專窗。
沒有一個懂手語的工作人員,也沒有配專職手語翻譯,開福區(qū)政務(wù)大廳的工作人員駕輕就熟地打開“千博手語雙向無障礙溝通平臺”,先是借助預(yù)置業(yè)務(wù)內(nèi)容的手語翻譯,同李麗溝通交流;深入溝通中遇到困難,又聯(lián)系平臺后方的實時翻譯,對李麗做好釋疑解惑。不到半個小時,相關(guān)業(yè)務(wù)就全部辦理完畢?!坝辛诉@套系統(tǒng),我們溝通更順暢了?!崩铥惐硎尽?/p>
“這套服務(wù)系統(tǒng)目標(biāo)是打通語音文字到手語手勢、手語手勢到語音文字的雙向映射,實現(xiàn)聽障人無障礙獲取漢語及文本信息,聽障人與健聽人之間無障礙溝通?!遍L沙千博信息技術(shù)有限公司技術(shù)總監(jiān)郭松睿介紹。
2018年,湖南大學(xué)信息科學(xué)與工程學(xué)院教授、長沙千博信息科技有限公司主要創(chuàng)始人高春鳴帶著郭松睿在內(nèi)的研究團(tuán)隊,在一次同北京聯(lián)合大學(xué)的教師開展技術(shù)交流時,得知聽障人士有對智能手語實時轉(zhuǎn)譯等功能的迫切需求。
“這正是我們擅長的內(nèi)容。”郭松睿說,彼時,團(tuán)隊在計算動畫領(lǐng)域已經(jīng)積累了十余年技術(shù)經(jīng)驗,“說起來,智能手語可以視為計算動畫的一個具體分支,其中涉及的文本處理、語義分析等程序,需要用到的大數(shù)據(jù)、云計算等技術(shù)是完全相通的?!?/p>
要做到從文本語音到手語的精準(zhǔn)翻譯并不簡單?!笆紫鹊美眄槤h語同手語在詞匯及語法方面的對應(yīng)關(guān)系?!惫深Uf,以詞匯為例,2019年,最新版的《國家通用手語詞典》收入了8214個手語詞匯,“但在日常生活中,要滿足溝通需要,至少還需要增加三四千個詞語的手語表達(dá)范式。”為此,研發(fā)團(tuán)隊開展了廣泛的基礎(chǔ)語料搜集工作,并從中提煉出一些比較通用的手語詞匯,補(bǔ)充到數(shù)據(jù)庫中。
而語法方面,情況更加復(fù)雜?!耙婚_始,我們想當(dāng)然地認(rèn)為,中國的手語和漢語普通話在語法規(guī)則上一致?!惫深Uf,可實際上,不管是語序還是語義邏輯的表達(dá),各地都千差萬別。比如簡單的一句“我不喜歡吃蘋果”,因為語序和語義表達(dá)上的差異,可能有很多種表達(dá)形式?!霸诤A空Z料的基礎(chǔ)上,充分利用大數(shù)據(jù)計算,我們逐步歸納手語語法特征?!惫深Uf。
在研發(fā)團(tuán)隊不懈努力下,如今,對于新聞播報等較為規(guī)范的文本、課堂教學(xué)等有章可循的語音報送以及類似政務(wù)服務(wù)等程序性較強(qiáng)的溝通場合,千博信息推出的“千語”虛擬人物,已經(jīng)能夠做到實時精準(zhǔn)的手語翻譯。
“下一步,我們重點在于提高從手語到文本語音的智能識別和實時轉(zhuǎn)錄,減少對人工的依賴?!惫深Uf。
終于能“聽”解說了
本報記者 康 樸
“這個操作失誤了”“放了一個大招”……在一場王者榮耀游戲比賽直播間,主播語調(diào)激昂地解說著緊張刺激的對戰(zhàn)場面,視頻畫面右側(cè),一個AI主播雙手不停變換動作——這是騰訊研發(fā)的手語AI主播,形象取自游戲中的角色“云纓”。她的解說,讓生活在無聲世界里的游戲愛好者很開心。
其實,人工智能手語主播在今年北京冬奧會上也有過亮相,騰訊3D手語數(shù)智人主播“聆語”就用手語傳遞了中國冬奧健兒爭金奪銀的激情與喜悅,溫暖了無數(shù)人。
“在很多體育賽事中,專業(yè)、準(zhǔn)確的賽事解說是觀賽體驗中的關(guān)鍵所在,但對聽障人士來說,如果沒有實時手語解說,就很難充分感受到比賽現(xiàn)場的激情?!彬v訊智能創(chuàng)作中心相關(guān)研究人員說。目前許多新聞資訊、文娛節(jié)目中都缺少手語翻譯,手語主持人、手語主播是稀缺資源,如何更好地讓聽障人士獲取更多信息?
騰訊把目光投向人工智能:造一個AI主播,跟著解說同步比手語??蓡栴}是,程序員對手語一竅不通。
“我們請來專業(yè)手語老師上課,啃下《國家通用手語詞典》,逐漸形成對手語的基本認(rèn)知?!彬v訊智能創(chuàng)作中心研發(fā)團(tuán)隊相關(guān)負(fù)責(zé)人告訴記者,他們還跑了很多趟聾啞人學(xué)校,與師生交流,聽取他們意見。
研發(fā)游戲AI主播的想法就是在這樣的交流中萌生的?!霸诼犝先后w中有很多人喜歡游戲、喜歡電子競技,經(jīng)常收看電競直播節(jié)目,但即便主播聲嘶力竭,他們依然無法感受到解說的魅力?!毖邪l(fā)團(tuán)隊相關(guān)負(fù)責(zé)人說。
研發(fā)團(tuán)隊不僅僅要學(xué)習(xí)手語,更大的挑戰(zhàn)在于把手語的手勢、表情、唇動、姿態(tài)、眼神等圖像信息轉(zhuǎn)化為計算機(jī)可懂的編程語言。
不了解手語的人,也許會認(rèn)為手語僅僅需要手部動作。其實手語是一門視覺語言,表情、體態(tài)等也是其表達(dá)的關(guān)鍵。比如“明白嗎?”這個問句,就需要身體朝向、表情、眼神、口型聯(lián)動,才能有效傳遞出疑問的語氣。
為了實現(xiàn)更加準(zhǔn)確、自然的手語表達(dá)效果,騰訊智能創(chuàng)作中心建立了漢語-手語翻譯系統(tǒng),可以通過機(jī)器翻譯生成手語表征信息,基于多模態(tài)端到端生成模型進(jìn)行聯(lián)合建模及預(yù)測,生成高準(zhǔn)確率的動作、表情、唇動等序列。
在體育賽事中,一到緊張激烈的時刻,解說員語速都會加快,這時,打手語就有可能跟不上了?!鞍呀庹f語音識別為文本,用算法進(jìn)行取舍,抽取關(guān)鍵信息,保留主體意思,再通過語料庫轉(zhuǎn)換為手語文本,最后渲染成手語視頻。”騰訊智能創(chuàng)作中心研發(fā)團(tuán)隊相關(guān)負(fù)責(zé)人說,系統(tǒng)還會根據(jù)解說員語速來判斷是否需要壓縮和壓縮多少語義,以達(dá)到更好的呈現(xiàn)效果。
“目前我們在和一些省級電視臺合作,讓手語數(shù)字人亮相更多電視大屏,先為省級新聞聯(lián)播等節(jié)目做好相關(guān)服務(wù)和支持,再逐步拓展場景?!彬v訊智能創(chuàng)作中心研發(fā)團(tuán)隊相關(guān)負(fù)責(zé)人說,“隨著技術(shù)不斷進(jìn)步和場景不斷完善,聽障人士會越來越便捷地獲取更多信息,我們的工作很有意義。”
李家鼎