人工智能之四:
人類的語言、文字,千千萬萬,不同語言的人之間,不懂得對方語言,一般是很難交流的。如果靠第三者,懂得兩種語言的人來當(dāng)翻譯,這也很麻煩。任何人懂得非母語的第二種語言一般是要經(jīng)過很長時間的專門學(xué)習(xí),還要經(jīng)過種種考試、取得資格。如果語言翻譯能用機(jī)器來做,就可以省掉這些麻煩。那么機(jī)器翻譯能做到了嗎?不錯,現(xiàn)在已經(jīng)有了很大的進(jìn)步,例如英翻中、中翻英就比較容易做到了,但其他語言就不一定行。我們希望將來的手機(jī)能有無限翻譯的本領(lǐng),如果你有了這樣功能的手機(jī),到任何一個外國,你可以問話,別人聽不懂,你就對手機(jī)講話,手機(jī)就能翻成當(dāng)?shù)卣Z言,解決問題了。但是世界上語言千千萬萬,要把很多語言的翻譯都裝進(jìn)一臺機(jī)器里,不是不可能,而是有沒有必要。這里說的是語音翻譯,肯定先要進(jìn)行語音識別。把語音變成文字。機(jī)器再進(jìn)行文字翻譯,如果要輸出語音,就要再經(jīng)過語音合成、再輸出。又比如是一張紙面的文字,可以先拍個照,進(jìn)行文字識別,再做翻譯,這些例舉的多種人工智能課題,小部分已經(jīng)實現(xiàn),其他將來也可能實現(xiàn)。我們正處在人工智能發(fā)展的鼎盛時期。
作為人工智能之一的“機(jī)器翻譯”也是上世紀(jì)80年代才開始研究的。其實這項任務(wù)很不簡單,如果你以為,機(jī)器里存放一個雙語字典,查到原詞,就能找到對應(yīng)的另一種詞。一句話、一篇文章,逐字查找對應(yīng)詞,就成了嗎?其實,這樣“翻譯”出來的文字是“慘不忍讀”的!
原來除了詞匯的不同,人類不同語言還有不同的語法、詞法,是非常復(fù)雜的。比如日語,它用了許多漢字,任何沒學(xué)過日語的中國人拿起一篇日語文章,粗一看,也能看懂幾個字,其實是不知所云,仔細(xì)分析,原來日語有一套和漢語完全不同的語法,加上幾十個“假名”組成許多實詞或助詞。它每句話必然是按主語、賓語、謂語排列的(謂語在最后)。而且主語、賓語后必跟有一個助詞,謂語后還跟著幾個表示時態(tài)的假名助詞。它的漢字解釋也跟漢語不一樣(例如日語中“勉強(qiáng)”一詞是“學(xué)習(xí)”的意思)。比較起來,漢語是世界上最簡潔的文字,漢語動詞的過去時不在原詞上作變化,只在句尾加“了”字,如“我吃了”,
“就”字表示將來時,“我就去”表示“將要”去(將來時)。“已經(jīng)”表示過去完成時,如“我已經(jīng)讀過了”。
要說到俄語,更令人頭疼了,一個名詞有12種“格”的變化(六種單數(shù)加六種復(fù)數(shù)),動詞要變位,在你、我、他,我們、你們、他們,后面跟著的動詞都不一樣,過去時和現(xiàn)在時也不一樣。你想,煩不煩。西方國家大多數(shù)用拉丁字母,可是語言文字很不一樣,英語的語法相對簡單些,但我們讀英語要念許多語法規(guī)則,夠頭疼的了,而其他西方語言都更復(fù)雜,比如說,大多數(shù)西方語言動詞有變態(tài)都有詞尾的變化,跟在我、我們、你、你們、他、他們(她、她們)后面的動詞要變位。所以,你想要做好一個機(jī)器翻譯系統(tǒng),要準(zhǔn)確遵守這些語法規(guī)則不是件簡單的事。
80年代,“機(jī)器翻譯”是初創(chuàng)時期,我們開始做英-漢翻譯,首先一部完整的雙語字典是必要的,這就要花費了巨大的人力來建立字典庫,為機(jī)器翻譯用的字典不同于普通詞典,還應(yīng)增加一些語義、上下文規(guī)則,一個詞條很可能有多個解釋,不應(yīng)該總是選第一個解釋,什么情況用第二、第三個解釋,就要根據(jù)不同的上下文的詞義來決定。所以說,就是要建立一個適合于機(jī)器翻譯用的字典是非常復(fù)雜的,這比了僅僅編一本普通字典要復(fù)雜得多。再比如說,英語“a book”,一本書,翻成中文時必須加量詞“本”,可是中文的量詞少說也有40-50種,那么要一本翻譯用的雙語字典,必須將所有中文名詞是用什么量詞的信息標(biāo)注出來,這難道不是一項十分繁瑣的工作嗎?后來我們知道了,科學(xué)院語言所組織了龐大的隊伍在進(jìn)行機(jī)器翻譯的工作,光是輸入字典數(shù)據(jù)的操作員就有好幾十人,坐滿了一間大房間。我們小小的自動化系《語言文字信息處理研究中心》是沒有能力去這樣做的。
我們知道,英語等大多數(shù)西方語言是分詞有空格連寫的,而漢語句子是字、詞連寫,直到句子完了才有標(biāo)點符號,結(jié)束一個句子,例如一句話:“我今天早晨去飯廳吃早飯。”翻譯成外語時,先要切分為:“我 今天 早晨 去 飯廳 吃 早飯 。”變成七個單詞,然后逐個進(jìn)行翻譯。遇到一詞多義和切分有歧義時,要分辨多疑、排除歧義更是十分復(fù)雜的事,在此不一一細(xì)講了。
我們自動化系于上世紀(jì)80-90年代先后有二十多位碩士生和兩位博士生作了機(jī)器翻譯的實踐,做過的題目有英漢、漢英、日漢、法漢、葡漢等。90年代的數(shù)碼相機(jī)已經(jīng)有很好的性能,有一位研究生就選題“能翻譯的數(shù)碼相機(jī)”的
題目,讓數(shù)碼相機(jī)對準(zhǔn)漢字拍照,進(jìn)行翻譯成英語,實現(xiàn)了機(jī)器翻譯。我們可以期望,今后的智能手機(jī)上能有更多的翻譯功能,當(dāng)然還有待更多的研究和集成。
機(jī)器翻譯肯定還會和語音識別和語音合成結(jié)合起來,可以實現(xiàn)更復(fù)雜的智能機(jī)器,將來的機(jī)器人能聽懂某種語言,又能翻譯成另一種語言輸出可以服務(wù)于海關(guān)、機(jī)場、賓館、商店等等。
“沒有做不到的,只有想不到的”。我們可以期待,更完善、功能更強(qiáng)的人工智能機(jī)器就會陸續(xù)不斷地出現(xiàn)在我們的周圍,甚至服務(wù)到我們的家庭。