?
李生
一個(gè)偶然的機(jī)會。將李生與機(jī)器翻譯聯(lián)系在一起。如今。李生從事這項(xiàng)研究已經(jīng)30余年。他帶領(lǐng)的團(tuán)隊(duì)所研制的漢英機(jī)器翻譯系統(tǒng)CEMT-I于1989年成為我國第一個(gè)通過技術(shù)鑒定的漢英機(jī)器翻譯系統(tǒng)。爾后。他主要在計(jì)算機(jī)對句法、語義分析等自然語言處理的策略方面進(jìn)行了中國化的探索。
本報(bào)記者 胡珉琦
我的老師曾說過要做我們的墊腳石。如今。我就是學(xué)生們的人梯。讓他們踩在肩膀上。
國際計(jì)算語言學(xué)學(xué)會(ACL)代表了計(jì)算語言學(xué)的最高水平。有時(shí)會在其年會上頒發(fā)終身成就獎(jiǎng)。獎(jiǎng)勵(lì)在自然語言處理領(lǐng)域作出杰出貢獻(xiàn)的科學(xué)家。就在剛剛結(jié)束的第53屆國際計(jì)算語言學(xué)學(xué)會年會上。中國中文信息學(xué)會理事長、哈工大計(jì)算機(jī)學(xué)院教授李生成為了第一位獲得此項(xiàng)殊榮的華人。李生是我國最早從事自然語言處理研究的學(xué)者之一。研究漢英機(jī)器翻譯已經(jīng)超過30年。
學(xué)生“引入門”
ACL年會上。在李生與觀眾的問答環(huán)節(jié)里。一位嘉賓幾乎搶了所有人的風(fēng)頭。它就是幫助李生進(jìn)行“同聲傳譯”的實(shí)體智能機(jī)器人“小度”。它準(zhǔn)確流暢的翻譯驚艷了全場。
李生說。按照普通人的理解。所謂的“機(jī)器翻譯”。就是把一種自然語言利用計(jì)算機(jī)翻譯成另外一種自然語言。事實(shí)上。自從有了數(shù)字計(jì)算機(jī)之后。作為計(jì)算機(jī)的第一個(gè)應(yīng)用研究??茖W(xué)家早早就提出了這個(gè)概念。
1949年。美國數(shù)學(xué)家、工程師沃倫·韋弗提出了以計(jì)算機(jī)進(jìn)行翻譯的設(shè)想。1954年美國喬治敦大學(xué)和IBM首次聯(lián)合實(shí)驗(yàn)使用電腦的機(jī)譯系統(tǒng)。用250個(gè)詞將俄文材料譯成英文。這個(gè)實(shí)驗(yàn)標(biāo)志著機(jī)器翻譯進(jìn)入一個(gè)新的發(fā)展階段。我國的科學(xué)家也是從這個(gè)時(shí)期開始加入到這股研究熱潮的。據(jù)李生介紹。1959年中國就演示了第一部機(jī)器翻譯系統(tǒng)??蓪?種俄文句型譯成中文。
然而。隨著計(jì)算機(jī)技術(shù)發(fā)展的起起落落。機(jī)器翻譯的研究進(jìn)展在最初的二三十年里也跟著起起落落。而此時(shí)的李生還是計(jì)算機(jī)信息檢索領(lǐng)域的一名教師。
直到上個(gè)世紀(jì)八十年代。機(jī)器翻譯重新得到人們的重視。李生也在偶然的一次經(jīng)歷中。真正開始了在該領(lǐng)域的研究生涯。李生說。這要得益于自己的第一個(gè)博士研究生、現(xiàn)任微軟亞洲研究院首席研究員周明。
1985年。李生為周明定下了一個(gè)課題。關(guān)于中文文獻(xiàn)關(guān)鍵詞的自動抽取。周明調(diào)研結(jié)束后發(fā)現(xiàn)。當(dāng)時(shí)國內(nèi)還沒有自動抽取關(guān)鍵詞的方法。如要借鑒國外的辦法??梢韵葘⒅形奈墨I(xiàn)翻譯成英文。提取以后再將關(guān)鍵詞翻譯成中文。顯然。這項(xiàng)研究對一個(gè)在讀的博士生而言工作量過大。于是。李生根據(jù)周明自己提出的策略。建議先將研究的重點(diǎn)放在前半部分。也就是文獻(xiàn)的中英文翻譯上。他并沒有想到。自己與學(xué)生會在此后30多年的時(shí)間里一直與“機(jī)器翻譯”在一起。
充滿挑戰(zhàn)的機(jī)器翻譯
近年來。隨著網(wǎng)絡(luò)和國際化對翻譯需求的增大。以及翻譯軟件商業(yè)化日趨逼近。機(jī)器翻譯研究也進(jìn)入了一個(gè)新的時(shí)期。不過。李生坦言。與人工翻譯相比。至今機(jī)器翻譯譯文質(zhì)量就“忠實(shí)度”和“流利度”而言,都還很難達(dá)到理想的標(biāo)準(zhǔn)。這與計(jì)算機(jī)翻譯的方法、策略有關(guān)。
最早的機(jī)器翻譯主要是基于規(guī)則的翻譯系統(tǒng)。它是由詞典和規(guī)則庫構(gòu)成知識源。李生介紹說。要想翻譯一個(gè)中文句子。計(jì)算機(jī)首先要學(xué)會分詞。就是將一句話或短語切分成一個(gè)一個(gè)單獨(dú)的詞語。同時(shí)確定這些詞語的詞性和語法結(jié)構(gòu)的組合。然后對照漢英字典詞典。找出對應(yīng)的英語單詞。并根據(jù)英語結(jié)構(gòu)規(guī)則生成最終的句子。
“問題在于。不同語系的語言。詞序不一樣。語法不一樣。結(jié)構(gòu)不一樣。翻譯容易引起歧義。”李生指出。比如在英文中。單詞以空格分開。而中文詞語卻沒有形式上的分界符。也沒有形態(tài)變化。在語音層面。漢語中還存在大量同音字詞。又包含復(fù)雜的聲調(diào)系統(tǒng)和變音變調(diào)現(xiàn)象。在不同語義環(huán)境中。詞匯的詞義和詞性都無法輕易確定。這給計(jì)算機(jī)理解和分析自然語言帶來了很大的困難。另一方面。人的翻譯靠知識和經(jīng)驗(yàn)的積累。常識性的積累越多。翻譯起來越容易。否則。就會影響翻譯的效果。
爾后。隨著計(jì)算機(jī)速度、存儲容量的提升?;谡Z料庫的翻譯系統(tǒng)開始占據(jù)主流。這種方法以語料的應(yīng)用為核心。由經(jīng)過劃分并具有標(biāo)注的語料庫構(gòu)成知識庫。最初。研究者希望借助最基礎(chǔ)的中文和英文句式做替換練習(xí)。因此。它主要的知識源就是雙語對照的實(shí)例庫。不過。人們很快發(fā)現(xiàn)。由于該方法需要一個(gè)很大的語料庫作為支撐。語言的實(shí)際需求量太過龐大。最終。國際上選擇了基于統(tǒng)計(jì)的翻譯系統(tǒng)作為最常用的方法之一。
事實(shí)上。這些方法都曾是李生在30多年間研究機(jī)器翻譯的工具。更重要的是他為機(jī)器翻譯在國內(nèi)的發(fā)展作出了開拓性貢獻(xiàn)。他所帶領(lǐng)的團(tuán)隊(duì)所研制的漢英機(jī)器翻譯系統(tǒng)CEMT-I于1989年成為我國第一個(gè)通過技術(shù)鑒定的漢英機(jī)器翻譯系統(tǒng)。爾后。他主要在計(jì)算機(jī)對句法、語義分析等自然語言處理的策略方面進(jìn)行了中國化的探索。
一代又一代的堅(jiān)持
當(dāng)李生從ACL本屆主席、斯坦福大學(xué)教授克里斯托弗D.曼寧手中接過獎(jiǎng)杯的時(shí)候。他始終強(qiáng)調(diào)的是。國內(nèi)自然語言處理研究的發(fā)展和成果。是一批學(xué)者奮斗與合作的成果。他說。他所作出的最大努力是一直堅(jiān)持在該研究領(lǐng)域。沒有放棄。
人們有所不知的是。在李生的科研生涯中。他曾做過20多年的行政工作。為了盡量不分散精力。李生利用晚間、周末、各種假期。繼續(xù)干著他愿意干且喜歡干的事。不為任何困難所動。
如今。李生已經(jīng)年過七旬。他卻想到借助深層語義分析來進(jìn)一步提高譯文的質(zhì)量。機(jī)器翻譯從一開始就是一個(gè)跨學(xué)科的研究領(lǐng)域。涉及計(jì)算機(jī)、語言學(xué)、數(shù)學(xué)。如今又多了人工智能。
機(jī)器翻譯的質(zhì)量始終無法得到質(zhì)的突破。近年來??茖W(xué)家開始將目光轉(zhuǎn)向認(rèn)知科學(xué)。人類在日常生活中進(jìn)行的翻譯是經(jīng)過大腦神經(jīng)網(wǎng)絡(luò)的理解分析加工完成的。因此。最直接的方法。就是讓機(jī)器模擬人腦的信息加工處理過程。進(jìn)行深度學(xué)習(xí)。
基于深度學(xué)習(xí)的翻譯系統(tǒng)的核心是一個(gè)擁有無數(shù)結(jié)點(diǎn)的多層神經(jīng)網(wǎng)絡(luò)。一種語言的句子被向量化之后。在網(wǎng)絡(luò)中層層傳遞。轉(zhuǎn)化為計(jì)算機(jī)可以理解的表示形式。再經(jīng)過多層復(fù)雜的傳導(dǎo)運(yùn)算。生成另一種語言的譯文。
但李生表示。這種全新的研究方向并不意味著拋棄過去的研究和應(yīng)用成果。而是必須與自然語言處理以及統(tǒng)計(jì)機(jī)器翻譯技術(shù)等結(jié)合起來才能實(shí)現(xiàn)。
至今。李生已經(jīng)帶出了42位博士。近200位位碩士。且大多數(shù)人依然堅(jiān)持在最初的研究領(lǐng)域中。其中。不乏包括ACL首位華人主席、百度公司技術(shù)副總裁王海峰、微軟亞洲研究院首席研究員周明這樣的業(yè)界精英。
李生擅長挖掘每個(gè)學(xué)生的不同潛能并進(jìn)行個(gè)性化培養(yǎng)。同時(shí)為他們提供一切可能的學(xué)習(xí)與就業(yè)機(jī)會。相應(yīng)的。李生的學(xué)生們在國內(nèi)自然語言處理的研究與應(yīng)用領(lǐng)域做出了大量出色的工作。
“我的老師曾說過要做我們的墊腳石。如今。我就是學(xué)生們的人梯。讓他們踩在肩膀上。”李生說。盡管人類對自身大腦在認(rèn)知領(lǐng)域的探索還在初級階段。也許終其一生仍無法完成這項(xiàng)挑戰(zhàn)。“但我還有我的學(xué)生和學(xué)生的學(xué)生”。
《中國科學(xué)報(bào)》 (2015-10-23 第5版 人物)
上一篇:翻譯哪家公司好的分享深圳翻譯公司 草嬰:一棵樸實(shí)剛毅的小草
下一篇:英文投標(biāo)書翻譯說說深圳翻譯公司 2010-2015年中國翻譯行業(yè)專項(xiàng)調(diào)研及投資價(jià)值