2018/5/21 13:58:00
機(jī)器翻譯的發(fā)展史
樂文濮陽翻譯公司分享:
機(jī)器翻譯達(dá)到目前的水平,經(jīng)過了幾十年的發(fā)展,并經(jīng)歷了三次飛躍。
早在1954年,人類就開始嘗試過讓機(jī)器能識別人類的語言,但直到上世紀(jì)80年代,才有人摸索出方法。當(dāng)時,IBM做了研究,利用一些規(guī)則方法,句法分析,語意分析等傳統(tǒng)方法讓機(jī)器看懂人類語言。但由于當(dāng)時的人工智能發(fā)展處于“凜冬時期”,效果一直不好,翻譯質(zhì)量也一直上不去。
機(jī)器翻譯的第一個飛躍也是IBM做出的。IBM的研究人員用了統(tǒng)計的方法來做機(jī)器翻譯。那時,語音識別從傳統(tǒng)的人工智能方法專家系統(tǒng)轉(zhuǎn)為統(tǒng)計學(xué)習(xí)的方法,尤以隱馬爾科夫模型為代表。統(tǒng)計學(xué)方法的應(yīng)用讓機(jī)器翻譯在上世紀(jì)90年代有了質(zhì)的飛躍。
進(jìn)入21世紀(jì),機(jī)器翻譯迎來了自己的第二次飛躍。這次的進(jìn)步主要依靠深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的方法。這種方法也稱為神經(jīng)機(jī)器翻譯(Neural Machine Translation),這個技術(shù)先是用到了語音識別中,再推廣到圖像識別和機(jī)器翻譯上。
神經(jīng)機(jī)器翻譯,簡要的說,就是對源語言的句子進(jìn)行編碼,即轉(zhuǎn)化為計算機(jī)可以“理解”的形式,編碼的結(jié)果會形成很多隱含變量,每個隱含變量代表從句首到當(dāng)前詞匯為止的語義信息。然后通過一個解碼的過程,一個詞、一個詞輸出譯文。
到了2018年,由微軟亞洲研究院與雷德蒙研究院研發(fā)的機(jī)器翻譯系統(tǒng),解決了NMT方法的一些局限,并借鑒了人類翻譯過程中的一些方式。例如:對偶學(xué)習(xí)(Dual
Learning)、推敲網(wǎng)絡(luò)(Deliberation Networks)、一致性規(guī)范(Agreement Regularization)、聯(lián)合訓(xùn)練(Joint
Training)等,讓機(jī)器翻譯水平得到了大大提升。
從機(jī)器翻譯的三次飛躍上不難看出,一家公司構(gòu)建的翻譯系統(tǒng)效果如何,主要取決與兩點:一是算法是否足夠好,二是數(shù)據(jù)是否夠全、夠多。
這樣看,對于微軟、谷歌、百度等大公司來說,他們有足夠優(yōu)秀的人才來搭建神經(jīng)網(wǎng)絡(luò),也有足夠多的搜索數(shù)據(jù)可供自己搭建的網(wǎng)絡(luò)進(jìn)行訓(xùn)練。國內(nèi)的科大訊飛和搜狗公司,由于本身在語音識別上有較長時間的積累,自然語言資料庫上有優(yōu)勢。