2018/9/20 9:36:00
華為陳圣權(quán):數(shù)據(jù)是機(jī)器翻譯發(fā)展的重要因素
在《圣經(jīng)》中,人類(lèi)聯(lián)合起來(lái)興建希望能通往天堂的高塔;為了阻止人類(lèi)的計(jì)劃,上帝讓人類(lèi)說(shuō)不同的語(yǔ)言,使人類(lèi)相互之間不能溝通,巴別塔計(jì)劃因此而終結(jié),而巴別塔也成為語(yǔ)言障礙的一個(gè)代名詞。
而借助實(shí)現(xiàn)高效率、高質(zhì)量的機(jī)器翻譯,我們卻有可能打破語(yǔ)言障礙,實(shí)現(xiàn)跨越語(yǔ)言的無(wú)障礙交流。
近日,ChinaIT.com獨(dú)家專(zhuān)訪了中國(guó)翻譯協(xié)會(huì)副會(huì)長(zhǎng)、華為翻譯中心前主任陳圣權(quán),他對(duì)于機(jī)器翻譯行業(yè)的發(fā)展、應(yīng)用前景等方面提出了許多獨(dú)到的見(jiàn)解。
人工智能技術(shù)推動(dòng)機(jī)器翻譯快速發(fā)展
作為計(jì)算語(yǔ)言學(xué)的一個(gè)分支,機(jī)器翻譯的發(fā)展依賴于人工智能技術(shù)的演進(jìn),特別是神經(jīng)網(wǎng)絡(luò)等技術(shù)的出現(xiàn),讓機(jī)器翻譯技術(shù)得到了突飛猛進(jìn)的提升。
陳圣權(quán)認(rèn)為,機(jī)器翻譯的進(jìn)步首先體現(xiàn)在效率方面,依托于強(qiáng)大的運(yùn)算能力,機(jī)器翻譯速度遠(yuǎn)超過(guò)人工翻譯,可以做到“立等可取”;
其次,機(jī)器翻譯越來(lái)越?jīng)]有“翻譯腔”了,滿足了基本的可讀性和可用性的需求,讓人類(lèi)可以擺脫簡(jiǎn)單、機(jī)械的翻譯工作,投入到真正有創(chuàng)造性的翻譯工作上。
“跨國(guó)公司的內(nèi)部交流、專(zhuān)業(yè)說(shuō)明書(shū)翻譯、代碼注釋等場(chǎng)景是機(jī)器翻譯在企業(yè)內(nèi)部常見(jiàn)的幾個(gè)應(yīng)用場(chǎng)景,其不僅在速度上遠(yuǎn)遠(yuǎn)超過(guò)了人工翻譯,而且準(zhǔn)確率也達(dá)到了很高的水平。
以華為為例,機(jī)器翻譯目前已經(jīng)幫助華為大大加快了翻譯的交付速度,節(jié)約了30%的人力資源成本,還挖掘了不少翻譯需求。
目前,注冊(cè)華為機(jī)器翻譯系統(tǒng)的用戶達(dá)到9萬(wàn)多人,每天翻譯的交付量達(dá)到5000萬(wàn)-1億字符數(shù)。”陳圣權(quán)表示。
“作為人工智能的典型應(yīng)用場(chǎng)景之一,機(jī)器翻譯現(xiàn)在已經(jīng)相對(duì)較為成熟,在特定場(chǎng)景下,機(jī)器翻譯甚至能夠比人工翻譯的效果更好,”陳圣權(quán)表示,“隨著人工智能技術(shù)的進(jìn)步,機(jī)器翻譯將會(huì)應(yīng)用在更多場(chǎng)景中”。
數(shù)據(jù)成為機(jī)器翻譯的核心要素之一
機(jī)器翻譯技術(shù)與應(yīng)用近年之所以得到了突飛猛進(jìn)的進(jìn)展,與人工智能的廣泛應(yīng)用是分不開(kāi)的,正是因?yàn)槿斯ぶ悄芗夹g(shù)的發(fā)展,使得機(jī)器可以擺脫傳統(tǒng)的翻譯模式,從而“讀懂”不同的語(yǔ)言。
“與人工智能發(fā)展的要素相似,目前機(jī)器翻譯發(fā)展的要素也可以歸結(jié)為以下幾點(diǎn):強(qiáng)大的計(jì)算能力、先進(jìn)的算法模型、以及豐富的數(shù)據(jù)?!?/span>
其中,陳圣權(quán)特別提到了數(shù)據(jù)的重要性,他認(rèn)為,在現(xiàn)階段的機(jī)器翻譯應(yīng)用實(shí)踐中,計(jì)算能力并不是顯著的瓶頸,而且開(kāi)源社區(qū)也提供了大量先進(jìn)、且仍在不斷進(jìn)化的機(jī)器翻譯算法模型,這讓機(jī)器翻譯的技術(shù)門(mén)檻大幅降低。
相比較之下,數(shù)據(jù)的重要性更加凸顯,數(shù)據(jù)量的大小和精準(zhǔn)程度往往決定了機(jī)器翻譯引擎的效果,谷歌在機(jī)器翻譯領(lǐng)域下過(guò)一個(gè)論斷:數(shù)據(jù)集規(guī)模每翻一倍,它自動(dòng)評(píng)價(jià)的指標(biāo)就能夠提升0.5個(gè)百分點(diǎn)。
特別是在行業(yè)化場(chǎng)景的機(jī)器翻譯需求中,數(shù)據(jù)的掣肘就顯得明顯。面向公眾的機(jī)器翻譯系統(tǒng)尚可以依賴互聯(lián)網(wǎng)上的公開(kāi)數(shù)據(jù),滿足部分日常場(chǎng)景的翻譯需求,但是一旦涉及到專(zhuān)業(yè)領(lǐng)域或是企業(yè)內(nèi)部的翻譯需求,這些數(shù)據(jù)就遠(yuǎn)遠(yuǎn)不夠了。
“由于數(shù)據(jù)保護(hù)、個(gè)人隱私、合規(guī)性等方面的考慮,很少有企業(yè)會(huì)向機(jī)器翻譯應(yīng)用開(kāi)放自己的數(shù)據(jù),這一問(wèn)題在很長(zhǎng)時(shí)間內(nèi)都將難以得到解決,如果得不到這些數(shù)據(jù)的支撐,機(jī)器翻譯的質(zhì)量將會(huì)受到很大影響。
華為的機(jī)器翻譯實(shí)踐也表明,在內(nèi)部文檔翻譯方面,自有平臺(tái)在翻譯質(zhì)量方面顯著超過(guò)谷歌等機(jī)器翻譯平臺(tái)”,陳圣權(quán)表示,“因此,在行業(yè)應(yīng)用方面,由通用型的機(jī)器翻譯平臺(tái)+企業(yè)自有訓(xùn)練數(shù)據(jù)+定制化能力組成的機(jī)器翻譯解決方案,將會(huì)成為現(xiàn)階段企業(yè)擁抱機(jī)器翻譯的優(yōu)先選擇。”
機(jī)器翻譯的未來(lái)可期
雖然機(jī)器翻譯的應(yīng)用目前仍局限于特定場(chǎng)景中,但是機(jī)器翻譯的發(fā)展速度讓我們對(duì)于未來(lái)抱有非常樂(lè)觀的態(tài)度。
特別是在神經(jīng)網(wǎng)絡(luò)取代統(tǒng)計(jì)學(xué)派成為翻譯領(lǐng)域的主流研究方法之后,機(jī)器翻譯的單詞錯(cuò)誤率、詞匯錯(cuò)誤和語(yǔ)法錯(cuò)誤率都大幅降低,超過(guò)了過(guò)去幾十年所取得的成績(jī)。
可以預(yù)見(jiàn),隨著神經(jīng)網(wǎng)絡(luò)等技術(shù)的繼續(xù)提升,機(jī)器翻譯的準(zhǔn)確率還將進(jìn)一步提升。
就像陳圣權(quán)所說(shuō),“除了文學(xué)、藝術(shù)等比較優(yōu)美,需要發(fā)揮人類(lèi)創(chuàng)造力、融合人類(lèi)情感的翻譯需求之外,機(jī)器翻譯將進(jìn)一步替代人類(lèi)翻譯,滿足不同語(yǔ)言的溝通需求?!?/span>
——選自:樂(lè)文翻譯
樂(lè)文翻譯目前是國(guó)內(nèi)專(zhuān)業(yè)的翻譯機(jī)構(gòu)之一,公司秉承“誠(chéng)信 專(zhuān)業(yè)”的服務(wù)理念,為國(guó)內(nèi)外客戶提供一流服務(wù)。了解更多信息:請(qǐng)發(fā)郵箱:abc@lewene.com或直接致電:400-895-6679咨詢。