9/20/2018 9:36:00 AM
華為陳圣權(quán):數(shù)據(jù)是機器翻譯發(fā)展的重要因素
在《圣經(jīng)》中,人類聯(lián)合起來興建希望能通往天堂的高塔;為了阻止人類的計劃,上帝讓人類說不同的語言,使人類相互之間不能溝通,巴別塔計劃因此而終結(jié),而巴別塔也成為語言障礙的一個代名詞。
而借助實現(xiàn)高效率、高質(zhì)量的機器翻譯,我們卻有可能打破語言障礙,實現(xiàn)跨越語言的無障礙交流。
近日,ChinaIT.com獨家專訪了中國翻譯協(xié)會副會長、華為翻譯中心前主任陳圣權(quán),他對于機器翻譯行業(yè)的發(fā)展、應(yīng)用前景等方面提出了許多獨到的見解。
人工智能技術(shù)推動機器翻譯快速發(fā)展
作為計算語言學(xué)的一個分支,機器翻譯的發(fā)展依賴于人工智能技術(shù)的演進(jìn),特別是神經(jīng)網(wǎng)絡(luò)等技術(shù)的出現(xiàn),讓機器翻譯技術(shù)得到了突飛猛進(jìn)的提升。
陳圣權(quán)認(rèn)為,機器翻譯的進(jìn)步首先體現(xiàn)在效率方面,依托于強大的運算能力,機器翻譯速度遠(yuǎn)超過人工翻譯,可以做到“立等可取”;
其次,機器翻譯越來越?jīng)]有“翻譯腔”了,滿足了基本的可讀性和可用性的需求,讓人類可以擺脫簡單、機械的翻譯工作,投入到真正有創(chuàng)造性的翻譯工作上。
“跨國公司的內(nèi)部交流、專業(yè)說明書翻譯、代碼注釋等場景是機器翻譯在企業(yè)內(nèi)部常見的幾個應(yīng)用場景,其不僅在速度上遠(yuǎn)遠(yuǎn)超過了人工翻譯,而且準(zhǔn)確率也達(dá)到了很高的水平。
以華為為例,機器翻譯目前已經(jīng)幫助華為大大加快了翻譯的交付速度,節(jié)約了30%的人力資源成本,還挖掘了不少翻譯需求。
目前,注冊華為機器翻譯系統(tǒng)的用戶達(dá)到9萬多人,每天翻譯的交付量達(dá)到5000萬-1億字符數(shù)。”陳圣權(quán)表示。
“作為人工智能的典型應(yīng)用場景之一,機器翻譯現(xiàn)在已經(jīng)相對較為成熟,在特定場景下,機器翻譯甚至能夠比人工翻譯的效果更好,”陳圣權(quán)表示,“隨著人工智能技術(shù)的進(jìn)步,機器翻譯將會應(yīng)用在更多場景中”。
數(shù)據(jù)成為機器翻譯的核心要素之一
機器翻譯技術(shù)與應(yīng)用近年之所以得到了突飛猛進(jìn)的進(jìn)展,與人工智能的廣泛應(yīng)用是分不開的,正是因為人工智能技術(shù)的發(fā)展,使得機器可以擺脫傳統(tǒng)的翻譯模式,從而“讀懂”不同的語言。
“與人工智能發(fā)展的要素相似,目前機器翻譯發(fā)展的要素也可以歸結(jié)為以下幾點:強大的計算能力、先進(jìn)的算法模型、以及豐富的數(shù)據(jù)?!?/span>
其中,陳圣權(quán)特別提到了數(shù)據(jù)的重要性,他認(rèn)為,在現(xiàn)階段的機器翻譯應(yīng)用實踐中,計算能力并不是顯著的瓶頸,而且開源社區(qū)也提供了大量先進(jìn)、且仍在不斷進(jìn)化的機器翻譯算法模型,這讓機器翻譯的技術(shù)門檻大幅降低。
相比較之下,數(shù)據(jù)的重要性更加凸顯,數(shù)據(jù)量的大小和精準(zhǔn)程度往往決定了機器翻譯引擎的效果,谷歌在機器翻譯領(lǐng)域下過一個論斷:數(shù)據(jù)集規(guī)模每翻一倍,它自動評價的指標(biāo)就能夠提升0.5個百分點。
特別是在行業(yè)化場景的機器翻譯需求中,數(shù)據(jù)的掣肘就顯得明顯。面向公眾的機器翻譯系統(tǒng)尚可以依賴互聯(lián)網(wǎng)上的公開數(shù)據(jù),滿足部分日常場景的翻譯需求,但是一旦涉及到專業(yè)領(lǐng)域或是企業(yè)內(nèi)部的翻譯需求,這些數(shù)據(jù)就遠(yuǎn)遠(yuǎn)不夠了。
“由于數(shù)據(jù)保護、個人隱私、合規(guī)性等方面的考慮,很少有企業(yè)會向機器翻譯應(yīng)用開放自己的數(shù)據(jù),這一問題在很長時間內(nèi)都將難以得到解決,如果得不到這些數(shù)據(jù)的支撐,機器翻譯的質(zhì)量將會受到很大影響。
華為的機器翻譯實踐也表明,在內(nèi)部文檔翻譯方面,自有平臺在翻譯質(zhì)量方面顯著超過谷歌等機器翻譯平臺”,陳圣權(quán)表示,“因此,在行業(yè)應(yīng)用方面,由通用型的機器翻譯平臺+企業(yè)自有訓(xùn)練數(shù)據(jù)+定制化能力組成的機器翻譯解決方案,將會成為現(xiàn)階段企業(yè)擁抱機器翻譯的優(yōu)先選擇。”
機器翻譯的未來可期
雖然機器翻譯的應(yīng)用目前仍局限于特定場景中,但是機器翻譯的發(fā)展速度讓我們對于未來抱有非常樂觀的態(tài)度。
特別是在神經(jīng)網(wǎng)絡(luò)取代統(tǒng)計學(xué)派成為翻譯領(lǐng)域的主流研究方法之后,機器翻譯的單詞錯誤率、詞匯錯誤和語法錯誤率都大幅降低,超過了過去幾十年所取得的成績。
可以預(yù)見,隨著神經(jīng)網(wǎng)絡(luò)等技術(shù)的繼續(xù)提升,機器翻譯的準(zhǔn)確率還將進(jìn)一步提升。
就像陳圣權(quán)所說,“除了文學(xué)、藝術(shù)等比較優(yōu)美,需要發(fā)揮人類創(chuàng)造力、融合人類情感的翻譯需求之外,機器翻譯將進(jìn)一步替代人類翻譯,滿足不同語言的溝通需求?!?/span>
——選自:樂文翻譯
樂文翻譯目前是國內(nèi)專業(yè)的翻譯機構(gòu)之一,公司秉承“誠信 專業(yè)”的服務(wù)理念,為國內(nèi)外客戶提供一流服務(wù)。了解更多信息:請發(fā)郵箱:abc@lewene.com或直接致電:400-895-6679咨詢。