成人国产在线免播放器最近|久久免费视频2000|日韩精品亚洲精品中文字幕乱伦AV|五月丁香乱伦图一本AV不卡1区

手機(jī)號
驗(yàn)證碼
立即登錄    忘記密碼? 注冊
手機(jī)號
郵箱
立即登錄    免費(fèi)注冊 找回密碼

2018/9/17 9:46:00

機(jī)器翻譯研究人員熱衷于什么樣的內(nèi)容?

康奈爾大學(xué)的研究論文自動(dòng)化在線發(fā)布系統(tǒng)Arxiv.org是任何有興趣了解神經(jīng)機(jī)器翻譯(NMT)最新進(jìn)展的人士的豐富資源。從我們第一次寫到關(guān)于提交給Arxiv的論文數(shù)量反映出來的學(xué)術(shù)NMT研究的急劇加速已經(jīng)差不多一年了,而且這種上升趨勢還在繼續(xù)

 

因此,在過去的105天中,直到上周中旬,有46篇關(guān)于NMT的研究論文被提交給Arxiv。難怪我們幾乎每隔一天就碰到一起 - 實(shí)際上每隔2.3天就會(huì)有一篇關(guān)于NMT的新文章。

 

經(jīng)過仔細(xì)檢查,基于這些NMT論文的主題,出現(xiàn)了關(guān)于研究方向的模式。根據(jù)對其內(nèi)容的粗略閱讀對研究論文進(jìn)行分類后,Slator決定根據(jù)意圖對其進(jìn)行分組,而不是結(jié)果。畢竟,幾乎每個(gè)研究方向都會(huì)產(chǎn)生相同的最終結(jié)果:NMT模型和總體產(chǎn)出的改進(jìn)。

 

免責(zé)聲明:Slator并不是學(xué)術(shù)研究和分類的最終權(quán)威,而這些類別旨在顯示研究人員正在采取的一般方向。

 

改進(jìn)NMT輸出

 

NMT最明顯的下一步也是研究最多的話題。最近在Arxiv上發(fā)表的46篇研究論文中有8篇涉及以某種方式改進(jìn)NMT產(chǎn)出。

 

有一些研究將前人基于短語的MT方法的方面應(yīng)用到當(dāng)前的NMT模型中,通過基于語法的權(quán)重改變解碼器的注意機(jī)制在本地的注意力的實(shí)驗(yàn),甚至應(yīng)用方法來幫助NMT模型處理更有創(chuàng)意的方面翻譯如處理成語。

 

事實(shí)上,已發(fā)表的46篇關(guān)于習(xí)語翻譯的論文有兩篇。一個(gè)人使用了慣用表達(dá)式的直接翻譯黑名單來識別測試集中的文字翻譯錯(cuò)誤。另一種方法在模型的訓(xùn)練數(shù)據(jù)中添加了慣用表達(dá)式,并對它們進(jìn)行了標(biāo)注以供識別。

解決培訓(xùn)數(shù)據(jù)限制

 

NMT模型被描述為數(shù)據(jù)饑餓,數(shù)據(jù)質(zhì)量越高,域內(nèi)語料越多,系統(tǒng)就會(huì)越好。

 

最近發(fā)表的46篇研究論文中有7篇研究了訓(xùn)練數(shù)據(jù)約束,試圖找出為什么NMT模型需要特定數(shù)據(jù)或如何解決現(xiàn)有的已知限制,如低資源語言。

 

已經(jīng)對僅使用部分對齊的語料庫訓(xùn)練NMT模型進(jìn)行了研究,了解訓(xùn)練數(shù)據(jù)中合成噪聲和自然噪聲如何打破NMT輸出流暢性,當(dāng)然也是最具挑戰(zhàn)性和迫切性的問題:解決低資源語言的NMT問題。其中一個(gè)例子是討論森林到序列模型的論文,該模型通過向訓(xùn)練數(shù)據(jù)添加語法信息來提高低資源語言的翻譯準(zhǔn)確性。另一個(gè)側(cè)重于使用外部詞匯的外部詞典來增強(qiáng)訓(xùn)練數(shù)據(jù)。

新的或改進(jìn)的NMT模型

 

遞歸神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)和自我注意變換器是當(dāng)今NMT系統(tǒng)使用的深度學(xué)習(xí)模型的主要類型。這并不意味著研究人員會(huì)停止尋找新的或改進(jìn)的模型。

 

實(shí)際上,有七篇研究論文只關(guān)注這一點(diǎn)。Salesforce加權(quán)的自我注意變壓器模型,他們聲稱將處理速度提高10倍就是這樣一種模型。另一個(gè)是亞馬遜的Sockeye,亞馬遜研究團(tuán)隊(duì)在去年年底與其他模式對抗。

 

其他研究主要集中在變分遞歸神經(jīng)機(jī)器翻譯和異步雙向解碼。

文檔級上下文

 

NMT注入文檔級上下文的研究也是一個(gè)熱門的方向,有6篇論文集中在這個(gè)任務(wù)上。

 

由于NMT的流暢度是逐句限制的,因此它不能使用源語句之外的語境來翻譯其文本。簡而言之,它無法翻譯具有相同流利程度和充足性的整個(gè)文檔,因此不能翻譯其中的單個(gè)句子。

 

研究人員關(guān)注的一些方法包括:

 

    流解碼,來自先前翻譯的句子的預(yù)先存在的上下文的恒定流

 

    外部記憶與NMT模型結(jié)合使用

 

    使用緩存來充當(dāng)翻譯歷史或作為其他參考點(diǎn)

 

    基于解碼歷史,對NMT模型的關(guān)注機(jī)制應(yīng)用自適應(yīng)控制

 

后期編輯和模型學(xué)習(xí)

 

另外6篇研究論文涉及編輯后,在線和離線模型學(xué)習(xí)以及人的評估。

 

其中一篇論文是FacebookNMT通過非常簡單的交互進(jìn)行后期編輯。還有關(guān)于離線記錄數(shù)據(jù)到在線NMT模型和在線機(jī)器學(xué)習(xí)的討論。

 

此外,還有兩篇論文著重于人類評價(jià),尤其是關(guān)于“ NMT在線適應(yīng)用戶后編輯的第一次用戶研究的論文以及一篇論文一種定量細(xì)粒度人工評估方法來比較不同性能MT系統(tǒng)。

研究的其他方向

 

除此之外,有五篇論文致力于改進(jìn)各個(gè)方面的NMT解碼編碼過程。這些通常圍繞提高速度或效率,或降低功耗或要求。

 

四篇研究論文涉及了解NMT模型內(nèi)部工作的各個(gè)方面。其他三篇論文涉及各種主題,例如關(guān)于隱私的文章,該文章提出了一種方法來保留翻譯或分析的句子的含義,而不會(huì)泄露有關(guān)該主題的任何敏感信息。

 

當(dāng)然,大多數(shù)語言行業(yè)從業(yè)者不需要在審查個(gè)別研究論文的過程中陷入漏洞。他們只是在他們的生產(chǎn)力工具中使用任何公開可用的NMT門戶網(wǎng)站或NMT插件,并快速了解該技術(shù)的進(jìn)展情況。但是,仍然值得關(guān)注學(xué)術(shù)界正在發(fā)生的事情。畢竟,目前正在重塑行業(yè)的技術(shù)也開始成為無害的研究論文。

 

為了理解當(dāng)前研究的方向,我們回顧了2018年前六周以及去年的最后幾個(gè)月研究庫中的NMT相關(guān)論文。從2017111日至2018214日,共有58篇相關(guān)論文。這些論文中有12篇并非直接關(guān)于NMT,而是專注于通過神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí),或者關(guān)注自然語言處理等相鄰技術(shù)。

 

——選自:樂文翻譯

 

樂文翻譯目前是國內(nèi)專業(yè)的翻譯機(jī)構(gòu)之一,公司秉承“誠信 專業(yè)的服務(wù)理念,為國內(nèi)外客戶提供一流服務(wù)。了解更多信息:請發(fā)郵箱:abc@lewene.com或直接致電:400-895-6679咨詢。

閱讀文章:積分+1