2018/9/14 13:45:00
機(jī)器翻譯質(zhì)量的評(píng)估體系
運(yùn)行基于人員的質(zhì)量得分是一項(xiàng)重大任務(wù),即使只有一家NMT供應(yīng)商也是如此。它需要多達(dá)4000名審閱者處理數(shù)千個(gè)項(xiàng)目。
這個(gè)過(guò)程與每個(gè)NMT供應(yīng)商都有關(guān),他們想知道他們系統(tǒng)的真實(shí)價(jià)值,并獲得真實(shí)的人類對(duì)其翻譯產(chǎn)生的反饋。
當(dāng)然,主要的挑戰(zhàn)在于發(fā)現(xiàn),測(cè)試,篩選,培訓(xùn)和監(jiān)控?cái)?shù)千名來(lái)自不同國(guó)家和語(yǔ)言的評(píng)論員 - 在他們同時(shí)處理數(shù)萬(wàn)個(gè)項(xiàng)目的同時(shí)監(jiān)控他們的工作。
更好的行業(yè)級(jí)質(zhì)量得分
考慮更大的好處,真正需要的是行業(yè)使用的標(biāo)準(zhǔn)化NMT質(zhì)量分?jǐn)?shù),使用相同的基準(zhǔn),字符串和評(píng)審員測(cè)量所有各種系統(tǒng),以便比較類似的性能。由于NMT系統(tǒng)的性能在不同類型的材料和語(yǔ)言之間可能會(huì)有很大差異,所以使用同一組語(yǔ)言學(xué)家和相同的源材料進(jìn)行真正的基于人的比較是產(chǎn)生真實(shí)比較結(jié)果的唯一方法。對(duì)于單個(gè)NMT供應(yīng)商或用戶,以及最終用戶或LSP試圖決定使用哪個(gè)引擎,這樣的分?jǐn)?shù)都是有用的。
在行業(yè)相關(guān)的層面上進(jìn)行相同的測(cè)試是一項(xiàng)更大的任務(wù)。使用10個(gè)NMT引擎,10種類型的材料,10個(gè)語(yǔ)言對(duì)和40個(gè)審閱者,項(xiàng)目參數(shù)可概括如下:
假設(shè)評(píng)估前10個(gè)語(yǔ)言對(duì),即EN> ES,F(xiàn)R,DE,PT-BR,AR,RU,CN,JP,IT和KR;
10種類型的材料 - 一般,法律,市場(chǎng)營(yíng)銷,金融,游戲,軟件,醫(yī)療,技術(shù),科學(xué)和旅游;
谷歌,微軟(Bing),亞馬遜,DeepL,Systran,百度,Promt,IBM Watson,Globalese和Yandex等10個(gè)領(lǐng)先的(基于網(wǎng)絡(luò)的)引擎;
40名評(píng)論者對(duì)每個(gè)項(xiàng)目進(jìn)行評(píng)分
每個(gè)測(cè)試30個(gè)字符串;和
每個(gè)字符串平均12個(gè)字
這涉及總計(jì)40,000個(gè)單獨(dú)的測(cè)試(10個(gè)語(yǔ)言對(duì)×10種材料×10個(gè)NMT引擎×40個(gè)評(píng)論者),每個(gè)測(cè)試都至少有30個(gè)字符串,即1,200,000個(gè)字符串,每個(gè)12個(gè)字,導(dǎo)致約1440萬(wàn)話。需要進(jìn)行此評(píng)估才能創(chuàng)建一個(gè)真實(shí)的,比較性的,基于人的NMT質(zhì)量指標(biāo)的實(shí)例(!)。
挑戰(zhàn)是顯而易見的:為了只產(chǎn)生一個(gè)真實(shí)可行且有用的NMT分?jǐn)?shù)的實(shí)例,4000名語(yǔ)言學(xué)家需要評(píng)估1,200,000個(gè)字符串,等同于超過(guò)1400萬(wàn)字!
該項(xiàng)目的規(guī)模,參與人數(shù)以及招聘,培訓(xùn)和監(jiān)督所有審核人員的要求,以及確保他們正確地做好工作,這些工作顯然是艱巨的任務(wù),即使是大型NMT玩家,當(dāng)然還有傳統(tǒng)的翻譯公司。
在合理的時(shí)間內(nèi)(例如少于一天)完成整個(gè)過(guò)程,以便結(jié)果“新鮮”并且相關(guān)更加困難。
有很多翻譯機(jī)構(gòu)沒有能力,技術(shù)和運(yùn)營(yíng)能力來(lái)定期開展這么大規(guī)模的項(xiàng)目。
這就是One Hour Translation(OHT)所擅長(zhǎng)的。我們用超過(guò)50種語(yǔ)言招募,培訓(xùn)和測(cè)試了數(shù)千名語(yǔ)言專家,并且已經(jīng)為我們的客戶運(yùn)行了超過(guò)1,000,000個(gè)NMT評(píng)級(jí)和測(cè)試項(xiàng)目。到2018年4月底,我們將發(fā)布首個(gè)以人為本的NMT質(zhì)量指數(shù)(最初涵蓋多個(gè)引擎和領(lǐng)域,后來(lái)擴(kuò)大),目標(biāo)是促進(jìn)整個(gè)行業(yè)使用NMT。
OHT是NMT開拓者,也是為數(shù)不多的需要部署“混合”模式的翻譯機(jī)構(gòu)之一,將NMT和人員后期編輯相結(jié)合,以減少提供高質(zhì)量商業(yè)翻譯所需的成本和時(shí)間。傳統(tǒng)人類翻譯領(lǐng)域的革命已經(jīng)發(fā)生,創(chuàng)建NMT指數(shù)是OHT展示我們對(duì)NMT現(xiàn)象的承諾和體驗(yàn)的方式。
關(guān)于未來(lái)的一句話
未來(lái),可以使用相同技術(shù)構(gòu)建更好的NMT質(zhì)量指數(shù)NMT,即深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。構(gòu)建神經(jīng)質(zhì)量系統(tǒng)就像構(gòu)建NMT系統(tǒng)一樣。所需的成分是高質(zhì)量的翻譯,高容量和質(zhì)量評(píng)價(jià)/反饋。
有了這些成分,就有可能建立一個(gè)深度學(xué)習(xí),基于神經(jīng)網(wǎng)絡(luò)的質(zhì)量控制系統(tǒng),該系統(tǒng)將讀取翻譯并像人一樣對(duì)其進(jìn)行評(píng)分。一旦NMT系統(tǒng)工作順利,開發(fā)出可靠的,基于人的質(zhì)量評(píng)分/反饋,下一步就是創(chuàng)建一個(gè)神經(jīng)質(zhì)量評(píng)分。
一旦獲得了神經(jīng)質(zhì)量評(píng)分,就有可能讓引擎相互改進(jìn),并通過(guò)將神經(jīng)質(zhì)量評(píng)分與NMT聯(lián)系起來(lái)創(chuàng)建一個(gè)自學(xué)習(xí)和自我完善的翻譯系統(tǒng)(顯然,它沒有任何意義一個(gè)閉環(huán)系統(tǒng),因?yàn)槿绻麤]有額外的外部數(shù)據(jù)它就無(wú)法改進(jìn))。
——選自:樂文翻譯
樂文翻譯目前是國(guó)內(nèi)專業(yè)的翻譯機(jī)構(gòu)之一,公司秉承“誠(chéng)信 專業(yè)”的服務(wù)理念,為國(guó)內(nèi)外客戶提供一流服務(wù)。了解更多信息:請(qǐng)發(fā)郵箱:abc@lewene.com或直接致電:400-895-6679咨詢。