成人国产在线免播放器最近|久久免费视频2000|日韩精品亚洲精品中文字幕乱伦AV|五月丁香乱伦图一本AV不卡1区

手機(jī)號
驗(yàn)證碼
立即登錄    忘記密碼? 注冊
手機(jī)號
郵箱
立即登錄    免費(fèi)注冊 找回密碼

2018/5/31 15:25:00

駐馬店翻譯公司:機(jī)器翻譯的原理

樂文駐馬店翻譯公司機(jī)器翻譯(Machine Translation,MT)是建立在多學(xué)科基礎(chǔ)上的綜合學(xué)科,現(xiàn)代理論語言學(xué)的發(fā)展,計(jì)算機(jī)科學(xué)的進(jìn)步,信息學(xué)和概率統(tǒng)計(jì)學(xué)的應(yīng)用,對機(jī)器翻譯的發(fā)展和演變產(chǎn)生了重要影響。機(jī)器翻譯的基本思想是利用計(jì)算機(jī)對自然語言進(jìn)行翻譯,而各種機(jī)器翻譯系統(tǒng)采用的技術(shù)和理念不盡相同;面對各種各樣的機(jī)器翻譯系統(tǒng),文獻(xiàn)上有各種分類方式。本文根據(jù)所應(yīng)用的基本工作原理對機(jī)器翻譯系統(tǒng)分類作一綜述。
  1.基本類型的機(jī)器翻譯系統(tǒng):現(xiàn)有的機(jī)器翻譯系統(tǒng)按照其基本工作原理,可以分為基于規(guī)則的(Rule-Based)機(jī)器翻譯,基于實(shí)例的(Example-Based)機(jī)器翻譯和統(tǒng)計(jì)型的(Statistical)機(jī)器翻譯這三種基本類型。
  1.1.基于規(guī)則的機(jī)器翻譯系統(tǒng)(Rule-Based Machine Translation, RBMT):其基本工作原理基于一個(gè)假設(shè),即語言無限的句子可以由有限的規(guī)則推導(dǎo)出來?;谶@個(gè)假設(shè)的機(jī)器翻譯方法又可以分為三類:直接翻譯法(Direct Translation),中間語言法(Interlingual Approach),和轉(zhuǎn)換法(Transfer Approach)。它們都需要用到大規(guī)模的雙語詞典,需要用到源語言推導(dǎo)規(guī)則,語言轉(zhuǎn)換規(guī)則和目標(biāo)語言生成規(guī)則;其不同點(diǎn)在于對語言進(jìn)行的分析深度不同。如直譯法幾乎不需要進(jìn)行語言分析,中間語言法和轉(zhuǎn)換法需要對源語言和目標(biāo)語言進(jìn)行某種程度的語言分析。
  1.1.1直接翻譯法(Direct Translation):這種翻譯方法直接對源文字中的字詞進(jìn)行逐個(gè)翻譯,譯后文字順序按照原文順序進(jìn)行排列。這是基于規(guī)則的機(jī)器翻譯的最早的工作方法。這種譯法簡單、直觀,其弊端也是明顯的:由這種方法得到的翻譯結(jié)果質(zhì)量很不令人滿意。人們已經(jīng)逐漸不再使用這種直接翻譯法。
  1.1.2中間語言法(Interlingual Approach):這種翻譯方法對源語言文字進(jìn)行透徹的語言分析,將其轉(zhuǎn)化為一種中間語言表達(dá)形式,進(jìn)而由這種中間語言(Interlingua)進(jìn)一步生成和輸出符合目標(biāo)語言語法規(guī)則的文字。這種中間語言是一種非自然語言,即不是任何國家地區(qū)人們使用的語言;而且它是一種沒有歧義的表達(dá)方式。此外,中間語言不是唯一的,不同的系統(tǒng)采用不同的中間語言。任意一種語言經(jīng)由中間語言譯為其它任意一種語言,理論上這種中間語言法是最有效率的一種翻譯方式。假定世界上總共有n種自然語言,使用中間語言法,只需2n個(gè)模塊就可以解決所有自然語言之間的互譯問題。不使用中間語言,這些語言間的互譯則需要n(n-1)個(gè)模塊。當(dāng)n大于3時(shí),2n小于n(n-1)。我們知道,世界上的自然語言種類遠(yuǎn)大于3,因此2n個(gè)模塊的數(shù)量遠(yuǎn)小于n(n-1)個(gè)模塊的數(shù)量。
  1.1.3轉(zhuǎn)換法(Transfer Approach):這種翻譯方法先對源語言文字進(jìn)行一定程度的語言分析,去除語法的因素,生成源語言的中間表達(dá)方式,然后經(jīng)由轉(zhuǎn)換,生成目標(biāo)語言的中間表達(dá)方式,再由目標(biāo)語言的中間表達(dá)方式生成和輸出符合目標(biāo)語言語法規(guī)則的文字。目前來說,轉(zhuǎn)換法的語言分析和實(shí)現(xiàn)方法在三種方法中最為復(fù)雜,得到的翻譯質(zhì)量在三種方法中也是最好的,是目前商業(yè)上最常使用的翻譯方法,在商業(yè)上最為成功。
  在許多基于規(guī)則的機(jī)器翻譯系統(tǒng)中,由語言學(xué)家輔助編寫一系列關(guān)于源語言和目標(biāo)語言的語法規(guī)則,以及將源語言數(shù)據(jù)轉(zhuǎn)換為目標(biāo)語言數(shù)據(jù)的轉(zhuǎn)換規(guī)則。然而使用全人工來制作這些規(guī)則非常昂貴、費(fèi)時(shí),而且易于出錯(cuò)。一個(gè)解決方法便是將以往的歷史翻譯結(jié)果作為資源庫,其中的源語言文字和它對應(yīng)的目標(biāo)語言譯文作為例子,從中嘗試提取出恰當(dāng)?shù)囊?guī)則。方法之一是對源文字和目標(biāo)語言譯文作人工標(biāo)記以示關(guān)聯(lián)。Sato 和Nagao[1]研發(fā)出一個(gè)系統(tǒng),用“平面依賴關(guān)系樹”來表示源語言文字和目標(biāo)語言文字。這種關(guān)系樹型數(shù)據(jù)結(jié)構(gòu)是計(jì)算機(jī)高效識別的一種形式。通常用兩個(gè)層次代表源語言和目標(biāo)語言之間的關(guān)聯(lián):第一層次依賴于文字的表面形式(如字、詞順序),用于源語言的分析和目標(biāo)語言的生成;第二層次依賴于字詞間的語義關(guān)聯(lián),用于從源語言向目標(biāo)語言的轉(zhuǎn)換。這種機(jī)器翻譯系統(tǒng)在基于規(guī)則的機(jī)器翻譯基礎(chǔ)上,利用了實(shí)例庫的優(yōu)勢。
  隨著大量歷史翻譯結(jié)果的積累,出現(xiàn)了基于實(shí)例的機(jī)器翻譯系統(tǒng),人們將這些已經(jīng)完成的翻譯結(jié)果作為資源庫,利用到機(jī)器翻譯中來。
  1.2.基于實(shí)例的機(jī)器翻譯(Example-Based Machine Translation,EBMT):其基本工作原理是基于類比(Analogy)的原則,從實(shí)例庫中匹配出與源文字片段最相似的文字片段,取出實(shí)例文字片段對應(yīng)的目標(biāo)語言翻譯結(jié)果,進(jìn)行適當(dāng)?shù)母脑?,最終得出完整的翻譯結(jié)果?;趯?shí)例的機(jī)器翻譯其核心思想最早由Mako Nagao 提出[2],他提出:人們在翻譯簡單句子時(shí)并不作深層語言分析,而是翻譯。首先把源句子分解成若干片段,然后將這些片段譯為目標(biāo)語言,每個(gè)片段的翻譯都是通過與例句做匹配以類比的原則得到的,最后將這些譯后句子組合成一個(gè)長句子。
  1.2.1.實(shí)例庫的構(gòu)成:實(shí)例庫也稱為語料庫(Corpus),由已經(jīng)完成的翻譯結(jié)果構(gòu)成。這些現(xiàn)成的翻譯結(jié)果也稱為語料,包括人工翻譯的結(jié)果和經(jīng)過人工編輯的機(jī)器翻譯結(jié)果。語料庫由雙語對構(gòu)成,包括源語言文字片段和目標(biāo)語言譯文文字片段兩部分。這些翻譯結(jié)果要先經(jīng)過拆分和對齊處理,才可以成為語料庫中的可用語料。因此語料庫也稱為平行雙語語料庫(Parallel Corpus)。拆分和對齊目前有多種形式,如句子水平的對齊和短語水平的對齊。對齊的文字片段大小的選擇,會(huì)直接影響匹配的效率和翻譯結(jié)果。
  1.2.2.語料拆分的碎片化問題:Nirenburg等(1993)指出,在基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT) 中,實(shí)例語料存在一個(gè)文字片段長度和相似度之間的一個(gè)矛盾。文字片段越長,越不易得到一個(gè)相似度高的匹配;文字片段越短,越可能得到一個(gè)大致匹配,但是得到低質(zhì)量翻譯結(jié)果的風(fēng)險(xiǎn)也越大。比如由段落劃分邊界產(chǎn)生的重疊問題以及不恰當(dāng)?shù)膭澐謱?dǎo)致的翻譯質(zhì)量下降。直觀上似乎是選擇以句子為單位劃分得到的語料對比較好,有諸多優(yōu)勢如:句子的邊界劃分清楚,一些簡單句子的結(jié)構(gòu)清晰。然而在實(shí)際應(yīng)用中,以句子為單位并不是最恰當(dāng)?shù)姆绞?。?shí)踐證明匹配和重組過程需要使用更加短小的片段[3]。(當(dāng)然,這些研究結(jié)果是以歐美語系語言之間的翻譯研究結(jié)果為基礎(chǔ)的。)
  1.2.3.實(shí)例庫定制:實(shí)例語料的的范圍和質(zhì)量影響著基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)的翻譯質(zhì)量水平。在某特定領(lǐng)域獲取高質(zhì)量語料可以大大提高機(jī)器翻譯在此領(lǐng)域的翻譯質(zhì)量,稱為語料(實(shí)例)庫的定制。
  1.3. 統(tǒng)計(jì)型機(jī)器翻譯系統(tǒng)(Statistical MT):IBM公司的Brown在1990年首先將統(tǒng)計(jì)模型用于法-英機(jī)器翻譯。其基本思想是:把機(jī)器翻譯問題看成是一個(gè)噪聲信道問題,然后用信道模型來進(jìn)行解碼。翻譯過程被看作是一個(gè)解碼的過程,進(jìn)而變成尋求最優(yōu)翻譯結(jié)果的過程?;谶@種思想的機(jī)器翻譯重點(diǎn)是定義最合適的語言概率模型和翻譯概率模型,然后對語言模型和翻譯模型的概率參數(shù)進(jìn)行估計(jì)。語言模型的參數(shù)估計(jì)需要大量的單語語料,翻譯模型的參數(shù)估計(jì)需要大量平行雙語語料。統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量很大程度上取決于語言模型和翻譯模型的性能,此外,要找到最優(yōu)的譯文,還需要有好的搜索算法。簡單說,統(tǒng)計(jì)機(jī)器翻譯首先建立統(tǒng)計(jì)模型,然后使用實(shí)例庫中的實(shí)例對統(tǒng)計(jì)模型進(jìn)行訓(xùn)練,得到需要的語言模型和翻譯模型用于翻譯。
  統(tǒng)計(jì)型機(jī)器翻譯,除了基于噪聲信道理論的系統(tǒng)以外,還有基于最大熵方法的系統(tǒng)。博格(A.L.Berger)在1996年 提出自然語言處理中“最大熵方法”(Maximum Entropy Approach)。德國人奧赫 (Franz Joseph Och)等發(fā)現(xiàn), 把IBM公司的統(tǒng)計(jì)機(jī)器翻譯基本方程式中的翻譯模型轉(zhuǎn)變?yōu)榉聪蚍g模型,總體的翻譯正確率并沒有降低,由此,他們提出基于最大熵方法的機(jī)器翻譯模型。
  統(tǒng)計(jì)型機(jī)器翻譯取得了一定的成績,然而純統(tǒng)計(jì)設(shè)計(jì)卻不能解決所有困難。統(tǒng)計(jì)型的方法不考慮語言的語義、語法因素,單純用數(shù)學(xué)的方法來處理語言問題,有著巨大的局限性。于是人們開始探索基于統(tǒng)計(jì)方法和其它翻譯方法的聯(lián)合應(yīng)用。如統(tǒng)計(jì)的和基于實(shí)例的機(jī)器翻譯系統(tǒng),統(tǒng)計(jì)的和基于規(guī)則的機(jī)器翻譯系統(tǒng),等等。
  2. 綜合類型的機(jī)器翻譯系統(tǒng):以上三個(gè)基本機(jī)器翻譯系統(tǒng)各有優(yōu)勢和長處,同時(shí)又不可避免的具有某種缺陷和局限性。如基于規(guī)則的機(jī)器翻譯系統(tǒng)(RBMT)可以準(zhǔn)確的描述語言學(xué)特征和規(guī)律,然而制定適用和完備的語言規(guī)則卻不是一件容易的事;基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)可以充分利用已有的翻譯結(jié)果,但是實(shí)例庫的維護(hù)需要大量的人工和費(fèi)用;統(tǒng)計(jì)型的機(jī)器翻譯(Statistical MT)可以緩解知識獲取的瓶頸問題,但是純數(shù)學(xué)的方法難于完全解決語言中的復(fù)雜問題。為進(jìn)一步提高機(jī)器翻譯系統(tǒng)的翻譯水平,人們綜合以上幾個(gè)基本類型的優(yōu)勢,又發(fā)明了混合型機(jī)器翻譯系統(tǒng)(Hybrid MT),多引擎機(jī)器翻譯系統(tǒng)(Multi-Engine MT)和提出了基于知識的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT)的理論。
  2.1混合型機(jī)器翻譯系統(tǒng)(Hybrid MT):翻譯過程使用兩種或以上機(jī)器翻譯原理。比如:基于規(guī)則的機(jī)器翻譯方法的核心是構(gòu)造完備的、適應(yīng)性較強(qiáng)的規(guī)則系統(tǒng)。如何得到完備和適應(yīng)性強(qiáng)的規(guī)則系統(tǒng)成為研究焦點(diǎn)。使用傳統(tǒng)的方法,語法規(guī)則庫的建立需要大量的人力、物力,大量的語言語法規(guī)則之間往往存在著不可避免的沖突,規(guī)則的完備性和適應(yīng)性不能得到保證。隨著人們翻譯工作的進(jìn)行,生成大量已完成的翻譯結(jié)果,形成大量語料。人們想到了使用統(tǒng)計(jì)方法從現(xiàn)有語料中自動(dòng)提取我們需要的語言語法信息。從實(shí)例中抽取語言轉(zhuǎn)換規(guī)則,將基于實(shí)例的機(jī)器翻譯作為研究技術(shù)來建立語言規(guī)則基礎(chǔ),而不是單純用來進(jìn)行類比翻譯。通過一個(gè)歸納的過程,從大量例句中提出抽象的規(guī)則 [4] [5]。這樣傳統(tǒng)的基于規(guī)則的機(jī)器翻譯方法發(fā)展成為以規(guī)則為基礎(chǔ),語料庫為輔助的機(jī)器翻譯方法。這種翻譯模型可以稱之為混合型機(jī)器翻譯系統(tǒng)(Hybrid MT)。
  2.2多引擎機(jī)器翻譯系統(tǒng)(Multi-Engine MT):這種機(jī)器翻譯系統(tǒng)的基本思想是幾架機(jī)器翻譯引擎同時(shí)進(jìn)行并行翻譯,并行翻譯的這幾架翻譯引擎分別基于不同的工作原理,給出多個(gè)翻譯結(jié)果,然后通過某種機(jī)制或算法篩選并生成最優(yōu)翻譯結(jié)果進(jìn)行輸出。多引擎機(jī)器翻譯系統(tǒng)的一種工作方式如:接收到源文字后,先將文字轉(zhuǎn)化為若干文字片段,由多個(gè)機(jī)器翻譯引擎進(jìn)行并行翻譯,各個(gè)文字片段均得到多個(gè)翻譯結(jié)果, 通過某種機(jī)制選擇最優(yōu)的翻譯片段組成最優(yōu)組合,最后輸出最優(yōu)的翻譯結(jié)果[6]?;蛘呤墙邮盏皆次淖趾?,由多個(gè)機(jī)器翻譯引擎進(jìn)行并行翻譯,得到多個(gè)翻譯結(jié)果,然后對各個(gè)翻譯結(jié)果進(jìn)行字詞的比較,通過某種假設(shè)檢驗(yàn)和算法,選擇適當(dāng)?shù)淖衷~翻譯組成最優(yōu)翻譯結(jié)果輸出[7]。
  2.3. 基于知識的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT):在機(jī)器翻譯研究中,人們越來越發(fā)現(xiàn)在翻譯過程中正確的理解、領(lǐng)會(huì)源語言的重要性。語言有著其復(fù)雜性。其中語言的模糊性是各種機(jī)器翻譯系統(tǒng)所面對的最頑固的難題。語言的模糊性指語言文字同一表層結(jié)構(gòu)對應(yīng)著兩種或兩種以上的深層結(jié)構(gòu),簡單說就是一種形式對應(yīng)著兩種或兩種以上的解釋,必須通過上下文內(nèi)容的提示和綜合知識背景、常識才可能做出正確的詮釋。受人工智能,知識工程的發(fā)展影響,人們開始強(qiáng)調(diào)對源語言更為徹底的理解,提出不僅需要進(jìn)行深層語言分析,還需要進(jìn)行世界知識的積累和處理,建立知識庫,以助于理解語言。通過對世界知識的了解,解決機(jī)器翻譯中遇到的語言模糊問題。為了從根本上徹底的解決機(jī)器翻譯所面對的語言的模糊性問題,人們提出了基于知識的機(jī)器翻譯系統(tǒng)。
  2.3.1基于語義網(wǎng)的機(jī)器翻譯(Semantic Web based Machine Translation, SWMT):是基于知識的機(jī)器翻譯系統(tǒng)的一種實(shí)現(xiàn)方式。語義網(wǎng)(Semantic Web),指通過某種技術(shù),將現(xiàn)有網(wǎng)絡(luò)上的知識內(nèi)容轉(zhuǎn)化為機(jī)器可以辨識的內(nèi)容,成為機(jī)器翻譯的“世界知識庫”。這些理論基于Tim Berners-Lee提出的觀點(diǎn)“知識一旦經(jīng)定義和形式化后,便可以通過任意方式訪問”。萬維網(wǎng)最初的設(shè)計(jì)是希望它簡單,去中心化并且盡可能的易于互動(dòng)。網(wǎng)絡(luò)的發(fā)展證明它是一個(gè)巨大的成功。然而,網(wǎng)絡(luò)上面的信息都是面向人類大腦的。為了讓計(jì)算機(jī)也能夠接受和利用這些信息資源,在新的世紀(jì)一種擴(kuò)展和補(bǔ)充性質(zhì)的技術(shù)出現(xiàn)了, 稱為W3C,Semantic Web3 (三維語義網(wǎng))。三維語義網(wǎng)絡(luò)的基礎(chǔ)技術(shù)是數(shù)據(jù)格式的“資源描述構(gòu)架”( ‘Resource Description Framework’,RDF), 它定義了一種結(jié)構(gòu),用一種自然的方式來描述計(jì)算機(jī)處理的巨大量的數(shù)據(jù)[8]。目前人們已經(jīng) 在嘗試將現(xiàn)有的機(jī)器翻譯系統(tǒng)整合入語義網(wǎng),以充分利用世界知識/專家知識, 提高機(jī)器翻譯質(zhì)量[9]。
  3.語音翻譯(Speech Translation):語音翻譯是與文字翻譯相對應(yīng)的一種機(jī)器翻譯分類,與前面的分類有著不同。但是有著廣泛的應(yīng)用,如日常交談、電話通話、會(huì)議講話等對語音交流內(nèi)容的自動(dòng)翻譯,在實(shí)際應(yīng)用中非常重要。語音翻譯在翻譯之前增加了一個(gè)語言識別(Speech Recognition)過程,形成正確的文字內(nèi)容輸入,并且在翻譯過程完成后增加了一個(gè)語音合成(Speech Synthesis)過程, 形成一個(gè)正確的語音內(nèi)容輸出。其中語音識別技術(shù)和語音合成技術(shù)都有著專門研究,樂文駐馬店翻譯公司這里不再贅述。
閱讀文章:積分+1