【廣告】
指示牌外文翻譯應(yīng)當(dāng)標(biāo)準(zhǔn)化
近日,有北京市民發(fā)現(xiàn)石景山區(qū)八大處公園內(nèi)有多處指示牌的英文翻譯存在明顯錯誤。石景山區(qū)旅游委的工作人員對此解釋說,這些指示牌文字在翻譯成英文后,可能未經(jīng)過當(dāng)?shù)赝馐罗k審核,他們將進(jìn)行相關(guān)處理,避免對外國游客造成誤導(dǎo)。
城市、公園、商場及景區(qū)外語指示牌鬧笑話的現(xiàn)象,不只是北京石景山八大處公園獨(dú)有,在各地很普遍,因拼湊與中文直譯,這些標(biāo)牌被網(wǎng)友戲稱為“中式英文”。據(jù)了解,很多“中式英文指標(biāo)牌”的制作,都由相關(guān)部門打包給廣告公司制作,廣告公司的工作人員為了節(jié)約成本和省事,大多選擇翻譯軟件,因此鬧出許多笑話。
盡管對于外文標(biāo)牌的翻譯,也有一些制度規(guī)范,比如,指標(biāo)牌翻譯成外文后應(yīng)當(dāng)報(bào)請當(dāng)?shù)赝馐罗k審核把關(guān),及時(shí)校正錯誤,確保規(guī)范,但在現(xiàn)實(shí)中,這一規(guī)范缺少可操作性,也不利于提高公共管理與服務(wù)的效率。
存在明顯錯誤的指標(biāo)牌,最直接的是會讓外國游客看不懂,傳遞錯誤的信息,同時(shí),也會讓外國人看低一座城市的文明水平。筆者認(rèn)為,避免啼笑皆非的“中式英文”指示牌的出現(xiàn),最i優(yōu)的選擇還是推動常用指示標(biāo)牌的通用化和標(biāo)準(zhǔn)化,即在國際通用的基礎(chǔ)上,結(jié)合我國實(shí)際,按照城市設(shè)施、景區(qū)、商業(yè)服務(wù)等類別,歸類整理和完善具體的指示標(biāo)識、警語標(biāo)識的設(shè)計(jì),對應(yīng)多種規(guī)范外文翻譯,形成標(biāo)準(zhǔn)化體系,給社會提供統(tǒng)一的遵循。
術(shù)語翻譯方法
?。?)基于雙語括號句子的術(shù)語翻譯挖掘方法
站在改善最終機(jī)器翻譯譯文質(zhì)量的角度,我們認(rèn)為術(shù)語翻譯知識的質(zhì)量優(yōu)
先于規(guī)模。因此,我們將目光轉(zhuǎn)向互聯(lián)網(wǎng)上單語網(wǎng)頁上大量存在的雙語括號的句子。所謂雙語括號句子需要同時(shí)滿足下列三個(gè)條件:包含一個(gè)或多個(gè)括號;緊臨括號的左邊是一個(gè)術(shù)語;該術(shù)語的譯文在括號內(nèi)。雙語括號句子包含豐富的術(shù)語翻譯知識,如目標(biāo)語言術(shù)語的上下文信息。相對于平行語料或可比語料而言,雙語括號句子的限制更少,更新比較及時(shí)且相對更容易抽取術(shù)語翻譯知識。因此我們認(rèn)為雙語括號句子是挖掘術(shù)語翻譯知識的理想語料。如以下示例所示,挖掘術(shù)語翻譯知識的主要任務(wù)是確定目標(biāo)術(shù)語的左邊界,因?yàn)橛疫吔缫呀?jīng)由括號給出,且源語言術(shù)語的邊界是確定的。
各個(gè)進(jìn)程有自己的內(nèi)存空間、數(shù)據(jù)棧等,所以只能使用進(jìn)程間通訊(interprocess communication,IPC),而不能直接共享信息。
該方法的輸入為種子 URL 和種子術(shù)語詞典,最終輸出為帶概率的術(shù)語翻譯規(guī)則表,類似于統(tǒng)計(jì)翻譯的短語翻譯規(guī)則表。在工作流中,中間結(jié)果包括主題爬蟲獲取的Web網(wǎng)頁和URL,雙語括號句子過濾器篩選出的雙語括號句子,術(shù)語左邊界分類器的術(shù)語翻譯候選列表,以及增量更新后的種子術(shù)語詞典。
?。?)融合雙語術(shù)語識別的聯(lián)合詞對齊方法
詞對齊是統(tǒng)計(jì)機(jī)器翻譯的一項(xiàng)核心任務(wù),它從雙語平行語料中發(fā)掘互為翻譯的語言片斷,是翻譯知識的主要來源。在實(shí)踐中,一部分詞對齊錯誤就是術(shù)語產(chǎn)生的,最終的譯文質(zhì)量也會受到影響。如果能自動識別出平行句對中的術(shù)語對應(yīng)關(guān)系,詞對齊質(zhì)量就能得到改善,進(jìn)而有望改善術(shù)語和句子的翻譯質(zhì)量。
術(shù)語識別方面,基于規(guī)則的方法已基本退出歷史舞臺?;诮y(tǒng)計(jì)方法的方法雖然不受領(lǐng)域限制,但是對于多詞術(shù)語和低頻術(shù)語的識別并不理想, 因而抽取的術(shù)語也存在較多噪聲。所以,如果直接將術(shù)語識別結(jié)果作為詞對齊的約束,術(shù)語識別錯誤就會傳遞給后續(xù)階段,最終譯文質(zhì)量反而難以得到提升。因此,研究如何提高術(shù)語識別和詞對齊性能,并提高最終的機(jī)器翻譯譯文質(zhì)量是迫切需要解決的一個(gè)難題。
為了盡量降低訓(xùn)練流程中錯誤傳遞的影響以改進(jìn)術(shù)語翻譯知識抽取,我們提出了融合雙語術(shù)語識別的聯(lián)合詞對齊方法。首先,為了降低對訓(xùn)練數(shù)據(jù)的依賴,該聯(lián)合詞對齊方法從單語術(shù)語識別弱分類器開始。該分類器由維基百科等自然標(biāo)注數(shù)據(jù)訓(xùn)練得到的。其次,為了降低因術(shù)語識別和詞對齊的錯誤傳遞帶來的負(fù)i面影響,該方法利用雙語術(shù)語和詞對齊的相互約束,將單語術(shù)語識別、雙語術(shù)語對齊和詞對齊聯(lián)合在一起執(zhí)行,最后得到效果更好的雙語術(shù)語識別和詞對齊結(jié)果。
?。?)融合術(shù)語識別邊界信息的統(tǒng)計(jì)翻譯術(shù)語解i碼方法
人名、地名、機(jī)構(gòu)名等命名實(shí)體有明顯的邊界特征,相對容易進(jìn)行識別與對齊。一般而言,將命名實(shí)體直接翻譯方法用于統(tǒng)計(jì)翻譯解i碼器就可以取得比較好的翻譯效果。但是,用與翻譯命名實(shí)體的方式“直接翻譯” 術(shù)語并不能明顯改善機(jī)器翻譯自動譯文的質(zhì)量。最主要的原因就是目前的術(shù)語識別模型還不夠好,識別準(zhǔn)確率大幅弱于命名實(shí)體識別。另外,由于術(shù)語本身是與領(lǐng)域高度相關(guān)的,為目標(biāo)領(lǐng)域訓(xùn)練高性能的術(shù)語識別分類器需要大量高質(zhì)量且同領(lǐng)域的人工標(biāo)注訓(xùn)練語料,這進(jìn)一步加大了術(shù)語識別的難度。在這種情況下,如果直接將術(shù)語識別結(jié)果作為詞對齊的約束,術(shù)語識別錯誤就會傳遞給后續(xù)階段,最終譯文質(zhì)量反而難以得到提升。因此,研究如何提高術(shù)語識別和詞對齊性能,并提高最終的機(jī)器翻譯譯文質(zhì)量是迫切需要解決的一個(gè)難題。
為了盡量降低訓(xùn)練流程中錯誤傳遞的影響以改進(jìn)術(shù)語翻譯知識抽取,我們提出了融合雙語術(shù)語識別的聯(lián)合詞對齊方法。首先,為了降低對訓(xùn)練數(shù)據(jù)的依賴,該聯(lián)合詞對齊方法從單語術(shù)語識別弱分類器開始。該分類器由維基百科等自然標(biāo)注數(shù)據(jù)訓(xùn)練得到的。其次,為了降低因術(shù)語識別和詞對齊的錯誤傳遞帶來的負(fù)i面影響,該方法利用雙語術(shù)語和詞對齊的相互約束,將單語術(shù)語識別、雙語術(shù)語對齊和詞對齊聯(lián)合在一起執(zhí)行,最后得到效果更好的雙語術(shù)語識別和詞對齊結(jié)果。
理解錯誤
雖然沒有人喜歡承認(rèn)犯錯誤,但我們卻經(jīng)常犯錯。如果我們學(xué)會對翻譯錯誤進(jìn)行分類,那么我們都可以從中學(xué)習(xí)到一些知識。此外,在將翻譯提交給客戶之前,有多種方法可以檢查可能出現(xiàn)的錯誤。我們可能不愿意承認(rèn)我們犯錯誤的原因是由于語言能力的欠缺,例如句法使用不當(dāng),拼寫知識或?qū)懽髂芰Ρ∪?。但這可以通過更多的訓(xùn)練加以彌補(bǔ)。錯誤也可能是由于大量英語語言的影響滲透到目標(biāo)語文本中,這些也可以輕松地通過更加仔細(xì)的編輯來避免。最后,由于在目標(biāo)語文本的提交上不夠仔細(xì)(例如,沒有花足夠的時(shí)間進(jìn)行修改和編輯),錯誤也時(shí)有發(fā)生。解決方案很簡單:花費(fèi)更多的時(shí)間進(jìn)行修改(或者考慮到譯者的工作經(jīng)常有嚴(yán)格的時(shí)間限制,所以盡可能多的花時(shí)間修改)。翻譯的再表達(dá)階段出現(xiàn)錯誤是很常見的。在準(zhǔn)備最終交付前,更仔細(xì)地觀察有關(guān)句法、詞法或標(biāo)點(diǎn)的潛在錯誤,可以幫助改進(jìn)翻譯。錯誤分析還可以幫助譯員檢測并防止問題重復(fù)出現(xiàn)。這些分析有助于讓我們成為更專業(yè)的譯員,讓客戶更愉快并愿意再次與我們合作。