網上IA翻譯的進展
隨著互聯網技術的成熟,所有信息都將會在互聯網上以電子形式發表,而這些電子信息又是用各種不同民族語言寫成的。對這些不同格式的電子信息進行線上翻譯是人類突破交流障礙的一大希望。由于需要翻譯的資料越來越多,對翻譯速度的要求將明顯高于對翻譯質量的要求。在此情況下,線上機器翻譯是信息時代全球化交流的一個解決方案。令人高興的是,幾種實用型線上機器翻譯軟件系統已在網上推出。所謂“線上機器翻譯”是指人們應用計算機通過互聯網查詢,在瀏覽資料時,可以借助聯機翻譯軟件,對此文本進行實時翻譯,以獲得他們所需的信息。
機器翻譯的歷史可以追溯到1947年3月,當時洛克菲勒基金會的自然科學部主任Warren Weaver與他的朋友在通信及會晤中正式討論·了如何應用電子計算機翻譯自然語言的問題。從那時候開始,機器翻譯已經走過五十年的歷程,而網上機器翻譯的服務系統僅在近兩三年才出現。大多數機譯系統并非為翻譯線上文本所設計,使用者一般為懂得雙語的翻譯人員。被翻譯的原文的題材較為固定而且為專業人員所撰寫;相應的譯文質量要求也很高,可供正式出版。從事這種翻譯工作的譯員可以慢工出細活,先用機器翻譯得到譯文初稿,然后再進行后期編輯的修飾加工。與這些機器翻譯軟件相比,線上機器翻譯軟件的對象完全不同。其用戶一般不懂原文的語言,他使用線上翻譯系統的目的僅是瀏覽和摘要網上信息,因此他要求有實時的文本翻譯速度,而不在乎譯文質量。但是,在互聯網上交流的資料涉及的主題范圍廣泛、文章風格各異,而且這些資料常常倉促行文,普遍存在著丈法、標點及拼寫錯誤。所以,線上翻譯軟件能夠進行高速翻譯的同時還應有足夠的魯捧性(robust)以能處理各種題材、風格和各種可能的文本錯誤。
目前已在網上提供的機器翻譯服務可分兩類:基于電子郵件(E-mail)的機器翻譯和基于環球網(World Wide Web)的機器翻譯軟件。
從嚴格定義上講,大多數基于電子郵件的機器翻譯并不是“線上”和“機譯”的。在這里,“線上”不是指實時翻譯,而是指隨著互聯網的出現,聰明的廠家把生意做上了互聯網,提供聯機服務。在這種聯機服務中,廠家往往或者為了商業宣傳而提供免費翻譯服務,或者提供軟件本地化以及產品說明書和技術資料本地化服務,后者是為產品開拓國際市場而提供的專業服務。如一家設在加拿大的…快譯”公司(Express Translation Bureau)就有專業翻譯人員提供中英文雙向免費翻譯服務,用戶只需要把中文或英文文本資料通過互聯網用電子郵件投寄…決譯”公司,幾夭之后就可以收到由專業翻譯人員翻譯的質量較高的譯文。而總部設在英國的SDL公司就為用戶提供包括軟件、電子出版物、多媒體產品在內的本地化收費服務。與前老一樣,翻譯過程也是由專業翻譯人員在工程師的幫助下完成的。
總之,基于電子郵件的“機器翻譯”是互聯網在全球范圍內拓展,“翻譯”的過程是由專業人員完成。不論怎樣,與其它商業機構將產品推上互聯網一樣,“線上掛牌”和“人工翻譯”這一新的翻譯經營方式的興起也從一個側面說明:人們已經主動接受互聯網迅速發展這一事實,并在悄然實現經營方式、工作方式與學習方式的劃時化轉變。這一轉變的直接結果,使更多的用不同種語言書寫的信息在互聯網上交流,也促使互聯網得到更廣泛的發展,從而使互聯網最終成為信息時代不可缺少的學習工具和學習環境,為線上機器翻譯的研究、實現與應用打下堅實的物質基礎。
2.基于環球網(World Wide Web)的機器翻譯
所謂環球網是基于互聯網的信息表示、存儲與傳播的系統。互聯網是通過光纖電纜或微波衛星聯接起來的巨型計算機通信網絡系統。而環球網則是以互聯網為依托的軟件系統。它通過互聯網處埋超媒體(Hypermedia)信息。超媒體是超文本(Hypertext)與多媒體(Multimedia)的結合。我們平時看到的文字資料稱為線性格式文本,如圖書和報紙等,它們都是以串行順序方式印刷的。超文本資料則是以空間方式存放,構成非線性、非順序、無邊界的信息空間,使讀者可以通過超鏈接(Hyperlir1k)在這種信息空間內自由翱翔。多媒體是近幾年來計算機領域中發展的一項新技術。它使計算機所處理的信息從傳統的數值和文字,擴展到聲音、圖形、圖像、影視和動畫等。
下面介紹三個影響較大的網上機器翻譯系統:
SYSTRAN提供的免費網頁翻譯服務、Globalink開發的名為Web Translator翻譯軟件、以及compuServ,的環球公眾l2if(World Community Forum)。SYSTRAN公司開發機器翻譯系統的歷史悠久而且碩果累累。今天,歐共體委員會(Commission of the European Community)已使用SYSTRAN 開發的機譯系統,實現了其六種官方語言:英、法、德、意、西班牙和葡萄牙文的互譯。據估計,歐共體每年約有35%到40%的經費用于“語言問題”開銷。SYSTRAN這種實現不同語種相互機器翻譯的成果對歐共體的運作法入了高效潤滑劑。
美國國家情報中心的分支機構遍布全球,對收集到的情報要及時處理,以供決策者作決策依據。依靠sYsTRAN的機器翻譯軟件,輔以網絡技術,國家情報中心已經實現了線上翻譯。國家情報中心擁有一個名為“開放資源信息服務”(Open Source lnformation Service)的網絡。情報工作者只需要把要翻譯的文本提交給該網絡,該網絡使用9種由sYSTRAN開發的不同語言對機器翻譯軟件完成翻譯工作,然后把結果回送給情報提交者。“開放資源信息服務”網絡與一個叫Interlink的高級機密網絡連接,而后者則直通五角大樓和中央情報局。1994年,一共有3000個用戶、35個情報機構使用“開放資源信息服務”網絡,實現了情報的線上翻譯。
1996年,sYsTRAV1推出了世界上首項線上環球網網頁機器翻譯服務,目前該項服務只限于英語與德語、法語、葡萄牙語、意大利語和西班牙語的互譯,以及俄語到英語的單向翻譯。用戶只需鍵入要翻譯文件所在的網頁地址,選擇目標語言語種,鍵入用戶電子郵箱地址。只要被翻譯的文本不超過10K字節,此網頁機器翻譯系統會免費為用戶翻譯丈本并隨后把譯文送回給用戶。此系統是以客戶/服務器(Client/server)體系為基礎開發的,由一臺名為SYSTRAN翻譯服務器(Translation Server)執行翻譯工作。此臺服務器同時運行11種語言對翻譯軟件,接受來自全球各地的翻譯服務請求。用戶在提交要翻譯的文本后,視源文本長度及服務器繁忙程度,會有不同程度的延遲,有時甚至會中斷服務請求。
SYSTRAN 的環球網線上機器翻譯系統規定要翻譯的文本必須放在互聯網上,筆者曾在澳門大學用在該校網頁上刊載的英文版和葡文版的澳門特別行政區基本法測試此環球網線上機器翻譯系統,發現譯文正確率達80%。眾所周知,法律文件對語言描述的準確性要求甚嚴,任何模棱兩可的含義都會造成嚴重后果。因此,sYsTRAN環球網線上機器翻譯系統的測試結果令人鼓舞。
Globalink公司創建于1989年。目前該公司的軟件僅實現西班牙語、法語、德語、意大利語與英語互譯。
據Globalink發表的資料稱:全世界范圍內靠機器翻譯軟件完成的語言翻譯總額,Globalink系統占了80%,可見在機器翻譯市場,該公司是一一個舉足輕重的角色。
Globalink目前提供一種叫做Web Trans[ator的線上機器翻譯軟件。該軟件運行在SUN公司出品的Netscape和微軟的Explorer上,能夠實現互聯網上的西班牙文、法文、德文與英文信息的線上實時互譯。這意味著一個只懂英文的用戶在瀏覽用法文書目的網頁信息時,只要運行該軟件,便能生成該網頁信息的英文譯文。安裝并運行Web Translator軟件后,用戶想要瀏覽非本民族語言書寫的網頁信息時,具體操作是:首先用Nfetscape或Explorer瀏覽器找到要查詢的文本信息,用戶再接菜單選項的“翻譯’,按鈕;隨后選擇源語言與目標語言語種;最后Web Translator產生翻譯草稿,并插入瀏覽器中,且譯文輸出格式與源語言版面格式保持一致。在翻譯的過程中,容許用戶自己設走存儲已翻譯出來句子的譯文量,范圍為3頁到999頁的連續文本。這些已經翻譯出來的源語言文本與目標語言文本同時被存儲起來,其目的是為了下次遇到同樣的句子時,能夠直接從存儲器中再次取出,免去了重復性的工作,從而提高了整個系統的翻譯效率。一般而言,發現語句對采用的是模糊匹配算法,用戶可自行定義匹配權值。
另外,Web Translator為用戶提供了可對電子詞典編輯的功能,用戶能夠添加電子詞典中不存在的單詞與短語,從而提高翻譯效率。
除了上述兩種系統外,CompuServe公司提供了環球公眾論壇(World Community Forum)線上翻譯服務。CompuServe擁有三百萬用戶會員,遍布世界150多個國家,是全球最大一家信息服務公司。它于1994年引進Intergraph的軟件系統并開拓線上機譯服務,1995年2月創立環球大眾論壇,為其成員交流政治觀點、發表對交互文化的個人見解、以及發布體育旅游信息提供了方便。目前,論壇參與者可用英、法、德、西班牙語中的任何一種語言在網上交談,具體講,一位講英語的論壇成員登錄到英語論壇后,池既可以閱讀英文信息,也可以及時發表自己的觀點。一旦他發表了觀點,這些用英文寫成的觀點就立即被收集起來,并翻譯成法、德、西班牙三種語言文本,三分鐘后,便可顯示在法、德、西班牙文論壇上。當然,考慮到譯文質量,在顯示譯文的同時,也保留了源語言文本的拷貝。為避免歧義,論壇成員可隨時閱讀源語言文本。在論壇創建的頭四個月,已有一萬五千人次在網上發表了意見,每一夭論壇通過機器翻譯的信息有將近三萬詞條。
除了上述已在網上提供服務的文本翻譯系統,基于語音(Speech to Speech)實時處理的線上機器翻譯系統也是研究的熱點。研究人員從早期機器翻譯研究中吸取了重要教訓:通用高質量機器翻譯系統在目前只是一個夢想。所以大多數研制的語音機器翻譯系統只能翻譯一定主題域的語音。
1993年,在德國聯邦工業部(German Federal Ministry)主要資助下,30多所德國、美國、日本大學研究機構及工業企業參與了一個名為Verbmobil的語言機器翻譯研究計劃。此計劃的目的是把基于一定主題域的自然語音自動翻譯成另一種自然語音,并且與說話者無關。1995年,第一臺完全集成化的Verbmobil系統成功地把一段基于一定主題域的德語口語翻譯成清楚的英語口語輸出。到“一期工程”結束時,Verbmobil的語音識別率已達到73.3%。1996年,隨著Verbmob11原型機實現了一段基于一定主題域的日語到英語的口語自動翻譯,Verbmobil計劃進入了“二期工程”。此計劃的“二期工程”準備擴大主題域范圍,增加可譯語言對,并能識別不一致信息,如“2月31日”,“早上16:00點”等。
與手寫文本相比,口語不存在標點符號,重讀與短語代替了句號和逗號。另外,口語中存在大量如“哼,啊”等毫無意義的語氣詞。如何辨別出一個完整的句子,如何過濾掉無意義單詞,都是語音實時線上機器翻譯軟件要解決的難點。
可以設想,在未來,當用戶通過互聯網在瀏覽一段非本民族語言發布的多媒體信息時,使用文本和語音機器翻譯軟件可以實時把這段信息中的文字、聲音和圖像說明完全本地化,以致感覺不到語言障礙的存在。
漢語是世界上使用人數最多的一種語言文字,但是在互聯網上用中文發布的信息卻是滄海一栗。因此,對大多數僅懂自己母語的中國人來說,瀏覽互聯網時尤其需要外語與漢語之間的線上機器翻譯系統。目前,國內已有“希望”和“網際金點Roboword)”等線上翻譯詞典推出。使用這些電腦詞典無需任何輸入文字的工作,在剎覽網頁時,當遇到不懂的英文詞,只需將鼠標指向它,相關的中文解釋就隨著顯示。此外,國內還開發有可作文本翻譯的軟件系統,但它們尚未能在網上提供聯機服務。為了讓我們的同胞充分開發利用互聯網上的信息資源,除了加`決信息高速公路的基礎設施建設外,漢語與外語互譯的線上翻譯系統的研制和開發亦為當務之急。
譯路通武漢漢口翻譯公司整理
2012.6.11