人工智能又下一城:微軟中-英機器翻譯水平比肩人類


微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天發佈博文表示,其研發的機器翻譯系統在通用新聞報道測試集newstest2017的中-英測試集上,達到了比肩人工翻譯的超高水平。

提前 7年取得機器翻譯成果

這個成績的取得,比之前業界對機器翻譯超越人類業餘譯者時間的預測早了 7年,同時也向我們證明了當一種語言對(比如中-英)擁有較多的訓練數據且測試集中包含的是常見的大衆類新聞詞彙時,AI的確能夠幫助機器翻譯系統取得比肩人類的表現。

微軟技術院士,負責微軟語音、自然語言和機器翻譯工作的黃學東稱,這是對自然語言處理領域最具挑戰性任務的一項重大突破。“在機器翻譯方面達到與人類相同的水平是所有人的夢想,我們沒有想到這麼快就能實現。”

人工智能又下一城:微軟中-英機器翻譯水平比肩人類

微軟技術院士黃學東

儘管如此,研究團隊成員也特別說明,此次並不代表人類已經完全解決了機器翻譯的問題,只能說明我們離終極目標又更近了一步。微軟亞洲研究院副院長、自然語言計算組負責人周明表示,在WMT17測試集上的翻譯結果達到人類水平很鼓舞人心,但仍有很多挑戰需要我們解決,比如在實時的新聞報道上測試系統等。

四大技術創新

爲了能夠取得中-英翻譯的里程碑式突破,來自微軟亞洲研究院和雷德蒙研究院的三個研究組,進行了跨越中美時區、跨越研究領域的聯合創新。

其中,微軟亞洲研究院機器學習組將他們的最新研究成果——對偶學習(Dual Learning)和推敲網絡(Deliberation Networks)應用在了此次取得突破的機器翻譯系統中。

對偶學習的發現是由於現實中有意義、有實用價值的人工智能任務往往會成對出現,兩個任務可以互相反饋,從而訓練出更好的深度學習模型。例如,在翻譯領域,我們關心從英文翻譯到中文,也同樣關心從中文翻譯回英文;在語音領域,我們既關心語音識別的問題,也關心語音合成的問題;在圖像領域,圖像識別與圖像生成也是成對出現。

既然存在特殊對偶結構的兩個任務可以互相提供反饋信息,這些反饋信息自然也可以用來訓練深度學習模型。微軟亞洲研究院副院長、機器學習組負責人劉鐵巖介紹:“這兩個技術的研究靈感其實都來自於我們人類的做事方式。”對偶學習利用的是人工智能任務的天然對稱性。當我們將其應用在機器翻譯上時,效果就好像是通過自動校對來進行學習——當我們把訓練集中的一箇中文句子翻譯成英文之後,系統會將相應的英文結果再翻譯回中文,並與原始的中文句子進行比對,進而從這個比對結果中學習有用的反饋信息,對機器翻譯模型進行修正。

人工智能又下一城:微軟中-英機器翻譯水平比肩人類

微軟亞洲研究院副院長、機器學習組負責人劉鐵巖

而推敲網絡則類似於人們寫文章時不斷推敲、修改的過程。通過多輪翻譯,不斷地檢查、完善翻譯的結果,從而使翻譯的質量得到大幅提升。對偶學習和推敲網絡的工作發表在NIPS、ICML、AAAI、IJCAI等人工智能的全球頂級會議上,並且已被其他學者推廣到機器翻譯以外的研究領域。

周明帶領的自然語言計算組多年來一直致力於攻克機器翻譯,這一自然語言處理領域最具挑戰性的研究任務。周明表示,“由於翻譯沒有唯一的標準答案,它更像是一種藝術,因此需要更加複雜的算法和系統去應對。”自然語言計算組基於之前的研究積累,在此次的系統模型中增加了另外兩項新技術:聯合訓練(Joint Training)和一致性規範(Agreement Regularization),以提高翻譯的準確性。

具體而言,聯合訓練可以理解爲用迭代的方式去改進翻譯系統,用中英翻譯的句子對去補充反向翻譯系統的訓練數據集,同樣的過程也可以反向進行;一致性規範則讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結果。

人工智能又下一城:微軟中-英機器翻譯水平比肩人類

微軟亞洲研究院副院長、自然語言計算組負責人周明

沒有“正確的”翻譯結果

newstest2017新聞報道測試集包括約2000個句子,由專業人員從在線報紙樣本翻譯而來。微軟團隊對測試集進行了多輪評估,每次評估會隨機挑選數百個句子翻譯。爲了驗證微軟的機器翻譯是否與人類的翻譯同樣出色,微軟沒有停留在測試集本身的要求,而是從外部聘請了一羣雙語語言顧問,將微軟的翻譯結果與人工翻譯進行比較。

驗證過程之複雜也從另一個側面體現了機器翻譯要做到準確所面臨的複雜性。對於語音識別等其它人工智能任務來說,判斷系統的表現是否可與人類媲美相當簡單,因爲理想結果對人和機器來說完全相同,研究人員也將這種任務稱爲模式識別任務。

然而,機器翻譯卻是另一種類型的人工智能任務,即使是兩位專業的翻譯人員對於完全相同的句子也會有略微不同的翻譯,而且兩個人的翻譯都不是錯的。那是因爲表達同一個句子的“正確的”方法不止一種。周明表示:“這也是爲什麼機器翻譯比純粹的模式識別任務複雜得多,人們可能用不同的詞語來表達完全相同的意思,但未必能準確判斷哪一個更好。”

複雜性讓機器翻譯成爲一個極有挑戰性的問題,但也是一個極有意義的問題。劉鐵巖認爲,我們不知道哪一天機器翻譯系統才能在翻譯任何語言、任何類型的文本時,都能在“信、達、雅”等多個維度上達到專業翻譯人員的水準。不過,他對技術的進展表示樂觀,因爲每年微軟的研究團隊以及整個學術界都會發明大量的新技術、新模型和新算法,“我們可以預測的是,新技術的應用一定會讓機器翻譯的結果日臻完善。”

研究團隊表示,此次技術突破將被應用到微軟的商用多語言翻譯系統產品中,從而幫助其它語言或詞彙更複雜、更專業的文本實現更準確、更地道的翻譯。此外,這些新技術還可以被應用在機器翻譯之外的其他領域,催生更多人工智能技術和應用的突破。

相關資料

  • 閱讀研究論文:https://www.microsoft.com/en-us/research/publication/achieving-human-parity-on-automatic-chinese-to-english-news-translation/

  • 試用該系統:https://translator.microsoft.com/neural/

  • 微軟翻譯工具 Microsoft Translator:https://www.microsoft.com/en-us/translator/default.aspx

參考資料
微软已将基于机器学习,全球最领先的人工智能技术通过简单、易用的服务和API
开发出来。微软认知服务使自然的人机交互变为可能,为你的应用增加前所未有的
用户体验。现在你就可以在你的应用中接入这些智能,把你的想法变成现实。微软认
知服务包涵的智能API 让你仅用几行代码就可以借助强大的算法开发应用程序。它们
跨 …
人工智能Artificial Intelligence. 计算机视觉 · 自然语言处理 · 语音识别 · 机器学习 ·
聊天机器人 · 微软认知服务 … 非凡的机遇和严峻的挑战相伴而生。微软作为一家技术
企业,有机会将创新转化为工具,帮助人们更高效地完成工作;同时也有责任确保
人工智能的进步将被用来增强人类智慧,符合共同的社会价值观以及对未来的共同
期待。
6 天前 … 微軟剛剛宣布Windows 10的下一個主要版本將支持人工智慧(AI)和機器學習(ML)。
但是,拋開市場炒作的因素,微軟知道人工智慧和機器學習真正的重擔是在雲端的
開源軟體上。這就是微軟Azure的首席技術官Mark Russinovich在加利福尼亞州
Sonoma召開的Linux基金會的開放源代碼領袖峰會(Open Source …
【本文引用來源】Mashdigi 在越來越多裝置開始強調人工智慧技術應用後,微軟也
開始準備讓下一版Winodws 10也將加入名為Windows ML學習應用模式,藉此透過
機器學習方式讓App運作更具效率,同時也能進一步讓裝置端達成節電等應用效果,
藉此推動更大人工智慧技術應用發展規模,並且讓市場能出現更多更具智慧的
Windows …
2018年1月22日 … 近年不少科技公司都聚焦於人工智慧技術的開發,最近微軟(Microsoft)就公開了
他們一項最新的技術成果。人工智慧系統單純透過文字描述就 … GAN 技術由兩組
機器學習模型組成,一組負責以文字製作圖像,另一組則以文字去判斷製作出圖像的
真確性,兩者結合去製作完美的圖像。研究員指人工智慧系統能夠創作出 …
2017年7月15日 … 據彭博7 月13 日報導,微軟正在籌建Microsoft Research AI 研究院,未來將專注
人工智慧領域,開發更多通用學習系統。 該研究院將設立在華盛頓州雷德蒙德 …
空中資訊與機器人組:主要做機器智慧的尖端研究,機器人和人類為中心的計算,
飛行機器人艦隊,微型無人機,民用客機。 研究彙集了機器學習和思想感知, …
2018年1月16日 … 人工智慧又有新的突破,在具權威性的史丹佛大學閱讀理解測驗(SQuAD)上,阿里
巴巴與微軟的AI機器學習模型的測驗成績首度超越人類,讓AI在「閱讀理解」項目再攻
下一城。
2017年2月27日 … 隨著人工智慧的進步,可以被機器取代的工作也越來越多,而這次,輪到軟體工程師
了。 微軟研究院和劍橋大學研究人員開發出一套可自己寫程式的人工智慧「
DeepCoder」,未來就算不會寫程式、也能也能透過DeepCoder打造出符合需求的
程式,大幅縮短開發時間和成本。在那個機器人取代人類工作的未來,不論你是 …
2017年5月11日 … 微軟今天公布1項新工具,企圖讓人工智慧普及化,要讓從手機遊戲到工廠樓面所有
機器,都可在裝載軟體後變聰明.
2016年9月30日 … 微軟打算要將AI落實到不同層面,並透過代理程式、應用軟體、服務與基礎架構等
面向,結合AI技術提升其產品與服務。以代理程式來說,微軟的數位個人助理技術
Cortana便將利用AI改面人機互動機制;而在個別應用軟體產品,如Skype、Office
365,都計畫加入人工智慧技術;此外並透過服務機制,將整合入包括認知 …

Related stories