国产久热精品无码激情AV,麻花星空mv高清在线播放,给我播放片高清mv在线观看,国产日本在线观看网址,中文免费女人观看在线毛片,本道综合精品,91人人妻人人澡人人爽人国产精东

問鼎資訊

高質量雙語語料不斷增加

admin2011-07-12 15:44

之后的時間里,高質量雙語語料不斷增加,翻譯系統(tǒng)質量得以一路攀升。

更本地化 擅長網(wǎng)絡流行語

在百度做機器翻譯,一個重要優(yōu)勢就在于,百度強大的海量計算平臺和豐富的海量互聯(lián)網(wǎng)數(shù)據(jù)處理經(jīng)驗,可以支撐機器翻譯團隊從海量互聯(lián)網(wǎng)數(shù)據(jù)中挖掘超大規(guī)模的雙語語料。作為機器翻譯領域資深專家,王海峰非常清楚這些雙語資源在機器翻譯中的價值。于是,雙語語料的探測、抓取和處理,就成了百度機器翻譯團隊初期的重要工作之一。

接下來的一個月,大家反復地分析、開發(fā)及實驗,但又一次次陷入困惑,大量被同行證明行之有效的方法一時間都失靈了,成功過濾的低質語料不足10%。經(jīng)過這個過程,大家逐漸看清了一點,解鈴還須系鈴人,要想有效處理與傳統(tǒng)的文本數(shù)據(jù)差別非常大的互聯(lián)網(wǎng)數(shù)據(jù),還要更多地將傳統(tǒng)文本處理技術與互聯(lián)網(wǎng)技術相結合。于是1個月后,一套全新的互聯(lián)網(wǎng)雙語語料挖掘技術方案出爐了。基于這套技術,1000萬句對被有效過濾到約400萬。令大家興奮的是,過濾過的400萬語料訓練出來的系統(tǒng),其質量遠遠好于基于1000萬句對訓練的系統(tǒng)。新的互聯(lián)網(wǎng)雙語語料挖掘技術成功了!

僅僅一年多的時間里,百度翻譯即以令業(yè)界驚嘆的速度上線發(fā)布,并獲得大量用戶的肯定。與業(yè)界同類產(chǎn)品相比,百度翻譯具有四大技術亮點:機器翻譯核心技術、語料挖掘和過濾技術、海量計算技術、可靠的web前端技術。

隨著工作的開展,雙語語料數(shù)量也迅速增加,當達到1000萬句對的規(guī)模時,團隊成員們都十分振奮,從事機器翻譯工作多年的他們,從未使用這么大規(guī)模的雙語語料訓練過系統(tǒng)。但當看到基于這1000萬語料訓練的系統(tǒng)的翻譯結果時,大家一下子都沉默了,翻譯質量遠比預期要低!仔細分析后發(fā)現(xiàn),雖然這1000萬語料已經(jīng)是從更多的語料中選出的質量較高的部分,卻仍有一大半的低質句對,例如:“how old are you”這么常用而簡單的英文在網(wǎng)上卻被大量地翻譯為“怎么老是你”,“好好學習、天天向上”這句大家耳熟能詳?shù)闹形�,在抓取回來的語料中,大多數(shù)都被翻為了“good good study, day day up”。這樣的句對,利用已經(jīng)使用的常規(guī)雙語處理技術很難過濾掉。而如果不解決這個問題,語料規(guī)模再大也沒有意義。于是,語料工作的重點迅速轉到了低質語料處理。

早在計算機誕生之初的上世紀40年代,人類就開始了對用計算機自動進行人類語言翻譯的夢想的追逐。幾十年來,作為自然語言處理領域最重要的研究方向之一,機器翻譯技術不斷取得突破。6月30日,百度完全自主投入、研發(fā)的在線翻譯產(chǎn)品——百度翻譯()正式上線,受到了業(yè)界和用戶的普遍關注。這款由世界級頂尖機器翻譯研發(fā)團隊歷時一年多時間打造的最新翻譯工具,也曾遭遇過瓶頸困惑期。百度翻譯研發(fā)負責人日前獨家披露產(chǎn)品背后的故事。

互聯(lián)網(wǎng)的出現(xiàn),為機器翻譯的研發(fā)和應用帶來了空前的機遇和挑戰(zhàn)。在中文搜索領域處于絕對領先地位的百度,也敏銳意識到了機器翻譯的重要性,并于2010年初,組建了由世界級機器翻譯專家王海峰博士和吳華博士領銜的機器翻譯核心研發(fā)團隊。他們二人皆有著10年以上的機器翻譯研發(fā)經(jīng)驗,曾成功開發(fā)過機器翻譯產(chǎn)品,也曾在國際機器翻譯評測中以絕對優(yōu)勢獲得第一,并發(fā)表過數(shù)十篇高水平機器翻譯論文。王海峰更是自然語言處理領域世界上影響力最大、也最具活力的國際學術組織ACL(Association for Computational Linguistics)50年歷史上唯一當選副主席的華人。

組建頂尖機器翻譯團隊

依托于百度在中文互聯(lián)網(wǎng)技術上的優(yōu)勢,百度翻譯尤其對中文網(wǎng)絡語言有著獨特的應對能力。如翻譯“有木有、我勒個去、神馬都是浮云”等網(wǎng)絡流行語,百度都能準確翻譯。從評測結果來看,百度翻譯在應對日常用語和網(wǎng)絡語言方面優(yōu)勢明顯,尤其在翻譯結果忠實反映原文語義及符合目標語言習慣這兩項指標上表現(xiàn)出色。如在百度翻譯輸入“你們有什么要問的嗎?”,百度翻譯結果為達意貼切的“Do you have any questions?”;而在其他較為熱門的在線翻譯工具中輸入該詞,則分別出現(xiàn)了“What you have to ask it?”、“What do you have to ask?”等含偏差理解和語法錯誤的翻譯結果。

技術攻關 解圍一個月的困惑

由3名正式員工和1名實習生組成的百度最初的機器翻譯核心研發(fā)團隊成立后,便迅速開始了百度機器翻譯的研發(fā)。調研、規(guī)劃、語料抓取、訓練工具、解碼器等工作全面鋪開。

新聞咨詢

網(wǎng)站首頁 | 網(wǎng)站首頁 | 走進問鼎 | 產(chǎn)品和服務 | 成功案例 | 新聞資訊 | 聯(lián)系我們 | 問鼎社區(qū)

Copyright since 2005,問鼎科技(58wd.com)      服務電話:400-666-4165       地址:成都市IT大道蜀清路239號       蜀ICP備10202221號

  • 點擊這里給我發(fā)消息
  • 點擊這里給我發(fā)消息
  • 點擊這里給我發(fā)消息
  • 點擊這里給我發(fā)消息
  • 點擊這里給我發(fā)消息