之后的時(shí)間里,高質(zhì)量雙語(yǔ)語(yǔ)料不斷增加,翻譯系統(tǒng)質(zhì)量得以一路攀升。
更本地化 擅長(zhǎng)網(wǎng)絡(luò)流行語(yǔ)
在百度做機(jī)器翻譯,一個(gè)重要優(yōu)勢(shì)就在于,百度強(qiáng)大的海量計(jì)算平臺(tái)和豐富的海量互聯(lián)網(wǎng)數(shù)據(jù)處理經(jīng)驗(yàn),可以支撐機(jī)器翻譯團(tuán)隊(duì)從海量互聯(lián)網(wǎng)數(shù)據(jù)中挖掘超大規(guī)模的雙語(yǔ)語(yǔ)料。作為機(jī)器翻譯領(lǐng)域資深專家,王海峰非常清楚這些雙語(yǔ)資源在機(jī)器翻譯中的價(jià)值。于是,雙語(yǔ)語(yǔ)料的探測(cè)、抓取和處理,就成了百度機(jī)器翻譯團(tuán)隊(duì)初期的重要工作之一。
接下來(lái)的一個(gè)月,大家反復(fù)地分析、開(kāi)發(fā)及實(shí)驗(yàn),但又一次次陷入困惑,大量被同行證明行之有效的方法一時(shí)間都失靈了,成功過(guò)濾的低質(zhì)語(yǔ)料不足10%。經(jīng)過(guò)這個(gè)過(guò)程,大家逐漸看清了一點(diǎn),解鈴還須系鈴人,要想有效處理與傳統(tǒng)的文本數(shù)據(jù)差別非常大的互聯(lián)網(wǎng)數(shù)據(jù),還要更多地將傳統(tǒng)文本處理技術(shù)與互聯(lián)網(wǎng)技術(shù)相結(jié)合。于是1個(gè)月后,一套全新的互聯(lián)網(wǎng)雙語(yǔ)語(yǔ)料挖掘技術(shù)方案出爐了�;谶@套技術(shù),1000萬(wàn)句對(duì)被有效過(guò)濾到約400萬(wàn)。令大家興奮的是,過(guò)濾過(guò)的400萬(wàn)語(yǔ)料訓(xùn)練出來(lái)的系統(tǒng),其質(zhì)量遠(yuǎn)遠(yuǎn)好于基于1000萬(wàn)句對(duì)訓(xùn)練的系統(tǒng)。新的互聯(lián)網(wǎng)雙語(yǔ)語(yǔ)料挖掘技術(shù)成功了!
僅僅一年多的時(shí)間里,百度翻譯即以令業(yè)界驚嘆的速度上線發(fā)布,并獲得大量用戶的肯定。與業(yè)界同類產(chǎn)品相比,百度翻譯具有四大技術(shù)亮點(diǎn):機(jī)器翻譯核心技術(shù)、語(yǔ)料挖掘和過(guò)濾技術(shù)、海量計(jì)算技術(shù)、可靠的web前端技術(shù)。
隨著工作的開(kāi)展,雙語(yǔ)語(yǔ)料數(shù)量也迅速增加,當(dāng)達(dá)到1000萬(wàn)句對(duì)的規(guī)模時(shí),團(tuán)隊(duì)成員們都十分振奮,從事機(jī)器翻譯工作多年的他們,從未使用這么大規(guī)模的雙語(yǔ)語(yǔ)料訓(xùn)練過(guò)系統(tǒng)。但當(dāng)看到基于這1000萬(wàn)語(yǔ)料訓(xùn)練的系統(tǒng)的翻譯結(jié)果時(shí),大家一下子都沉默了,翻譯質(zhì)量遠(yuǎn)比預(yù)期要低!仔細(xì)分析后發(fā)現(xiàn),雖然這1000萬(wàn)語(yǔ)料已經(jīng)是從更多的語(yǔ)料中選出的質(zhì)量較高的部分,卻仍有一大半的低質(zhì)句對(duì),例如:“how old are you”這么常用而簡(jiǎn)單的英文在網(wǎng)上卻被大量地翻譯為“怎么老是你”,“好好學(xué)習(xí)、天天向上”這句大家耳熟能詳?shù)闹形�,在抓取回�?lái)的語(yǔ)料中,大多數(shù)都被翻為了“good good study, day day up”。這樣的句對(duì),利用已經(jīng)使用的常規(guī)雙語(yǔ)處理技術(shù)很難過(guò)濾掉。而如果不解決這個(gè)問(wèn)題,語(yǔ)料規(guī)模再大也沒(méi)有意義。于是,語(yǔ)料工作的重點(diǎn)迅速轉(zhuǎn)到了低質(zhì)語(yǔ)料處理。
早在計(jì)算機(jī)誕生之初的上世紀(jì)40年代,人類就開(kāi)始了對(duì)用計(jì)算機(jī)自動(dòng)進(jìn)行人類語(yǔ)言翻譯的夢(mèng)想的追逐。幾十年來(lái),作為自然語(yǔ)言處理領(lǐng)域最重要的研究方向之一,機(jī)器翻譯技術(shù)不斷取得突破。6月30日,百度完全自主投入、研發(fā)的在線翻譯產(chǎn)品——百度翻譯()正式上線,受到了業(yè)界和用戶的普遍關(guān)注。這款由世界級(jí)頂尖機(jī)器翻譯研發(fā)團(tuán)隊(duì)歷時(shí)一年多時(shí)間打造的最新翻譯工具,也曾遭遇過(guò)瓶頸困惑期。百度翻譯研發(fā)負(fù)責(zé)人日前獨(dú)家披露產(chǎn)品背后的故事。
互聯(lián)網(wǎng)的出現(xiàn),為機(jī)器翻譯的研發(fā)和應(yīng)用帶來(lái)了空前的機(jī)遇和挑戰(zhàn)。在中文搜索領(lǐng)域處于絕對(duì)領(lǐng)先地位的百度,也敏銳意識(shí)到了機(jī)器翻譯的重要性,并于2010年初,組建了由世界級(jí)機(jī)器翻譯專家王海峰博士和吳華博士領(lǐng)銜的機(jī)器翻譯核心研發(fā)團(tuán)隊(duì)。他們二人皆有著10年以上的機(jī)器翻譯研發(fā)經(jīng)驗(yàn),曾成功開(kāi)發(fā)過(guò)機(jī)器翻譯產(chǎn)品,也曾在國(guó)際機(jī)器翻譯評(píng)測(cè)中以絕對(duì)優(yōu)勢(shì)獲得第一,并發(fā)表過(guò)數(shù)十篇高水平機(jī)器翻譯論文。王海峰更是自然語(yǔ)言處理領(lǐng)域世界上影響力最大、也最具活力的國(guó)際學(xué)術(shù)組織ACL(Association for Computational Linguistics)50年歷史上唯一當(dāng)選副主席的華人。
組建頂尖機(jī)器翻譯團(tuán)隊(duì)
依托于百度在中文互聯(lián)網(wǎng)技術(shù)上的優(yōu)勢(shì),百度翻譯尤其對(duì)中文網(wǎng)絡(luò)語(yǔ)言有著獨(dú)特的應(yīng)對(duì)能力。如翻譯“有木有、我勒個(gè)去、神馬都是浮云”等網(wǎng)絡(luò)流行語(yǔ),百度都能準(zhǔn)確翻譯。從評(píng)測(cè)結(jié)果來(lái)看,百度翻譯在應(yīng)對(duì)日常用語(yǔ)和網(wǎng)絡(luò)語(yǔ)言方面優(yōu)勢(shì)明顯,尤其在翻譯結(jié)果忠實(shí)反映原文語(yǔ)義及符合目標(biāo)語(yǔ)言習(xí)慣這兩項(xiàng)指標(biāo)上表現(xiàn)出色。如在百度翻譯輸入“你們有什么要問(wèn)的嗎?”,百度翻譯結(jié)果為達(dá)意貼切的“Do you have any questions?”;而在其他較為熱門的在線翻譯工具中輸入該詞,則分別出現(xiàn)了“What you have to ask it?”、“What do you have to ask?”等含偏差理解和語(yǔ)法錯(cuò)誤的翻譯結(jié)果。
技術(shù)攻關(guān) 解圍一個(gè)月的困惑
由3名正式員工和1名實(shí)習(xí)生組成的百度最初的機(jī)器翻譯核心研發(fā)團(tuán)隊(duì)成立后,便迅速開(kāi)始了百度機(jī)器翻譯的研發(fā)。調(diào)研、規(guī)劃、語(yǔ)料抓取、訓(xùn)練工具、解碼器等工作全面鋪開(kāi)。
Copyright since 2005,問(wèn)鼎科技(58wd.com) 服務(wù)電話:400-666-4165 地址:成都市IT大道蜀清路239號(hào) 蜀ICP備10202221號(hào)