【TechWeb消息】7月12日消息,繼百度翻譯6月30日上線后,其研發(fā)負(fù)責(zé)人日前披露了產(chǎn)品背后的故事。百度翻譯由百度自主投入,歷時一年多時間打造,也曾遭遇過長達(dá)一個月的迷茫期。
去年組建頂尖機(jī)器翻譯團(tuán)隊
2010年初,百度組建了由世界級機(jī)器翻譯專家王海峰博和吳華博士領(lǐng)銜的機(jī)器翻譯核心研發(fā)團(tuán)隊。他們二人皆有著10年以上的機(jī)器翻譯研發(fā)經(jīng)驗,曾成功開發(fā)過機(jī)器翻譯產(chǎn)品,也曾在國際機(jī)器翻譯評測中以絕對優(yōu)勢獲得第一,并發(fā)表過數(shù)十篇高水平機(jī)器翻譯論文。
王海峰更是自然語言處理領(lǐng)域世界上影響力最大、也最具活力的國際學(xué)術(shù)組織ACL(Association for Computational Linguistics)50年歷史上唯一當(dāng)選副主席的華人。
在王海峰和吳華博士的組織下,一個由3名正式員工和1名實習(xí)生組成的百度初始機(jī)器翻譯核心研發(fā)團(tuán)隊成立。隨后一年,團(tuán)隊展開了百度機(jī)器翻譯的研發(fā)。
調(diào)研、規(guī)劃、語料抓取、訓(xùn)練工具、解碼器等工作也由此全面鋪開。
曾經(jīng)迷茫1個多月
在百度做機(jī)器翻譯,一個重要優(yōu)勢就在于,百度強(qiáng)大的海量計算平臺和豐富的海量互聯(lián)網(wǎng)數(shù)據(jù)處理經(jīng)驗,可以支撐機(jī)器翻譯團(tuán)隊從海量互聯(lián)網(wǎng)數(shù)據(jù)中挖掘超大規(guī)模的雙語語料。
作為機(jī)器翻譯領(lǐng)域資深專家,王海峰非常清楚這些雙語資源在機(jī)器翻譯中的價值。于是,雙語語料的探測、抓取和處理,就成了百度機(jī)器翻譯團(tuán)隊初期的重要工作之一。
隨著工作的開展,雙語語料數(shù)量也迅速增加,當(dāng)達(dá)到1000萬句對的規(guī)模時,團(tuán)隊成員們都十分振奮,從事機(jī)器翻譯工作多年的他們,從未使用這么大規(guī)模的雙語語料訓(xùn)練過系統(tǒng)。不過,當(dāng)看到基于這1000萬語料訓(xùn)練的系統(tǒng)的翻譯結(jié)果時,大家一下子都沉默了,翻譯質(zhì)量遠(yuǎn)比預(yù)期要低!
仔細(xì)分析后發(fā)現(xiàn),雖然這1000萬語料已經(jīng)是從更多的語料中選出的質(zhì)量較高的部分,卻仍有一大半的低質(zhì)句對,例如:“how old are you”這么常用而簡單的英文在網(wǎng)上卻被大量地翻譯為“怎么老是你”,“好好學(xué)習(xí)、天天向上”這句大家耳熟能詳?shù)闹形�,在抓取回來的語料中,大多數(shù)都被翻為了“good good study, day day up”。這樣的句對,利用已經(jīng)使用的常規(guī)雙語處理技術(shù)很難過濾掉。而如果不解決這個問題,語料規(guī)模再大也沒有意義。于是,語料工作的重點迅速轉(zhuǎn)到了低質(zhì)語料處理。
接下來的一個月,大家反復(fù)地分析、開發(fā)及實驗,但又一次次陷入迷茫和困惑,大量被同行證明行之有效的方法一時間都失靈了,成功過濾的低質(zhì)語料不足10%。經(jīng)過這個過程,大家逐漸看清了一點,解鈴還須系鈴人,要想有效處理與傳統(tǒng)的文本數(shù)據(jù)差別非常大的互聯(lián)網(wǎng)數(shù)據(jù),還要更多地將傳統(tǒng)文本處理技術(shù)與互聯(lián)網(wǎng)技術(shù)相結(jié)合。
于是1個月后,一套全新的互聯(lián)網(wǎng)雙語語料挖掘技術(shù)方案出爐了�;谶@套技術(shù),1000萬句對被有效過濾到約400萬。令大家興奮的是,過濾過的400萬語料訓(xùn)練出來的系統(tǒng),其質(zhì)量遠(yuǎn)遠(yuǎn)好于基于1000萬句對訓(xùn)練的系統(tǒng)。新的互聯(lián)網(wǎng)雙語語料挖掘技術(shù)成功了。
Copyright since 2005,問鼎科技(58wd.com) 服務(wù)電話:400-666-4165 地址:成都市IT大道蜀清路239號 蜀ICP備10202221號