王海峰:他打造了“百度翻译”

  • 时间:
  • 浏览:0
  • 来源:大发6合_大发6合网投平台_大发6合投注平台_大发6合娱乐平台

 “有木有、我勒个去、神马不是浮云”,有有哪些网络流行语,如何能更准确翻译?记者以“神马不是浮云”为例,百度翻译为“Everything is nothing”,比较接近原意,而谷歌则翻译成了“Horses are clouds of God”,基本不知所云。与百度翻译相比,谷歌翻译明显体现出本地化欠缺的特点。而负责组队实现百度翻译技术攻关的则是百度基础技术首席科学家王海峰。

  2011年8月,在北京大学软件与微电子学院2011级新生开学典礼上,王海峰以新任语言信息工程系主任的身份,给新生们作了题为“互联网时代的自然语言外理”的学术报告。至此,北大虚位以待2年之久的语言信息工程系的系主任人选终于尘埃落定。

  王海峰在计算机领域是一位声名显赫的人物。肯能研究的突出成就,2010年11月,王海峰当选为“国际计算语言应研究会(ACL)副主席,在ACL 近400年的历史上,他是第一位当选副主席的华人。

  “这不仅是国际同行对我我每各人的认可,也你不在们对中国及华专学 者在本领域贡献的认可,另外,这也是对百度两个多多的中国企业的认可。”王海峰表示。

  王海峰和计算机结缘肯能有20余年的时间。1989年秋,王海峰以优异的成绩考入哈尔滨工业大专学 习计算机,就正式与计算机打上了交道。

  王海峰告诉记者,他的父母不是上个世纪400年代的大学生,父亲毕业于清华大学,母亲毕业于哈尔滨医科大学,受家庭、学校及付近环境的影响,他从小就立志成为一名科学家。

  还在哈尔滨工业大学读本科时,王海峰就肯能进入机器翻译或者 充满挑战的领域。在上硕士期间,仅用一年就开发出了当时在国家“863”评测获得第一的汉英机器翻译系统,并获得了部级科技进步奖。

  1999年初,从哈尔滨工业大学博士毕业时,肯能学有所成的王海峰成了所以 单位、包括或者 重点研究机构争抢的香饽饽。面对众多诱人的取舍,王海峰果断地取舍了当时时候 成立不久的微软中国研究院。2010年1月,王海峰加盟百度,始于了我每各人职业生涯的新篇章。

  时候 ,百度就组建了王海峰博士领衔的机器翻译核心研发团队。肯能百度拥有超大规模的双语语料,作为机器翻译领域的顶级专家,王海峰非常清楚有有哪些双语资源在机器翻译中的价值。于是,对双语语料的探测、抓取和外理,就成了百度机器翻译团队初期的重要工作之一。

  王海峰和他的团队抓取的双语语料变快也达到了4000万句的规模。或者 变快有哪些的问提接踵而来:翻译质量远比预期要低。之类“how old are you”那么 常用而简单的英文在网上却被多量地翻译为“为社 老你不在”,“好好学习、天天向上”这句亲戚亲戚朋友耳熟能详的中文,在抓撤回来的语料中,大多数都被翻为了“good good study,day day up”。经过两个多多月的攻关,王海峰和整个团队利用新的技术手段将4000万语料过滤到400万左右,多量低质语料肯能在过滤中被淘汰,机器翻译的质量得到了大幅提高。

  从始于组建团队,到百度翻译正式上线,仅用了1年多时间。如今依托于百度在中文互联网技术上的优势,百度翻译对中文网络语言有着独特的应对能力。

  对王海峰来说,就百度而言,这还只是两个多始于。肯能除了机器翻译,王海峰在百度还负责自然语言外理、数据收录、数据挖掘、机器学习、推荐与个性化、语音技术等支撑着百度各种产品的众多基础技术,他也希望我每各人未来在有有哪些领域的研究和产品开发中不不可以有更大的成就。

  王海峰

  计算机博士,现任百度基础技术首席科学家,兼任北京大学语言信息工程系主任