你好,游客 登录
背景:
阅读新闻

从Google Translate看大数据在语言翻译中的应用

[日期:2016-06-28] 来源:数盟  作者: [字体: ]

  Google Translate目前是翻译机器翻译中比较受欢迎的,也是翻译效果比较好的。Google Translate质量有所提升,其关键并不在于语言学和语料库研究的突破,而是因为一项技术: 大数据

大数据

  在大数据出现之前,传统机器翻译遵循以下规则:先设定好一套尽可能完善的语法规则以及两种语言的对应词库,然后根据这套规则对输入的语言进行翻译。

  谷歌用了大数据这一技术,使翻译质量得到了大大的提高。

  Och 在Google Translate官方博客的一篇题目为《打破语言的隔阂》的文章中介绍了一些Google Translate的发展史。Google Translate项目起源于2001年,当时仅提供9种语音互译的服务。尽管它采用了当时世界领先的机器翻译,但是翻译质量并不高,几年来也没有什么提高。到2003年,他们发现了一种数据驱动的方法——通过收集大量网络语言资源进行辅助。但是期初运行速度非慢。2006年,Google Translate改进了“统计机器翻译”。

  Google Translate的核心技术在于“统计机器翻译”,之所以采用“统计机器翻译”,一个重要原因是Google的云计算架构。机器翻译需要海量的数据储存空间以及高效的运算能力,而Google拥有分布式计算系统和分布式储存系统,恰好满足了这方面的需求。

  简单来说,使用大数据进行翻译是并不是按照语法规则来翻译的,而是将整个句子放到互联网库中进行搜索,统计出整个互联网上所有与这句话翻译相关的结果,而统计次数最高的译文就可以最为最终答案参考。这样一来,Google翻译出来了结果就有了很好的效果,被用户接受程度也最高,翻译的质量有了很大提高。

 

  从Google Translate的例子可以看出,其实“大数据”的应用并不是说只在一些“理工科的领域”,它必将会渗透到我们生活的方方面面,给我们的生活带来极大的不同和改变。





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论    (0)
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款