WIPO为专利文献开发尖端翻译工具
日内瓦,
Mon Oct 31 09:41:00 CET 2016
PR/2016/799
世界知识产权组织为专利文献开发出了基于“人工智能”的开创性新翻译工具,向全世界的创新者提供获取新技术信息的最高质量的服务。
- 视频: 高锐总干事谈WIPO Translate Video
- 在YouTube上观看
WIPO翻译现纳入了尖端神经机器翻译技术,将高技术专利文献转换为第二种语言,并且风格和句法更贴近通用说法,胜过其他建立在以往技术上的翻译工具。
WIPO首先“训练”了将中文、日文和韩文专利文献翻译为英文的新技术。这些语言的专利申请在2014年约占世界专利申请的55%1. 。用户已经可以试用公共测试平台上的中文-英文翻译工具了。
“专利体系的目标之一是让技术能被获得。语言是在全球实现这一目标的障碍。WIPO翻译的突破意味着,庞大且不断增加的专利文献库将很快能更容易地被提供给搜索这些记录以寻找灵感或技术诀窍的创新者,”WIPO总干事弗朗西斯·高锐说,“专利申请正在越来越多地以东亚语言提出,尤其是中文,这是一个全球趋势。WIPO翻译有助于确保以这些语言创造的先进知识能够尽可能广泛、迅速地共享。”
高准确性
中文-英文翻译的高准确性是训练神经机器翻译工具的成果。该工具将中华人民共和国国家知识产权局提供给WIPO PATENTSCOPE数据库的中文专利文献里的6,000万句话,与在美国专利商标局提交的翻译相对比。
WIPO计划将神经机器翻译服务扩大至用法文提出的专利申请,其他语言紧随其后。PATENTSCOPE数据库融合了其他互联网上免费提供的翻译引擎,并对取得良好效果的语言继续使用现有基于统计的翻译技术。
WIPO还与其他国际组织共享了其翻译软件,包括联合国会议管理处、粮食及农业组织、国际电信联盟、国际海事组织、世界贸易组织和全球抗击艾滋病、结核病和疟疾基金。
“在联合国,我们怀着极大的兴趣关注我们在创新领域的伙伴WIPO的神经机器翻译的新进展,”文件司司长Cecilia Elizalde说,“我们的翻译系统融合了WIPO翻译的统计版本,并且笔译员认为很有用。我们期待在接下来的几个月将该系统更新至神经版本。”
新兴技术
神经机器翻译是一个新兴技术。它建立在庞大的、能够“学习”之前翻译过的句子的神经网络模型上。神经机器翻译的特点(与之前“基于短语”的统计方法相比)在于,它产生了更为自然的语序,并在所谓的差异性较大的语言对中,如日语-英文或中文-英文中有显著的进步。
在最近的一次测试中,针对差异性较大的语言对,WIPO翻译的基于神经的机器翻译服务表现远超之前基于统计的模型,及其他非WIPO的翻译服务。由于该WIPO工具受过训练,并且仅针对专利文献,而非一系列差异更大的文本,它能产出更高质量的译文。
WIPO在开放源代码软件和图书馆(Nematus – Theano, AmuNMT)的基础上开发了自己的软件,并利用内部专家来处理庞大的数据集。
给编者的说明:
The PATENTSCOPE database provides access to international Patent Cooperation Treaty (PCT) applications in full text format on the day of publication, as well as to patent documents of participating national and regional patent offices. The information may be searched by entering keywords, names of applicants, international patent classification and many other search criteria in multiple languages. The database contains some 58 million records.