凯茜·范德赫滕,美国化学文摘社(CAS,美国化学会分支机构)产品管理主任,比利时安特卫普
研究与开发(研发)投资正处于历史高位。据估算,2022年全球研发投资达到2.476万亿美元,推动了专利申请数量的持续强劲增长,使全球专利生态系统,特别是各专利局面临压力。专利申请的数量和复杂性上升会导致专利授权的严重延误,从而导致法律上的不确定性,这可能会扼杀创新,阻碍研发投资,并削弱国家经济的竞争力。
日本特许厅 在2018年进行的一项研究概算,该局审查员有30%的时间用于检索现有技术(发明已为人所知的证据),另有10%的时间用于理解现有技术。
专利局为提高申请的及时性而采用的一种方法是利用人工智能解决方案,在审查过程中协助识别潜在的现有技术。人工智能能够快速地模仿人类在专利申请与现有专利和非专利出版物之间进行数据比较的能力,以找出审查员在检索现有技术中可以审查的相似之处。虽然这并不能取代人类审查员审查检索结果的需要,但它可以显著加快对70%以上的申请的审查速度。
人工智能能够快速模仿人类在专利申请与现有专利和非专利出版物之间进行数据比较的能力,以找出审查员可以审查的相似之处…
根据产权组织的数据,美国化学会下属的美国化学文摘社(CAS)估算,从2012年到2021年,前五大专利局的专利申请量复合年增长率为4.4%。不仅申请的数量在增长,专利的复杂性也在不断增加,这体现在每项专利的权利要求数量、每项权利要求所引用的专利、每项专利所引用的现有技术以及其他方法上。
检索现有技术是一个复杂的重复进行的耗时过程。对于每一件申请,检索人员和审查员都必须设计一个检索策略,选择使用哪些数据库,进行检索,评估结果,并在必要时使用不同的参数进行调整和重新检索。
这些检索的规模是惊人的。根据欧洲专利局的一项研究e ,一项全面的专利申请检索可能要利用179个数据库中的约13亿条技术记录进行现有技术检索,导致每个月的检索结果中显示的文献多达约六亿份。
对179个数据库中的约13亿条技术记录进行现有技术检索,导致每个月的检索结果中显示的文献多达约六亿份。
新技术的发展和专利申请的复杂性要求审查员不断扩大其在技术领域的专业知识水平。倘若得到高度策划和结构化的数据的推动,人工智能就可以通过筛选数以百万计的数据集并提供与目标申请有潜在冲突的参考文献来加速这一过程。
一些专利局正在转向人工智能驱动的解决方案,以帮助其应对不断上升的专利申请数量和复杂性。根据产权组织的数据,有27个国家的专利局正在开展70多项与人工智能有关的举措,其中包括13项专注于现有技术检索的举措。虽然这些举措并不是贯穿整个审查过程的完整解决方案,但它们确实旨在加快审查时效,从而提高及时性,并最终提高客户满意度。
例如,加拿大知识产权局正在利用商用人工智能检索引擎来找出援引、申请和当前现有技术之间的联系。日本特许厅(JPO) 正在利用人工智能进行文件索引,建议相关的专利分类和关键词,并根据相关性对现有技术专利文献进行排名。同时,美国专利商标局(美国专商局)正在使用人工智能帮助确定可专利性,分析专利申请历史,并改善公众对美国专商局数据的访问。
机器学习对检索文本和索引的术语很有效,但对涉及物质组成的专利来说效果相对较差,这些专利通常在结构内部包含重要的数据。
最近,巴西国家工业产权局(INPI)与CAS合作,完成了一项使用人工智能优化工作流程以加速化学领域的现有技术检索的项目。化学领域申请约占巴西INPI积压量的15%,这类申请极其复杂,需要对专利和非专利出版物进行基于文本和结构的检索。该解决方案的人工智能部分整合了四个算法流,执行不同类型的相似性和其他分析,以确保高度相关的结果。
每种算法都有其优势。机器学习对检索文本和索引的术语很有效,但对涉及物质构成(两种或多种化合物混合)的专利来说效果相对较差,这些专利通常在结构内部包含重要的数据。同样地,图数据库可以找到机器学习无法找到的相似性和联系。然后,集成算法分析来自四个流的结果,并得出最有可能与目标申请冲突的出版物的单一列表。
提高生产力的作用显著:
高质量数据对于训练人工智能算法至关重要。机器学习算法能够获得的数据越多,其结果就越相关、越可靠、越值得信赖。许多公开的未经整理的数据可能包括转录错误、错误标记的单位和过于复杂的专利语言,所有这些都有碍于检索。这在化学和生命科学领域尤其具有挑战性,因为物质在不同出版物中的描述是不一致的,或者表格或图像中被嵌入了关键词。使用经过规范化、准备并以结构化格式连接的科学家整理后的数据,可以使信息更容易被检索,并改进对人工智能算法的训练和现有技术检索的性能。
虽然各技术、行业和应用之间的集合训练可能有所差异,但是应用人工智能的基本方法仍然是相同的。
对于INPI巴西项目,我们在很大程度上依赖于CAS Content Collection™,这是世界上最大的化学和生命科学数据集,它经过提取、索引和链接,以简化对相关信息的访问和检索。此外,我们还从算法训练中随机抽出了一些专利,作为测量结果准确性和命中率的对照组。这些专利经由中国、日本、美国和欧洲的专利局的审查员进行评估,并由我们自己的知识产权检索专业团队进行相关性验证。
虽然各技术、行业和应用之间的集合训练可能有所差异,但应用人工智能的基本方法仍然是相同的。对于任何技术领域,在对每个训练集的审查过程中,都会确定所使用的有冲突引文。高度复杂的技术,如化学,使用专门主题的训练集可以做得更好,但其他技术使用有针对性的训练集可能不会显示出明显的改进。在许多领域,只要技术在一般训练集中得到体现,模型就会表现良好。
无论如何,数据的质量都至关重要。
人工智能项目团队需要广泛的学科知识。INPI巴西项目将技术与数据分析、工作流程集成、高性能计算、科学检索和许多其他学科的专家结对。
团队成员需要在正在解决的挑战和结果方面具有跨职能的专业知识。例如,有数据科学经验的人如果不了解化学结构的细微差别,可能无法开发出完全有效的算法。创建机器学习模型的计算科学家也必须了解化学数据和结构。
工作流程集成是为专利局创建全面解决方案的另一个重要学科。审查员在审查过程中需要浏览多个系统和文件夹来寻找文献,可以受益于工作流程改进和技术增强,即在一个单一看板上就可以访问和分析所有申请和支持文件,可以在其中看到为什么某些参考文献被退回以及结果是如何产生的,提供审查员所需的可追溯性来记录各项审查决定和内部质量复查决定。
当审查员能够得心应手地使用围绕最新技术(如人工智能)构建的工具时,专利局的生产力、效率和客户服务就有可能得到极大的提升。随着创新的加速,专利申请的数量和复杂性也会上升。这意味着专利局将继续需要新的方法来优化专利审查流程,从而满足利益攸关方对更高服务满意度的期望。
虽然人工智能解决方案可以帮助应对这些不断变化的挑战,但它们仍然需要专业知识来实施量身定制的方法。一刀切的方法是行不通的,因为没有两个专利局的需求相同。专利局的总体活动相同,但它们在支持每个领域所需的人员配置和技术水平上有所差异。虽然算法可以解决共同的需求,但审查员与输出结果的交互方式却可能因其现有的技术环境而大不相同。
当审查员能够得心应手地使用围绕最新技术(如人工智能)构建的工具时,专利局的生产力、效率和客户服务就有可能得到极大的提升。
尽管资源有限,寻求实现战略成果的专利局仍将需要满足利益攸关方期望的定制化创新。将数据、技术和人的专业知识恰当组合起来,可以提供支持未来可持续改进所需的灵活性。
请阅读CAS题为“全球专利体系的可持续性:人工智能对于提高生产力的作用”的白皮书,了解更多关于人工智能如何能够提高全球专利体系生产力的信息。
致谢:马修·布赖恩和安德拉什·约库蒂,产权组织专利和技术部门
布吕诺·普利康、乌尔丽克·蒂尔和尹泳,产权组织基础设施和平台部门
编辑:凯瑟琳·朱厄尔