了解如何找到和应用产权组织的《世界性别人名词典》。只需要简单的几步,就能从任何数据集中辨别性别。
预计阅读时间:5分钟
《世界性别人名词典》(WGND)现已推出2.0版本,国家和领土以及自然人姓名的记录有了更高的可用性。该词典的文档文件和库可供用户在线使用,以便开始将性别人名词典应用于任何与地理编码相关的人名数据集。
近期的研究为扩充《世界性别人名词典》做出了新的贡献,现在该词典包括2,600多万条与自然人的姓名以及195个不同的国家和领土相联系的记录。《世界性别人名词典》2.0版是对其前身1.0版本的更新,是对50多个新的不同性别数据来源进行汇编和对原有来源清单进行更新后的成果。
可以在IES性别开源项目中在线使用《世界性别人名词典》2.0版。该版本有一个专门的GitHub存储库,其中的文档描述了与国家和语言代码相联系的关于性别数据的不同独特观察集。《世界性别人名词典》1.0版和2.0版的证明文档也可以在哈佛大学Dataverse上查阅。
第一步是准备一个含有自然人姓名和国家代码的数据集。这个数据集准备好之后,下一步就是进行以下四项数据清理检查:
然后,用户可以访问GitHub中的Gender-it tool工具,将《世界性别人名词典》2.0版的库应用于得到的已清理数据集。Gender-it包含可通过Stata或Python检索的《世界性别人名词典》2.0版的库(观看下面的视频教程)。这些软件选项中的库包含详细的说明和实例,用于下载必要的文档文件、函数和软件包,以便将用户的已清理数据库与《世界性别人名词典》2.0版中的性别人名词典类别进行匹配。Stata用户一开始可以运行tutorial_genderit.do文件,而Python用户一开始可以运行introduction to gender-it.ipynb文件。
该视频教程分为四个部分,指导用户在《世界性别人名词典》2.0版的库中工作,拖动视频至时间标记,找到所需的部分。
提示与技巧 32分40秒
《世界性别人名词典》(WGND)是帮助全世界研究人员和政策分析人员解决缺乏具有性别分类的数据来源这一问题的工具。
可以通过若干种方法来获得具有性别分类的创新和知识产权数据。看看哪一种更适合您的情况。
本文重新审视了第一部《世界性别人名词典》(WGND 1.0),该词典使我们能在为自然人命名的数据中辨别性别(Lax Martínez et al., 2016)。我们讨论了它的优点和局限性,并提出了基于最新数据和额外来源的扩充。通过纳入超过2,600万条与名字以及195个不同国家和领土关联的记录,由此产生的《世界性别人名词典》2.0版本大大增加了其处理器的国际覆盖面。因此,新版本是为了用于知识产权单位记录数据而特别设计的,这些数据为发明者、设计者、个人申请人以及这些数据中披露的其他创造者命名。