使用《世界性别人名词典》

2023年5月30日

2023年5月30日・ 5 minutes reading time

了解如何找到和应用产权组织的《世界性别人名词典》。只需要简单的几步，就能从任何数据集中辨别性别。

《世界性别人名词典》（WGND）现已推出2.0版本，国家和领土以及自然人姓名的记录有了更高的可用性。该词典的文档文件和库可供用户在线使用，以便开始将性别人名词典应用于任何与地理编码相关的人名数据集。

近期的研究为扩充《世界性别人名词典》做出了新的贡献，现在该词典包括2,600多万条与自然人的姓名以及195个不同的国家和领土相联系的记录。《世界性别人名词典》2.0版是对其前身1.0版本的更新，是对50多个新的不同性别数据来源进行汇编和对原有来源清单进行更新后的成果。

哪里可以找到《世界性别人名词典》2.0版？

可以在IES性别开源项目中在线使用《世界性别人名词典》2.0版。该版本有一个专门的GitHub存储库，其中的文档描述了与国家和语言代码相联系的关于性别数据的不同独特观察集。《世界性别人名词典》1.0版和2.0版的证明文档也可以在哈佛大学Dataverse上查阅。

如何使用《世界性别人名词典》2.0版？

第一步是准备一个含有自然人姓名和国家代码的数据集。这个数据集准备好之后，下一步就是进行以下四项数据清理检查：

删除姓名记录中的家族姓名或姓氏，从而在姓名变量中只留下名字或主名。
将其余的姓名记录设置为小写，并删除姓名文字前后的空白。
删除构成每条最终姓名记录的单词之间的双空格。
确保数据集中包含的国家和领土代码是ISO 3166-1中定义的二位字母代码。可供使用的ISO二位代码的完整列表可在国际标准化组织（ISO）在线浏览平台或io中在线查阅。

然后，用户可以访问GitHub中的Gender-it tool工具，将《世界性别人名词典》2.0版的库应用于得到的已清理数据集。Gender-it包含可通过Stata或Python检索的《世界性别人名词典》2.0版的库（观看下面的视频教程）。这些软件选项中的库包含详细的说明和实例，用于下载必要的文档文件、函数和软件包，以便将用户的已清理数据库与《世界性别人名词典》2.0版中的性别人名词典类别进行匹配。Stata用户一开始可以运行tutorial_genderit.do文件，而Python用户一开始可以运行introduction to gender-it.ipynb文件。