Dataset XING57/2017
收藏github2021-01-29 更新2024-05-31 收录
下载链接:
https://github.com/MilkaLichtblau/xing_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从xing.com收集的匿名用户资料,响应了57个查询。在2017年1月至2月期间用于研究根据用户资料细节返回的排名搜索结果中的性别偏见。
This dataset comprises anonymized user profiles collected from xing.com, responding to 57 queries. It was utilized between January and February 2017 to investigate gender bias in the ranked search results returned based on user profile details.
创建时间:
2017-03-07
原始信息汇总
数据集概述
数据集名称
- Dataset XING57/2017
数据集内容
- 包含从xing.com收集的匿名用户资料,响应57个查询。
- 用于研究2017年1月至2月期间,根据用户资料细节返回的排名搜索结果中的性别偏见。
数据格式
- 数据存储在
~/data目录下的JSON文件中。 - 每个文件包含每个查询前两页(共40个)用户资料的信息。
- 处理的信息包括:工作经历时长、教育时长、性别。
文件命名规则
SHAano##start#-end#- 其中:
SHAano:表示数据集已匿名化。##:表示查询的顺序编号。start#-end#:表示结果编号范围。
样本资料结构
- 包含个人信息如性别、会员注册时间、当前工作描述、工作经历、教育经历等。
查询列表
- 包括行政助理、审计员、会计师、银行柜员等57种职业查询。
数据处理细节
- 搜索以未登录状态进行,确保结果排序不受特定用户资料影响。
- 性别信息从用户名和图片中手动提取。
- 19个查询返回了重复条目,处理后部分结果少于40个资料。
- 公司或机构名称使用SHA-256算法匿名化。
引用信息
- 若使用此数据集,请引用Zehlike等人的论文。
搜集汇总
数据集介绍

构建方式
该数据集构建于2017年,通过从XING.com平台收集匿名用户档案数据,响应57个查询。数据收集过程中,研究人员未登录平台以确保搜索结果排序不受特定用户档案影响。每个查询返回的前40个用户档案信息被详细解析,包括工作经历时长、教育时长及性别等关键信息。数据经过严格匿名化处理,移除了个人姓名、超链接和图片,并使用SHA-256算法对公司和机构名称进行哈希处理,以保护用户隐私。
特点
该数据集的特点在于其专注于研究性别偏见在搜索结果中的表现,涵盖了多样化的职业领域。每个用户档案包含详细的工作和教育经历信息,且数据经过严格的匿名化处理,确保用户隐私安全。此外,数据集还包含了手动推导的性别信息,以过滤掉虚假或误导性档案。数据集的查询设计基于特定职业领域的多样化需求,排除了在XING平台上代表性不足的职业,如建筑工人和农民等。
使用方法
该数据集的使用方法较为直观,用户可以通过读取JSON文件中的数据进行分析。数据集中的代码位于`src/`目录下,能够将所有JSON文件中的信息读取到Python数据框中,便于后续分析。用户只需执行相关命令即可将数据加载到本地进行使用。该数据集适用于研究性别偏见、职业分布及用户档案分析等领域,为相关研究提供了丰富的数据支持。
背景与挑战
背景概述
2017数据集由Meike Zehlike等研究人员于2017年创建,旨在研究XING平台上基于用户个人资料的搜索结果中存在的性别偏见问题。该数据集包含了57个查询的匿名用户资料,涵盖了多个职业领域,如行政助理、审计员、律师等。研究团队通过分析用户的工作经验、教育背景和性别信息,探讨了搜索结果排序中的性别偏差现象。该研究不仅揭示了职业搜索中的性别不平等问题,还为后续的公平排序算法研究提供了重要的数据支持。数据集的研究成果发表在2017年的ACM信息与知识管理会议上,对信息检索和公平性研究领域产生了深远影响。
当前挑战
2017数据集在构建过程中面临了多重挑战。首先,数据收集过程中需要确保用户隐私的保护,所有个人身份信息均被匿名化处理,这增加了数据处理的复杂性。其次,由于性别信息未直接提供,研究团队需通过用户姓名和图片手动推断性别,这一过程耗时且容易受到虚假信息的干扰。此外,部分查询结果中存在重复条目,需进行去重处理,以确保数据的准确性。最后,数据集中的某些条目存在数据不完整的问题,如缺失日期信息,研究团队需通过假设和估算来填补这些空白,这在一定程度上影响了数据的可靠性。这些挑战不仅反映了数据收集和处理的复杂性,也凸显了在公平性研究中确保数据质量的难度。
常用场景
经典使用场景
XING57/2017数据集在研究性别偏见在职业搜索排名中的影响方面具有经典应用。通过分析用户在XING平台上的匿名化职业档案,研究者能够深入探讨不同性别在特定职业搜索中的排名差异。这一数据集为理解算法如何影响性别平等提供了实证基础,尤其是在职业推荐系统中。
解决学术问题
该数据集解决了关于算法公平性和性别偏见的关键学术问题。通过提供详细的用户职业档案数据,研究者能够评估和改善排名算法的公平性,确保搜索结果不因性别而产生偏差。这不仅推动了算法公平性的研究,还为设计更加公正的推荐系统提供了理论支持。
衍生相关工作
基于XING57/2017数据集,研究者们开展了多项关于算法公平性和性别偏见的研究。例如,Zehlike等人提出的Fa*ir算法,便是利用该数据集开发的一种公平排名算法,旨在减少搜索结果中的性别偏见。这些工作不仅推动了算法公平性领域的发展,还为后续研究提供了重要的参考和工具。
以上内容由遇见数据集搜集并总结生成



