fgs218ok/WikiEditBias
收藏Hugging Face2024-06-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/fgs218ok/WikiEditBias
下载链接
链接失效反馈官方服务:
资源简介:
WikiEditBias数据集用于检测维基百科历史修订中的编辑偏见。数据集通过追踪维基百科修订和编辑者的偏见标签生成,包含编辑差异和句子两种格式,每种格式有10k、50k、100k、200k、400k五种规模的数据。
WikiEditBias数据集用于检测维基百科历史修订中的编辑偏见。数据集通过追踪维基百科修订和编辑者的偏见标签生成,包含编辑差异和句子两种格式,每种格式有10k、50k、100k、200k、400k五种规模的数据。
提供机构:
fgs218ok
原始信息汇总
WikiEditBias Dataset 概述
数据集基本信息
- 许可证: pddl
- 任务类别: text-classification
- 标签: croissant
- 大小类别: 10M<n<100M
- 语言: en
数据集配置
-
配置名称:
- train10k_val2k_test2k_edit_diff
- train10k_val2k_test2k_sentence
- train50k_val2k_test2k_edit_diff
- train50k_val2k_test2k_sentence
- train100k_val2k_test2k_edit_diff
- train100k_val2k_test2k_sentence
- train200k_val2k_test2k_edit_diff
- train200k_val2k_test2k_sentence
- train400k_val2k_test2k_edit_diff
- train400k_val2k_test2k_sentence
-
数据文件:
- 分割: train, validation, test
- 路径:
- 对应各个配置名称下的 train.csv, val.csv, test.csv
数据集结构
-
格式:
- Edit diff 格式: 包含句子级差异的句子对,每个 .csv 文件包含三个字段:
- label: 0 表示非偏见/中性编辑,1 表示偏见编辑
- old_text: 编辑前的句子级文本
- new_text: 编辑后的句子级文本
- Sentence 格式: 包含从维基百科修订中提取的句子,字段与 Edit diff 格式相似:
- label: 0 表示非偏见/中性编辑,1 表示偏见编辑
- text: 编辑的句子级文本
- Edit diff 格式: 包含句子级差异的句子对,每个 .csv 文件包含三个字段:
-
数据规模: 10k, 50k, 100k, 200k, 400k
搜集汇总
数据集介绍

构建方式
WikiEditBias数据集的构建基于对Wikipedia历史修订的追踪,通过分析MediaWiki历史数据转储中的编辑差异和编辑者偏见标签来生成。数据集包括两种格式:编辑差异格式和句子格式。编辑差异格式通过提取修订前后的句子对来记录偏见,而句子格式则直接提取修订中的句子。每种格式都提供了不同规模的数据集,涵盖从10k到400k的样本量,以满足不同研究需求。
特点
WikiEditBias数据集的主要特点在于其专注于检测Wikipedia历史修订中的偏见,提供了两种数据格式以适应不同的分析需求。数据集的多样性体现在其包含不同规模的数据样本,从10k到400k不等,确保了其在不同研究场景中的适用性。此外,数据集的标签明确区分了中性编辑和偏见编辑,为偏见检测任务提供了清晰的分类标准。
使用方法
使用WikiEditBias数据集时,用户可以通过HuggingFace的datasets库直接加载数据集。数据集提供了多种配置选项,用户可以根据需要选择不同规模和格式的数据集。加载数据集后,用户可以利用其中的标签信息进行偏见检测模型的训练和评估。数据集的结构清晰,包含编辑差异和句子两种格式,每种格式都提供了详细的字段信息,便于用户进行数据处理和分析。
背景与挑战
背景概述
WikiEditBias数据集由fgs218ok创建,旨在解决维基百科历史修订中存在的编辑偏见问题。该数据集通过追踪维基百科修订及其对应编辑者的偏见标签,从MediaWiki历史数据中提取而成。其核心研究问题在于识别和分类维基百科修订中的偏见,这对于提升信息透明度和公正性具有重要意义。该数据集的创建不仅丰富了文本分类领域的研究资源,也为社会科学研究提供了新的视角,特别是在信息传播和公共话语权领域。
当前挑战
WikiEditBias数据集在构建过程中面临多重挑战。首先,识别和标注编辑偏见需要高度专业化的知识和细致的分析,这增加了数据标注的复杂性和成本。其次,数据集的规模和多样性要求高效的存储和处理技术,以确保数据的质量和可用性。此外,如何确保数据集的公正性和代表性,避免潜在的偏见和歧视,也是该数据集面临的重要挑战。这些挑战不仅影响了数据集的构建过程,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,WikiEditBias数据集的经典使用场景主要集中在检测和分析维基百科历史修订中的编辑偏见。通过对比编辑前后的文本差异,该数据集能够帮助研究人员和开发者构建模型,以识别和量化编辑过程中的偏见倾向。这种应用不仅有助于提升文本分类的准确性,还能为偏见检测算法提供丰富的训练数据。
解决学术问题
WikiEditBias数据集在学术研究中解决了多个关键问题。首先,它为偏见检测提供了大规模的标注数据,填补了该领域数据稀缺的空白。其次,通过分析编辑差异,该数据集有助于深入理解编辑行为中的偏见模式,从而推动偏见检测技术的发展。此外,该数据集还为研究者提供了评估和改进偏见检测模型的基准,促进了相关领域的技术进步。
衍生相关工作
基于WikiEditBias数据集,研究者们开展了一系列相关工作。例如,有研究利用该数据集开发了新的偏见检测算法,显著提升了检测的准确性和效率。此外,还有研究探讨了编辑偏见与社会文化因素之间的关系,为理解偏见产生的根源提供了新的视角。这些衍生工作不仅丰富了偏见检测的理论基础,还为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



