CORGI-PM|性别偏见数据集|语料库数据集

github2023-04-19 更新2024-05-31 收录

性别偏见

语料库

下载链接：

https://github.com/yizhilll/CORGI-PM

下载链接

链接失效反馈

资源简介：

CORGI-PM是一个用于性别偏见探测和缓解的中文语料库，包含32.9k个带有高质量标签的句子，这些标签是根据专门为中文环境中的性别偏见开发的标注方案得出的。

CORGI-PM is a Chinese corpus designed for the detection and mitigation of gender bias, comprising 32.9k sentences with high-quality labels. These labels are derived from an annotation scheme specifically developed for identifying gender bias in the Chinese context.

创建时间：

2022-12-29

原始信息汇总

数据集概述

数据集名称：CORGI-PM

数据集描述：CORGI-PM是一个包含32.9k句子的中文语料库，专门用于性别偏见探测和缓解。该数据集通过特定的标注方案，为中文语境下的性别偏见提供了高质量的标签。

数据集结构

偏见语料库

数据格式：.npy 二进制文件
数据结构： python { train:{ ori_sentence: [...], bias_labels: [...], edit_sentence: [...] }, valid:{...}, test:{...} }
内容说明：
- ori_sentence：原始句子
- bias_labels：偏见类型，以one-hot编码存储
- edit_sentence：由人工标注者去偏见后的句子

非偏见语料库

数据格式：.npy 二进制文件
数据结构： python { train:{ text: [...] }, valid:{...}, test:{...} }
内容说明：仅包含原始文本，无需额外标注。

数据集使用

加载示例： python import numpy as np all_data = np.load(dataset/CORGI-PC_splitted_biased_corpus_v1.npy, allow_pickle=True).item() non_bias_corpus = np.load(dataset/CORGI-PC_splitted_non-bias_corpus_v1.npy, allow_pickle=True).item()

引用信息

bibtex @misc{https://doi.org/10.48550/arxiv.2301.00395, doi = {10.48550/ARXIV.2301.00395}, url = {https://arxiv.org/abs/2301.00395}, author = {Zhang, Ge and Li, Yizhi and Wu, Yaoyao and Zhang, Linyuan and Lin, Chenghua and Geng, Jiayi and Wang, Shi and Fu, Jie}, title = {CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation}, year = {2023}, publisher = {arXiv} }

AI搜集汇总

数据集介绍

构建方式

CORGI-PM数据集的构建基于中文语境下的性别偏见问题，通过精心设计的标注方案，收集并标注了32.9k条高质量句子。这些句子不仅包含了原始文本，还附有偏见类型的一热编码标签，以及经过人工去偏处理的对应文本。数据集的构建过程严格遵循科学方法，确保了数据的准确性和可靠性。

特点

CORGI-PM数据集的特点在于其专注于中文文本中的性别偏见问题，提供了丰富的偏见类型标签和去偏后的文本对照。数据集结构清晰，分为训练集、验证集和测试集，每部分都包含原始句子、偏见标签和去偏句子，便于研究者进行深入分析和模型训练。此外，数据集还提供了非偏见语料库，为对比研究提供了便利。

使用方法

使用CORGI-PM数据集时，研究者可以通过简单的Python代码加载数据。数据集以.npy格式存储，便于快速读取和处理。用户可以根据需要访问原始句子、偏见标签或去偏句子，进行偏见检测、分类或去偏实验。此外，数据集还提供了自动文本性别偏见缓解实验的代码示例，帮助研究者快速上手并进行相关研究。

背景与挑战

背景概述

CORGI-PM数据集由Ge Zhang、Yizhi Li等研究人员于2023年发布，旨在为中文语境下的性别偏见探测与缓解提供高质量标注语料。该数据集包含32.9k条句子，涵盖了多种性别偏见类型，并通过人工标注的方式提供了去偏见化的修正版本。CORGI-PM的创建填补了中文自然语言处理领域在性别偏见研究方面的空白，为相关领域的模型训练与评估提供了重要资源。其核心研究问题聚焦于自动化的文本性别偏见探测、分类与缓解，推动了中文文本性别偏见研究的深入发展。

当前挑战

CORGI-PM数据集在构建与应用中面临多重挑战。首先，性别偏见的定义与标注在中文语境中具有高度复杂性，需结合文化背景与语言特点设计精细的标注方案。其次，数据集中包含的偏见类型多样且隐晦，模型在探测与分类任务中需具备较高的语义理解能力。此外，去偏见化修正的生成不仅要求模型识别偏见，还需生成符合语言习惯的无偏见文本，这对模型的生成能力提出了更高要求。数据集的构建过程中，人工标注的一致性与质量把控也是一大挑战，需通过多轮校验确保数据的可靠性。

常用场景

经典使用场景

CORGI-PM数据集在自然语言处理领域中被广泛用于性别偏见的探测与缓解研究。该数据集包含了32.9k条高质量标注的中文句子，特别针对中文语境下的性别偏见问题进行了设计。研究者可以利用该数据集进行性别偏见的自动检测、分类及缓解模型的训练与评估，从而推动性别平等在语言模型中的应用。

衍生相关工作

CORGI-PM数据集的发布催生了一系列相关研究，特别是在中文性别偏见探测与缓解领域。基于该数据集，研究者开发了多种先进的偏见检测与缓解算法，并提出了新的评估指标。这些工作不仅推动了中文自然语言处理技术的发展，也为全球性别偏见研究提供了宝贵的经验与参考。

数据集最近研究

最新研究方向

近年来，随着自然语言处理技术的快速发展，性别偏见问题在中文语境下的研究逐渐受到关注。CORGI-PM数据集作为专门针对中文性别偏见探测与缓解的高质量语料库，为相关研究提供了重要支持。该数据集不仅包含了32.9k条带有高质量标注的句子，还通过特定的标注方案，深入探讨了性别偏见的检测、分类与缓解三大挑战。当前，基于CORGI-PM的研究主要集中在自动文本性别偏见检测与分类任务上，研究者们通过二分类和多标签分类模型，探索如何有效识别和分类文本中的性别偏见。此外，性别偏见的自动缓解技术也成为了前沿热点，未来有望通过更先进的生成模型和对抗训练方法，进一步提升文本的公平性与包容性。CORGI-PM的发布为中文自然语言处理领域的性别偏见研究提供了新的视角和工具，推动了该领域的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录