CORGI-PM

github2023-04-19 更新2024-05-31 收录

下载链接：

https://github.com/yizhilll/CORGI-PM

下载链接

链接失效反馈

官方服务：

资源简介：

CORGI-PM是一个用于性别偏见探测和缓解的中文语料库，包含32.9k个带有高质量标签的句子，这些标签是根据专门为中文环境中的性别偏见开发的标注方案得出的。

CORGI-PM is a Chinese corpus designed for the detection and mitigation of gender bias, comprising 32.9k sentences with high-quality labels. These labels are derived from an annotation scheme specifically developed for identifying gender bias in the Chinese context.

创建时间：

2022-12-29

原始信息汇总

数据集概述

数据集名称：CORGI-PM

数据集描述：CORGI-PM是一个包含32.9k句子的中文语料库，专门用于性别偏见探测和缓解。该数据集通过特定的标注方案，为中文语境下的性别偏见提供了高质量的标签。

数据集结构

偏见语料库

数据格式：.npy 二进制文件
数据结构： python { train:{ ori_sentence: [...], bias_labels: [...], edit_sentence: [...] }, valid:{...}, test:{...} }
内容说明：
- ori_sentence：原始句子
- bias_labels：偏见类型，以one-hot编码存储
- edit_sentence：由人工标注者去偏见后的句子

非偏见语料库

数据格式：.npy 二进制文件
数据结构： python { train:{ text: [...] }, valid:{...}, test:{...} }
内容说明：仅包含原始文本，无需额外标注。

数据集使用

加载示例： python import numpy as np all_data = np.load(dataset/CORGI-PC_splitted_biased_corpus_v1.npy, allow_pickle=True).item() non_bias_corpus = np.load(dataset/CORGI-PC_splitted_non-bias_corpus_v1.npy, allow_pickle=True).item()

引用信息

bibtex @misc{https://doi.org/10.48550/arxiv.2301.00395, doi = {10.48550/ARXIV.2301.00395}, url = {https://arxiv.org/abs/2301.00395}, author = {Zhang, Ge and Li, Yizhi and Wu, Yaoyao and Zhang, Linyuan and Lin, Chenghua and Geng, Jiayi and Wang, Shi and Fu, Jie}, title = {CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation}, year = {2023}, publisher = {arXiv} }

搜集汇总

数据集介绍

构建方式

CORGI-PM数据集的构建基于中文语境下的性别偏见问题，通过精心设计的标注方案，收集并标注了32.9k条高质量句子。这些句子不仅包含了原始文本，还附有偏见类型的一热编码标签，以及经过人工去偏处理的对应文本。数据集的构建过程严格遵循科学方法，确保了数据的准确性和可靠性。

特点

CORGI-PM数据集的特点在于其专注于中文文本中的性别偏见问题，提供了丰富的偏见类型标签和去偏后的文本对照。数据集结构清晰，分为训练集、验证集和测试集，每部分都包含原始句子、偏见标签和去偏句子，便于研究者进行深入分析和模型训练。此外，数据集还提供了非偏见语料库，为对比研究提供了便利。

使用方法

使用CORGI-PM数据集时，研究者可以通过简单的Python代码加载数据。数据集以.npy格式存储，便于快速读取和处理。用户可以根据需要访问原始句子、偏见标签或去偏句子，进行偏见检测、分类或去偏实验。此外，数据集还提供了自动文本性别偏见缓解实验的代码示例，帮助研究者快速上手并进行相关研究。

背景与挑战

背景概述

CORGI-PM数据集由Ge Zhang、Yizhi Li等研究人员于2023年发布，旨在为中文语境下的性别偏见探测与缓解提供高质量标注语料。该数据集包含32.9k条句子，涵盖了多种性别偏见类型，并通过人工标注的方式提供了去偏见化的修正版本。CORGI-PM的创建填补了中文自然语言处理领域在性别偏见研究方面的空白，为相关领域的模型训练与评估提供了重要资源。其核心研究问题聚焦于自动化的文本性别偏见探测、分类与缓解，推动了中文文本性别偏见研究的深入发展。

当前挑战

CORGI-PM数据集在构建与应用中面临多重挑战。首先，性别偏见的定义与标注在中文语境中具有高度复杂性，需结合文化背景与语言特点设计精细的标注方案。其次，数据集中包含的偏见类型多样且隐晦，模型在探测与分类任务中需具备较高的语义理解能力。此外，去偏见化修正的生成不仅要求模型识别偏见，还需生成符合语言习惯的无偏见文本，这对模型的生成能力提出了更高要求。数据集的构建过程中，人工标注的一致性与质量把控也是一大挑战，需通过多轮校验确保数据的可靠性。

常用场景

经典使用场景

CORGI-PM数据集在自然语言处理领域中被广泛用于性别偏见的探测与缓解研究。该数据集包含了32.9k条高质量标注的中文句子，特别针对中文语境下的性别偏见问题进行了设计。研究者可以利用该数据集进行性别偏见的自动检测、分类及缓解模型的训练与评估，从而推动性别平等在语言模型中的应用。

衍生相关工作

CORGI-PM数据集的发布催生了一系列相关研究，特别是在中文性别偏见探测与缓解领域。基于该数据集，研究者开发了多种先进的偏见检测与缓解算法，并提出了新的评估指标。这些工作不仅推动了中文自然语言处理技术的发展，也为全球性别偏见研究提供了宝贵的经验与参考。

数据集最近研究