CDIAL-BIAS DATASET

Name: CDIAL-BIAS DATASET
Creator: 中国香港中文大学系统工程与工程管理系
Published: 2022-10-28 23:25:38
License: 暂无描述

arXiv2022-10-28 更新2024-06-21 收录

下载链接：

https://github.com/para-zhou/CDial-Bias

下载链接

链接失效反馈

官方服务：

资源简介：

CDIAL-BIAS DATASET是由中国香港中文大学系统工程与工程管理系的研究团队开发的首个高质量中文对话偏见数据集，包含28,000个上下文-响应对。数据集覆盖了种族、性别、地区和职业四个广泛讨论的偏见主题，并通过DIAL-BIAS FRAMEWORK进行精细标注。该数据集不仅包含偏见态度标签，还包括四个辅助标签，通过数据爬取和顺序标注过程收集。此数据集旨在解决对话系统中的社会偏见问题，通过详细的标注和分析，提高模型识别偏见的能力，促进构建更公正、可靠的对话系统。

CDIAL-BIAS DATASET is the first high-quality Chinese dialogue bias dataset developed by a research team from the Department of Systems Engineering and Engineering Management, The Chinese University of Hong Kong. It contains 28,000 context-response pairs, covering four widely discussed bias topics: race, gender, region and occupation, and is meticulously annotated via the DIAL-BIAS FRAMEWORK. This dataset not only includes bias attitude labels but also four auxiliary labels, which are collected through data crawling and sequential annotation processes. It aims to address social bias issues in dialogue systems, and through detailed annotation and analysis, improve models' ability to recognize biases, so as to promote the construction of more fair and reliable dialogue systems.

提供机构：

中国香港中文大学系统工程与工程管理系

创建时间：

2022-02-16

搜集汇总

数据集介绍

构建方式

在开放域对话系统日益普及的背景下，CDIAL-BIAS数据集的构建旨在系统性地识别和测量中文对话中的社会偏见。该数据集通过从中文问答平台知乎爬取与种族、性别、地域和职业四大偏见主题相关的对话数据，形成了28k个上下文-回复对。构建过程严格遵循DIAL-BIAS框架，采用众包方式进行人工标注，每位标注者需依次判断语境敏感性、数据类型、目标群体和隐含态度，每个数据条目至少由三位标注者独立完成，以确保标注的可靠性和一致性。

使用方法

该数据集主要用于训练和评估对话系统中的社会偏见检测模型。研究者可利用其丰富的标注信息，开发能够理解语境、区分偏见表达与讨论、并识别特定目标群体的分类器。数据集支持多任务学习，通过联合预测偏见态度及辅助标签以提升模型性能。此外，它还可作为基准测试，用于评估现有生成式对话模型（如CDIAL-GPT、EVA等）的偏见风险，推动构建更安全、公正的对话系统。

背景与挑战

背景概述

随着开放域对话系统的广泛应用，其潜在的安全隐患，尤其是社会偏见问题，逐渐成为学术界关注的焦点。CDIAL-BIAS数据集由香港中文大学、清华大学和华为诺亚方舟实验室的研究团队于2022年联合创建，旨在系统性地测量中文对话中的社会偏见。该数据集围绕种族、性别、地域和职业四大主题，收录了28k条经过精细标注的上下文-回复对，并创新性地提出了DIAL-BIAS框架，通过分析语境敏感性、数据类型、目标群体和隐含态度四个维度，为偏见检测提供了多层次的解析工具。作为首个高质量的中文对话偏见数据集，它不仅填补了该领域资源空白，也为构建无偏见对话系统奠定了重要基础。

当前挑战

在对话系统中识别社会偏见面临双重挑战。从领域问题看，偏见表达往往隐晦且依赖语境，传统基于词典或二值标注的方法难以捕捉其微妙性，而将偏见检测简化为二元分类任务则忽略了反偏见和中立态度的复杂性，导致模型泛化能力不足。在构建过程中，数据收集需平衡广泛性与敏感性，既要涵盖多样化的偏见主题和群体，又要避免触及隐私或引发二次伤害；标注工作则因偏见的主观性和文化依赖性而极具挑战，需要设计严谨的框架来降低标注歧义，并确保标注者背景的多样性以反映多元视角。

常用场景

经典使用场景

在对话系统安全评估领域，CDIAL-BIAS数据集被广泛应用于检测和量化中文对话中隐含的社会偏见。该数据集通过精细标注的上下文-回复对，为研究者提供了一个标准化的测试平台，用于评估生成式对话模型在种族、性别、地域和职业等敏感话题上的偏见倾向。其经典使用场景包括训练和验证偏见检测分类器，以及作为基准数据集推动对话系统向更公平、更负责任的方向发展。

解决学术问题

CDIAL-BIAS数据集有效解决了对话系统中社会偏见检测的若干核心学术问题。首先，它突破了传统基于词典或二分类标注的局限，通过DIAL-BIAS框架实现了对偏见的多维度分析，包括上下文敏感性、数据类型、目标群体和隐含态度。其次，该数据集填补了中文对话偏见资源的空白，为研究中文语境下的隐性偏见提供了高质量标注数据。此外，它促进了细粒度偏见测量方法的发展，帮助学术界更深入地理解偏见在对话中的复杂表现形式。

实际应用

在实际应用层面，CDIAL-BIAS数据集为工业界和学术界构建安全的对话系统提供了关键支持。它被用于评估和优化诸如CDIAL-GPT、EVA等中文对话模型的偏见风险，帮助开发者识别和缓解模型在生成回复时可能存在的歧视性内容。该数据集还可集成到对话系统的安全过滤机制中，实时检测和拦截带有偏见的回复，从而提升用户体验并降低社会负面影响。

数据集最近研究