COLDATASET

Name: COLDATASET
Creator: 清华大学智能技术与系统国家重点实验室
Published: 2022-10-19 15:59:03
License: 暂无描述

arXiv2022-10-19 更新2024-06-21 收录

下载链接：

https://github.com/thu-coai/COLDataset

下载链接

链接失效反馈

官方服务：

资源简介：

COLDATASET是由清华大学智能技术与系统国家重点实验室开发的，包含37,480条中文评论数据集，旨在分析和检测中文中的攻击性语言。数据集覆盖了种族、性别和地区等多个敏感话题，每条评论都标有是否具有攻击性的二元标签。创建过程中，数据通过关键词查询和相关子话题爬虫从社交媒体平台收集，经过人工标注和模型辅助筛选，确保数据质量和相关性。COLDATASET的应用领域主要集中在提升社交媒体平台的文明程度和部署预训练语言模型的安全性，解决网络环境中的语言攻击问题。

COLDATASET is developed by the State Key Laboratory of Intelligent Technology and Systems, Tsinghua University. It encompasses 37,480 Chinese comment samples, aiming to analyze and detect offensive language in Chinese. The dataset covers multiple sensitive topics such as race, gender and region, and each comment is labeled with a binary tag indicating whether it is offensive. During its creation, data was collected from social media platforms via keyword queries and crawlers for relevant sub-topics, followed by manual annotation and model-assisted filtering to ensure data quality and relevance. The application scenarios of COLDATASET mainly focus on improving the civility of social media platforms and enhancing the safety of pre-trained language models, so as to address the problem of language attacks in online environments.

提供机构：

清华大学智能技术与系统国家重点实验室

创建时间：

2022-01-16

搜集汇总

数据集介绍

构建方式

COLDATASET 是一个针对中文冒犯性语言分析的数据集，它包含了 37,480 条带有二元冒犯性标签的评论，涵盖了种族、性别和地区等多样化的主题。数据集的构建过程遵循 Vidgen 和 Derczynski (2020) 提供的建议，以确保标准化和可追溯的研究。数据来源于社交媒体平台，包括知乎和微博，通过关键词查询和相关子主题爬取两种策略进行收集。为了提高收集效率，采用了模型在环的设置，并训练了一个分类器来从候选数据中发现目标数据。训练集和测试集分别采用不同的标注策略，以提高标注效率和质量。最终，17 名母语为中文的标注员对数据进行标注，以确保数据质量。

特点

COLDATASET 的特点在于其多样性、全面性和高质量标注。数据集涵盖了种族、性别和地区等多样化的主题，能够满足不同研究领域的需要。同时，数据集的标注质量高，标注员经过了严格的培训和指导，确保了数据的一致性和准确性。此外，COLDATASET 还提供了细粒度的标注，将冒犯性内容细分为攻击个人、攻击群体、反偏见和其他非冒犯性等类别，为更深入的分析提供了基础。

使用方法

COLDATASET 可用于冒犯性语言检测、模型安全性评估和对话场景下的安全性分析等任务。用户可以使用数据集训练和评估冒犯性语言检测模型，以识别和过滤网络社区中的冒犯性内容。此外，用户还可以使用数据集评估语言模型的冒犯性，以促进更安全的部署。在对话场景下，用户可以结合 COLDETECTOR 等检测器，探索更严谨的策略，以确保生成内容的的安全性。

背景与挑战

背景概述

随着社交媒体的普及和大规模语言模型的发展，对于维护文明的社会媒体平台和部署预训练语言模型，冒犯性语言的检测变得日益重要。由于缺乏可靠的中文数据集，中文冒犯性语言的检测任务仍然处于探索阶段。为了解决这一问题，清华大学人工智能研究室的CoAI小组提出了一个名为COLD（Chinese Offensive Language Detection）的基准数据集，包括中文冒犯性语言数据集COLDATASET和一个基于该数据集训练的基准检测器COLDETECTOR。COLDATASET包含37,480条带有二进制冒犯性标签的评论，涵盖了种族、性别和地区等多样化的主题。该数据集的提出为中文冒犯性语言检测提供了重要的研究基础，并为相关领域的研究提供了重要的数据支持。

当前挑战

中文冒犯性语言检测面临的主要挑战包括：1）缺乏可靠的中文数据集，导致中文冒犯性语言检测的研究相对滞后；2）中文语言模型在预训练过程中可能存在偏见，导致生成冒犯性或不道德的内容；3）现有的检测方法难以有效地检测到所有类型的冒犯性语言，特别是在对话场景中；4）中文数据集的覆盖范围和标注粒度有限，需要进一步扩展和完善。

常用场景

经典使用场景

在维护文明社交媒体平台和部署预训练语言模型方面，冒犯性语言检测变得日益重要。然而，由于缺乏可靠的中文数据集，这一任务在中文领域仍处于探索阶段。为此，我们提出了一个名为COLD的基准，用于中文冒犯性语言分析，包括一个名为COLDATASET的中文冒犯性语言数据集和一个名为COLDETECTOR的基准检测器，该检测器是在数据集上训练的。我们展示了COLD基准对中文冒犯性语言检测的贡献，这对于现有资源来说是一项挑战。

衍生相关工作

COLDATASET的提出和发布对相关领域的研究产生了深远的影响。它不仅为中文冒犯性语言检测提供了宝贵的数据资源，还推动了相关算法和模型的开发。例如，基于COLDATASET训练的COLDETECTOR基准检测器，其性能在多个评估指标上均优于现有方法。此外，COLDATASET还被用于评估和比较流行的中文生成语言模型的冒犯性程度，揭示了不同模型在安全性方面的差异。这些研究工作为中文冒犯性语言检测领域的发展奠定了坚实的基础，并为未来的研究提供了重要的参考。

数据集最近研究