CLANDESTINO

github2023-05-19 更新2024-05-31 收录

下载链接：

https://github.com/microsoft/Clandestino

下载链接

链接失效反馈

官方服务：

资源简介：

CLANDESTINO是一个西班牙语毒性语言数据集，旨在检测和理解西班牙语中的毒性语言。考虑到西班牙语在多个国家和地区的广泛使用，以及文化和语言的多样性，该数据集特别关注不同地区和文化背景下的语言毒性。数据集包括本地语言标注、多种毒性类别覆盖、正式和非正式语言表达，并包含AI和人工生成的毒性内容。

CLANDESTINO is a Spanish toxic language dataset designed to detect and understand toxic language in Spanish. Given the widespread use of Spanish across multiple countries and regions, as well as the diversity of cultures and languages, this dataset particularly focuses on linguistic toxicity across different regions and cultural contexts. The dataset includes native language annotations, coverage of multiple toxicity categories, formal and informal language expressions, and contains both AI-generated and human-generated toxic content.

创建时间：

2023-04-13

原始信息汇总

CLANDESTINO数据集概述

数据集目的

CLANDESTINO是一个专为西班牙语毒性语言检测设计的语料库。考虑到西班牙语在不同国家和地区的文化差异，该数据集旨在帮助改进毒性检测方法。

数据集特点

多国原生语言标注：覆盖七个国家的原生语言标注。
多类别毒性内容：包括仇恨言论、微侵犯、正面刻板印象、自残、虚假信息等类别。
语言多样性：涵盖非正式和正式语言表达，包括基于文本的拼写。
地域特定语言：包含地域标签，反映地域特定语言。
内容来源：结合AI生成和人工生成的毒性内容，并明确标注。

数据集警告

本数据集包含和讨论的内容可能具有冒犯性或令人不安，旨在支持研究以改进毒性检测方法。

数据集更新

数据集目前处于积极开发中，首个版本已于5月15日发布。

责任AI考量

数据集在捕捉西班牙语中问题语言方面仍存在局限性，注释可能未能完全捕捉到这些问题的复杂性。数据集的规模可能导致自然噪声，且所有注释都引入了内在偏见。这些局限性应成为未来研究的主题。

搜集汇总

数据集介绍

构建方式

CLANDESTINO数据集的构建充分考虑了西班牙语作为全球广泛使用语言的文化多样性和语言复杂性。该数据集通过结合人工智能生成内容和人工标注的方式，涵盖了来自七个不同国家的母语者的注释。数据集中包含了多种毒性语言类别，如仇恨言论、微侵犯、正面刻板印象、自残和虚假信息等，并且特别关注了西班牙语世界特有的文化背景和语言变体。此外，数据集还包含了正式和非正式语言的样本，并附有地区标签，以反映不同地区的语言使用习惯。

使用方法

CLANDESTINO数据集的使用方法主要围绕毒性语言检测模型的训练和评估展开。研究人员可以利用该数据集中的标注数据来训练和优化毒性语言检测算法，特别是针对西班牙语的多地区变体。数据集中的地区标签和语言变体信息可以帮助研究人员更好地理解不同文化背景下的语言使用差异。此外，数据集还可以作为进一步数据合成的基础，支持更广泛的毒性语言研究。在使用过程中，研究人员应注意数据集的局限性，并结合多学科的研究方法来全面理解毒性语言的复杂性。

背景与挑战

背景概述

CLANDESTINO数据集是一个专注于西班牙语有毒语言检测的语料库，由多个国家的母语者进行标注，涵盖了广泛的毒性类别，包括仇恨言论、微侵犯、正面刻板印象、自残和虚假信息等。该数据集由研究团队于2023年5月15日首次发布，旨在解决西班牙语社区中因文化差异和语言多样性带来的毒性语言检测难题。西班牙语作为全球超过40个国家的母语，其语言和文化背景的复杂性使得毒性语言的检测尤为困难。CLANDESTINO不仅考虑了不同地区的语言变体，还特别关注了西班牙语世界中的文化细微差别，如殖民主义和帝国主义的历史遗留问题，这些因素使得毒性语言的界定标准与美国英语语境下的标准存在显著差异。

当前挑战

CLANDESTINO数据集在构建和应用过程中面临多重挑战。首先，西班牙语的语音特性导致同一词汇存在多种拼写方式，传统的基于统计的文本分析方法难以有效处理这一问题。其次，西班牙语世界的文化多样性使得毒性语言的界定标准因地区而异，单一的检测模型难以适应不同地区的文化背景。此外，数据集的标注过程引入了不可避免的偏见，且由于毒性语言的动态性和复杂性，现有的标注可能无法完全捕捉到所有问题。最后，尽管数据集涵盖了多种毒性类别，但其覆盖范围仍非全面，且数据规模较大可能导致噪声问题，这些都需要在未来的研究中进一步优化和改进。

常用场景

经典使用场景

CLANDESTINO数据集在西班牙语毒性语言检测领域具有广泛的应用。由于其覆盖了多个西班牙语国家的语言和文化差异，该数据集特别适用于开发跨地区的毒性语言检测模型。研究人员可以利用该数据集中的标注数据，训练和评估模型在不同文化背景下的表现，从而提升模型的泛化能力和准确性。

解决学术问题

CLANDESTINO数据集解决了西班牙语毒性语言检测中的文化差异和语言变体问题。通过涵盖多个国家的语言使用情况，该数据集帮助研究者更好地理解不同地区对毒性语言的敏感度和定义差异。此外，数据集中的多类别标注（如仇恨言论、微侵犯等）为研究提供了丰富的素材，推动了毒性语言检测领域的多维度研究。

实际应用

在实际应用中，CLANDESTINO数据集可用于社交媒体平台的毒性内容过滤系统。通过利用该数据集训练的模型，平台可以更精准地识别和屏蔽不同地区的毒性语言，从而减少用户之间的冲突和伤害。此外，该数据集还可用于教育领域，帮助语言学习者了解不同文化背景下的语言使用规范。

数据集最近研究