cmu-lti/cobracorpus

Name: cmu-lti/cobracorpus
Creator: cmu-lti
Published: 2023-06-26 17:20:21
License: 暂无描述

Hugging Face2023-06-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cmu-lti/cobracorpus

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: openrail task_categories: - text-generation - text-classification language: - en pretty_name: COBRA🐍 size_categories: - 10K<n<100K --- # Dataset Card for Dataset Name ## Dataset Description - **Homepage: https://cobra.xuhuiz.com/** - **Paper: https://arxiv.org/abs/2306.01985** ### Dataset Summary This dataset contains COBRACOPURS and COBRACORPUS-counterfactual in this [paper](https://arxiv.org/abs/2306.01985) ### Data Splits * `advContexts_explanations.csv` is `COBRACorpus-CF` * `toxigen_explanations.csv` is the full `COBRACorpus` * `toxigen_explanations_train.csv` is the training split of `COBRACorpus` * `toxigen_explanations_val.csv` is the validation split of `COBRACorpus` ### Data Entries For `COBRACorpus`, the relevant entries in the `csv` files are *`situationalContext (string)`, `speakerIdentity (string)`, `listenerIdentity (string)`, `statement (string)`, `intent (string)`, `targetGroup (string)`, `relevantPowerDynamics (string)`, `implication (string)`, `targetGroupEmotionalReaction (string)`, `targetGroupCognitiveReaction (string)`, `offensiveness (string)`* Please refer to the [paper](https://arxiv.org/abs/2306.01985) for the specific explanations of these entries. The *`examples`* entry is the few-shot prompt that we used to generate explanations. All other entries are from the [Toxicgen](https://arxiv.org/abs/2203.09509) dataset, which is not directly relevant to this work but we leave them there as the metadata in case it's useful for the future works. ### Citation Information If you find this dataset useful, please cite: ``` @inproceedings{zhou2023cobra, title = {COBRA Frames: Contextual Reasoning about Effects and Harms of Offensive Statements}, author = {Zhou, Xuhui and Zhu, Hao and Yerukola, Akhila and Davidson, Thomas and D. Hwang, Jena and Swayamdipta, Swabha and Sap, Maarten}, year = {2023}, booktitle = {Findings of ACL} } ```

license: openrail 任务类别： - 文本生成（text-generation） - 文本分类（text-classification）语言： - 英语（en）展示名称：COBRA🐍 规模类别： - 10,000 < 样本数量 < 100,000 --- # 数据集卡片 ## 数据集说明 - **主页：https://cobra.xuhuiz.com/** - **相关论文：https://arxiv.org/abs/2306.01985** ### 数据集概述本数据集涵盖本论文中提及的COBRACOPURS与反事实COBRACORPUS（COBRACORPUS-counterfactual）。 ### 数据划分 * `advContexts_explanations.csv` 对应 `COBRACorpus-CF` * `toxigen_explanations.csv` 为完整的 `COBRACorpus` * `toxigen_explanations_train.csv` 为 `COBRACorpus` 的训练集划分 * `toxigen_explanations_val.csv` 为 `COBRACorpus` 的验证集划分 ### 数据条目针对 `COBRACorpus`，其CSV文件中的有效条目包括： * 情境上下文（situationalContext，字符串类型）、说话者身份（speakerIdentity，字符串类型）、倾听者身份（listenerIdentity，字符串类型）、陈述内容（statement，字符串类型）、意图（intent，字符串类型）、目标群体（targetGroup，字符串类型）、相关权力动态（relevantPowerDynamics，字符串类型）、隐含含义（implication，字符串类型）、目标群体情绪反应（targetGroupEmotionalReaction，字符串类型）、目标群体认知反应（targetGroupCognitiveReaction，字符串类型）、冒犯性程度（offensiveness，字符串类型）有关这些条目的详细说明，请参阅本论文。 `examples` 条目为我们用于生成解释的少样本提示（few-shot prompt）。其余所有条目均来自[Toxicgen](https://arxiv.org/abs/2203.09509)数据集，该数据集与本研究无直接关联，但我们保留其作为元数据，以供后续研究参考使用。 ### 引用信息若您认为本数据集对研究有所帮助，请引用如下文献： @inproceedings{zhou2023cobra, title = {COBRA框架：冒犯性陈述的影响与危害的上下文推理}, author = {Zhou, Xuhui and Zhu, Hao and Yerukola, Akhila and Davidson, Thomas and D. Hwang, Jena and Swayamdipta, Swabha and Sap, Maarten}, year = {2023}, booktitle = {ACL 研究发现} }

提供机构：

cmu-lti

原始信息汇总

数据集概述

基本信息

许可证: openrail
任务类别:
- 文本生成
- 文本分类
语言: 英语
数据集名称: COBRA🐍
数据集大小: 10K<n<100K

数据集详情

数据集总结: 包含COBRACOPURS和COBRACORPUS-counterfactual，详细信息参考论文。
数据分割:
- advContexts_explanations.csv: COBRACorpus-CF
- toxigen_explanations.csv: 完整的COBRACorpus
- toxigen_explanations_train.csv: COBRACorpus的训练集
- toxigen_explanations_val.csv: COBRACorpus的验证集
数据条目:
- 对于COBRACorpus，相关条目包括：situationalContext, speakerIdentity, listenerIdentity, statement, intent, targetGroup, relevantPowerDynamics, implication, targetGroupEmotionalReaction, targetGroupCognitiveReaction, offensiveness。
- examples条目是用于生成解释的少样本提示。

引用信息

若使用此数据集，请引用：

@inproceedings{zhou2023cobra, title = {COBRA Frames: Contextual Reasoning about Effects and Harms of Offensive Statements}, author = {Zhou, Xuhui and Zhu, Hao and Yerukola, Akhila and Davidson, Thomas and D. Hwang, Jena and Swayamdipta, Swabha and Sap, Maarten}, year = {2023}, booktitle = {Findings of ACL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，理解冒犯性言论的语境与影响至关重要。COBRACorpus数据集的构建依托于Toxigen数据集，通过精心设计的提示框架，引导模型生成对冒犯性陈述的解释。研究团队采用人工标注与自动化生成相结合的策略，对每条语句的情境背景、说话者身份、听众身份及意图等多维度进行系统化标注，并进一步构建了反事实版本COBRACorpus-CF，以增强数据集的多样性与对比分析能力。

使用方法

使用COBRACorpus时，研究者可依据具体任务灵活选取数据分割。训练集与验证集已预先划分，便于模型开发与评估。对于语境推理研究，建议综合运用situationalContext、intent等字段进行多标签分析；若探讨冒犯性言论的生成，可结合statement与offensiveness字段构建生成或分类模型。反事实数据集COBRACorpus-CF则适用于对比实验，以验证模型在对抗性语境下的鲁棒性。

背景与挑战

背景概述

在自然语言处理领域，理解语言中的冒犯性内容及其社会影响是一项复杂且关键的任务。CMU-LTI团队于2023年发布了COBRACorpus数据集，旨在通过情境化推理框架，深入分析冒犯性陈述的效应与危害。该数据集由卡内基梅隆大学语言技术研究所等机构的研究人员构建，核心研究问题聚焦于如何系统评估语句在特定社会语境下的冒犯性、意图及对目标群体的心理影响。COBRACorpus不仅提供了丰富的元数据标注，如说话者身份、权力动态和情感反应，还引入了反事实数据增强，推动了可解释性人工智能与伦理计算的发展，为构建更具社会意识的语言模型奠定了重要基础。

当前挑战

COBRACorpus面临的挑战主要源于其研究领域的复杂性与数据构建的严谨性要求。在领域问题层面，该数据集旨在解决冒犯性语言的情境化理解与危害评估，这涉及多维度社会因素（如身份、权力关系）的交互，模型需超越表面文本分类，进行深层因果推理，避免过度简化或偏见放大。构建过程中，挑战包括如何从Toxigen等现有数据中提取并标注高质量的情境元数据，确保标注者对社会语境的一致性理解，以及通过反事实生成平衡数据分布，同时维护伦理标准，防止标注过程引入新的偏差。

常用场景

经典使用场景

在自然语言处理领域，COBRACorpus数据集为研究语言中的冒犯性内容提供了丰富的语境化分析框架。该数据集通过标注情境背景、说话者身份、意图及目标群体反应等多维度信息，使得研究者能够深入探索冒犯性言论的生成机制与影响路径。其经典使用场景集中于训练和评估模型在复杂社会语境下识别、解释及生成冒犯性内容的能力，尤其在文本生成与分类任务中，为模型提供了细粒度的语义理解基础。

解决学术问题

COBRACorpus数据集致力于解决自然语言处理中关于冒犯性言论的语境化推理问题，填补了传统毒性检测仅关注表面文本而忽视社会动态的空白。通过整合权力关系、情感反应和认知影响等维度，该数据集帮助学术研究揭示冒犯性言论的深层成因与传播效应，推动了更公平、更全面的语言模型评估方法的发展。其意义在于促进了人工智能伦理领域的跨学科对话，为构建负责任的语言技术提供了实证基础。

实际应用

在实际应用中，COBRACorpus数据集被广泛用于开发社交媒体内容审核系统、在线社区管理工具以及教育平台的安全过滤器。通过利用其丰富的语境标注，工程师能够训练模型更精准地识别潜在有害言论，同时避免误判中性或善意表达。此外，该数据集还支持企业构建包容性沟通指南，帮助组织在多元化环境中促进尊重性对话，从而提升数字空间的整体健康度。

数据集最近研究