dynabench/dynasent

Name: dynabench/dynasent
Creator: dynabench
Published: 2021-04-29 11:30:24
License: 暂无描述

Hugging Face2021-04-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dynabench/dynasent

下载链接

链接失效反馈

官方服务：

资源简介：

DynaSent是一个用于三元（正面/负面/中性）情感分析的英语基准任务数据集。该数据集包含两个轮次，每个轮次都有训练集、开发集和测试集。第一轮包含自然生成的句子，第二轮包含通过Dynabench众包的句子。此外，数据集还包含斯坦福情感树库（SST）开发集的重新验证版本。数据格式详细描述了每个字段的含义，并提供了加载和处理数据集的代码示例。

DynaSent is an English benchmark task dataset for ternary (positive/negative/neutral) sentiment analysis. This dataset consists of two rounds, each with a training set, a development set, and a test set. The first round contains naturally generated sentences, while the second round includes sentences crowdsourced via Dynabench. Additionally, the dataset also features a re-validated version of the Stanford Sentiment Treebank (SST) development set. The data format elaborates the meaning of each field and provides code examples for loading and processing the dataset.

提供机构：

dynabench

原始信息汇总

DynaSent: Dynamic Sentiment Analysis Dataset 概述

数据集描述

DynaSent 是一个英语语言的三元（正/负/中立）情感分析基准任务数据集。该数据集包含两个轮次，每个轮次都有训练/开发/测试分割。

数据集文件

Round 1: 自然发生的句子
- dynasent-v1.1-round01-yelp-train.jsonl
- dynasent-v1.1-round01-yelp-dev.jsonl
- dynasent-v1.1-round01-yelp-test.jsonl
Round 1: 使用 Dynabench 众包的句子
- dynasent-v1.1-round02-dynabench-train.jsonl
- dynasent-v1.1-round02-dynabench-dev.jsonl
- dynasent-v1.1-round02-dynabench-test.jsonl
SST-dev 重新验证
- sst-dev-validated.jsonl

数据格式

Round 1 格式

hit_ids: 验证期间此示例出现的 Amazon Mechanical Turk 人类界面任务（HITs）列表。
sentence: 示例文本。
indices_into_review_text: 将 sentence 索引到原始评论中的索引。
model_0_label: Model 0 的预测，可能值为 positive, negative, neutral。
model_0_probs: Model 0 预测的概率分布。
text_id: 此条目的唯一标识符。
review_id: 包含 sentence 的评论的评论级标识符。
review_rating: 包含 sentence 的评论的评论级星级评分。
label_distribution: MTurk 验证任务的响应分布。
gold_label: 至少三名工人选择的标签，可能值为 positive, negative, neutral, mixed。

Round 2 格式

hit_ids: 验证期间此示例出现的 Amazon Mechanical Turk 人类界面任务（HITs）列表。
sentence: 示例文本。
sentence_author: 编写 sentence 的工人的匿名 MTurk id。
has_prompt: 如果 sentence 是使用提示编写的，则为 True。
prompt_data: 如果 has_prompt 为 False，则为 None。
model_1_label: Model 1 的预测，可能值为 positive, negative, neutral。
model_1_probs: Model 1 预测的概率分布。
text_id: 此条目的唯一标识符。
label_distribution: MTurk 验证任务的响应分布。
gold_label: 至少三名工人选择的标签，可能值为 positive, negative, neutral, mixed。

SST-dev 格式

hit_ids: 验证期间此示例出现的 Amazon Mechanical Turk 人类界面任务（HITs）列表。
sentence: 示例文本。
tree: 示例的解析树。
text_id: 此示例的新标识符。
sst_label: 来自 SST 的根节点标签，可能值为 0, 1 2, 3, 4。
label_distribution: MTurk 验证任务的响应分布。
gold_label: 至少三名工人选择的标签，可能值为 positive, negative, neutral, mixed。

模型

数据集中提供了论文中描述的 Model 0 和 Model 1。这些模型可通过 Python 模块 dynasent_models.py 使用，该模块提供了基于 Hugging Face 的包装器。

许可证

DynaSent 数据集遵循 Creative Commons Attribution 4.0 International License。

搜集汇总

数据集介绍

构建方式

在情感分析领域，DynaSent数据集的构建体现了动态基准的创新理念。该数据集通过两轮精心设计的流程完成构建：首轮数据源自Yelp学术数据集中的真实评论语句，经过筛选与标注；次轮则借助Dynabench平台，采用众包方式生成具有挑战性的对抗性语句。每轮数据均划分为训练集、开发集和测试集，并包含对斯坦福情感树库开发集的重新验证。所有语句均通过亚马逊Mechanical Turk平台进行多人工标注，以多数投票原则确定黄金标签，确保了标注的可靠性与一致性。

特点

DynaSent数据集以其动态性与复杂性著称，专为三元情感分析设计。其核心特征在于融合了自然语句与人工构造的对抗性语句，后者旨在挑战现有模型的泛化能力。数据集提供了丰富的元数据，包括原始评论索引、模型预测概率分布、众包标注者匿名ID及标签分布等，为深入研究模型行为与标注歧义提供了多维视角。此外，数据集格式统一为JSON Lines，便于机器读取与处理，并附带了完整的分析工具与预训练模型，支持可复现的学术研究。

使用方法

使用DynaSent数据集时，研究者可通过提供的Python工具函数便捷加载特定数据子集，例如限定于三元标签的训练样本。数据集支持与Yelp学术数据集进行关联，以获取完整的原始评论文本进行上下文分析。附带的预训练模型封装为Hugging Face兼容接口，便于进行预测与概率评估。典型工作流程包括加载数据、提取语句与标签、利用内置模型或自定义模型进行训练与评估，并可结合scikit-learn等库生成详细的分类报告。数据集还提供了用于复现论文结果的分析笔记与测试脚本，确保了研究过程的严谨与高效。

背景与挑战

背景概述

情感分析作为自然语言处理领域的重要分支，旨在通过计算模型识别文本中蕴含的主观情感倾向。传统情感分析数据集多依赖于静态标注，难以应对语言表达的动态演变与模型自适应挑战。DynaSent数据集由斯坦福大学与Facebook人工智能研究院的Christopher Potts、Zhengxuan Wu、Atticus Geiger及Douwe Kiela等学者于2020年联合构建，其核心研究聚焦于创建动态评估基准，通过迭代式众包标注与对抗性样本生成，推动情感分析模型在真实场景下的鲁棒性与泛化能力。该数据集以三元情感分类（积极/消极/中性）为任务框架，融合自然文本与人工构造样本，为领域内模型评估提供了更贴近语言复杂性的标准工具，显著促进了动态学习范式在情感计算中的发展。

当前挑战

DynaSent数据集致力于解决情感分析领域模型泛化能力不足的核心挑战，传统模型易受特定数据分布或表层语言特征的干扰，难以应对语义微妙性、语境依赖性及对抗性样本的识别。在构建过程中，研究团队面临多重技术难题：其一，需设计高效众包流程以确保标注质量，同时处理标注者主观差异带来的标签噪声；其二，动态生成对抗性样本时，需平衡语言自然性与分类难度，避免引入非自然语言偏差；其三，数据集需兼容多轮次扩展与版本迭代，对数据结构的统一性与可复现性提出较高要求。这些挑战共同指向情感分析模型在真实开放环境中的鲁棒性瓶颈。

常用场景

经典使用场景

在情感分析领域，DynaSent数据集作为动态基准，其经典使用场景聚焦于评估模型对自然语言中三元情感（积极、消极、中性）的识别能力。该数据集通过两轮精心设计的语料收集，包括源自真实评论的句子和基于众包平台动态生成的挑战性样本，为研究者提供了检验模型鲁棒性与泛化性能的理想平台。模型在此数据集上的表现，常被用以衡量其处理复杂语义和语境依赖情感表达的水平。

衍生相关工作

围绕DynaSent数据集，学术界衍生出一系列探索模型对抗性鲁棒性与动态评估方法的经典研究。例如，相关工作深入分析了众包生成样本的对抗特性如何揭示模型脆弱性，并在此基础上提出了新的数据增强与正则化策略。此外，该数据集也常被用作测试平台，验证基于预训练语言模型的迁移学习、少样本学习以及领域自适应技术在情感分析任务中的效能与局限。

数据集最近研究