matthewfranglen/aste-v2
收藏数据集概述
数据集名称
Aspect Sentiment Triplet Extraction v2
语言
- 英语
相关论文
- 2107.12214
- 2010.02609
- 1911.01616
数据集规模
- 1K<n<10K
任务类别
- 词分类
- 文本分类
配置详情
2014-laptop-sem-eval
- 训练集:
data/2014/laptop/sem-eval/train.gz.parquet - 验证集:
data/2014/laptop/sem-eval/valid.gz.parquet - 测试集:
data/2014/laptop/sem-eval/test.gz.parquet
2014-laptop-aste-v2
- 训练集:
data/2014/laptop/aste/train.gz.parquet - 验证集:
data/2014/laptop/aste/valid.gz.parquet - 测试集:
data/2014/laptop/aste/test.gz.parquet
2014-restaurant-sem-eval
- 训练集:
data/2014/restaurant/sem-eval/train.gz.parquet - 验证集:
data/2014/restaurant/sem-eval/valid.gz.parquet - 测试集:
data/2014/restaurant/sem-eval/test.gz.parquet
2014-restaurant-aste-v2
- 训练集:
data/2014/restaurant/aste/train.gz.parquet - 验证集:
data/2014/restaurant/aste/valid.gz.parquet - 测试集:
data/2014/restaurant/aste/test.gz.parquet
2015-restaurant-sem-eval
- 训练集:
data/2015/restaurant/sem-eval/train.gz.parquet - 验证集:
data/2015/restaurant/sem-eval/valid.gz.parquet - 测试集:
data/2015/restaurant/sem-eval/test.gz.parquet
2015-restaurant-aste-v2
- 训练集:
data/2015/restaurant/aste/train.gz.parquet - 验证集:
data/2015/restaurant/aste/valid.gz.parquet - 测试集:
data/2015/restaurant/aste/test.gz.parquet
2016-restaurant-sem-eval
- 训练集:
data/2016/restaurant/sem-eval/train.gz.parquet - 验证集:
data/2016/restaurant/sem-eval/valid.gz.parquet - 测试集:
data/2016/restaurant/sem-eval/test.gz.parquet
2016-restaurant-aste-v2
- 训练集:
data/2016/restaurant/aste/train.gz.parquet - 验证集:
data/2016/restaurant/aste/valid.gz.parquet - 测试集:
data/2016/restaurant/aste/test.gz.parquet
数据集描述
任务概述
Aspect Sentiment Triplet Extraction (ASTE) 任务旨在从文本中提取目标实体、相关情感及解释情感的意见词三元组。例如,给定句子:
The screen is very large and crystal clear with amazing colors and resolution.
目标是从中提取出以下三元组:
[(screen, large, Positive), (screen, clear, Positive), (colors, amazing, Positive), (resolution, amazing, Positive)]
数据集来源
该数据集基于 SemEval 2014、2015 和 2016 数据集,并进行了一些预处理。
数据集详情
数据集包含以下列:
index: 文档索引,用于将同一文档的多个注释分组。text: 被注释的文档文本。aspect_start_index: 方面词的起始字符索引。aspect_end_index: 方面词的结束字符索引。aspect_term: 方面词。opinion_start_index: 意见词的起始字符索引。opinion_end_index: 意见词的结束字符索引。opinion_term: 意见词。sentiment: 情感类别,包括 negative、neutral 或 positive。
预处理
预处理包括拼写纠正和文本分词,例如:
Keyboard good sized and wasy to use.
(easy 被误写为 wasy)。
预处理后的文本会添加额外的空格,例如:
It s just as fast with one program open as it is with sixteen open.
数据集提供了两种形式:
aste-v2结尾的子集包含预处理后的文本。sem-eval结尾的子集包含原始 SemEval 文本。
引用信息
@misc{xu2021learning, title={Learning Span-Level Interactions for Aspect Sentiment Triplet Extraction}, author={Lu Xu and Yew Ken Chia and Lidong Bing}, year={2021}, eprint={2107.12214}, archivePrefix={arXiv}, primaryClass={cs.CL} } @misc{xu2021positionaware, title={Position-Aware Tagging for Aspect Sentiment Triplet Extraction}, author={Lu Xu and Hao Li and Wei Lu and Lidong Bing}, year={2021}, eprint={2010.02609}, archivePrefix={arXiv}, primaryClass={cs.CL} } @misc{peng2019knowing, title={Knowing What, How and Why: A Near Complete Solution for Aspect-based Sentiment Analysis}, author={Haiyun Peng and Lu Xu and Lidong Bing and Fei Huang and Wei Lu and Luo Si}, year={2019}, eprint={1911.01616}, archivePrefix={arXiv}, primaryClass={cs.CL} }




