SetFit/amazon_counterfactual
收藏Hugging Face2022-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SetFit/amazon_counterfactual
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自亚马逊客户评论的句子,用于反事实检测(CFD)二元分类。反事实语句描述未发生或不可能发生的事件。数据集的关键特点包括多语言支持(英语、德语、日语)、由专业语言学家进行的高质量标注、以及提供的标注指南和定义。此外,数据集还提供了用于初始数据过滤的线索词列表。
# 亚马逊多语言反事实数据集(Amazon Multilingual Counterfactual Dataset)
本数据集源自亚马逊产品评论数据集的采样样本,收录经标注的亚马逊消费者评论语句,用于反事实检测(Counterfactual Detection, CFD)二分类任务。反事实语句描述的是未曾发生或不可能发生的事件。此类语句可被识别为形如“若命题p为真,则命题q亦为真”的表述(即其前提p与结论q均被认定为或假定为假的断言)。
本数据集的核心特性如下:
* 数据集支持多语言,涵盖英语、德语及日语三类语句。
* 标注工作由专业语言学家完成,确保了数据集的高质量水准。
* 数据集附带由专业语言学家制定的标注指南与术语定义。此外,我们还提供了由专业语言学家编撰的反事实语句典型线索词列表,该列表曾用于初始数据筛选环节。
如需了解数据集统计信息、数据收集与标注的详细说明,请参阅相关论文(https://arxiv.org/abs/2104.06893)。
GitHub 仓库地址:https://github.com/amazon-research/amazon-multilingual-counterfactual-dataset
## 使用方法
可通过如下方式加载各语言子集:
from datasets import get_dataset_config_names
dataset_id = "SetFit/amazon_counterfactual"
# Returns ['de', 'en', 'en-ext', 'ja']
configs = get_dataset_config_names(dataset_id)
# Load English subset
dset = load_dataset(dataset_id, name="en")
提供机构:
SetFit
原始信息汇总
Amazon Multilingual Counterfactual Dataset 概述
数据集描述
- 内容来源:该数据集包含来自亚马逊客户评论的句子,这些句子是从亚马逊产品评论数据集中抽样得到的。
- 主要用途:用于反事实检测(Counterfactual Detection, CFD)二元分类任务。反事实陈述描述了未发生或不可能发生的事件。
数据集特点
- 多语言支持:数据集包含英语、德语和日语三种语言的句子。
- 高质量标注:标注工作由专业语言学家完成,确保了标注质量。
- 附加资源:提供由专业语言学家制定的标注指南和定义,以及用于初步数据筛选的反事实句子典型线索词列表。
数据集使用
-
加载方式:可以通过以下代码加载不同语言的子集: python from datasets import get_dataset_config_names
dataset_id = "SetFit/amazon_counterfactual" configs = get_dataset_config_names(dataset_id)
加载英语子集
dset = load_dataset(dataset_id, name="en")
-
可用配置:数据集提供 de, en, en-ext, ja 四种配置。



