mteb/amazon_counterfactual
收藏Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/amazon_counterfactual
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自亚马逊客户评论的句子,用于反事实检测(CFD)的二元分类。反事实语句描述的是未发生或不可能发生的事件。数据集是多语言的,包含英语、德语和日语的句子。标注工作由专业语言学家完成,确保了高质量。数据集还提供了由专业语言学家制定的标注指南和定义,以及用于初始数据过滤的反事实句子典型线索词列表。
提供机构:
mteb
原始信息汇总
Amazon Multilingual Counterfactual Dataset 概述
数据集描述
- 语言: 包含英语(en)、德语(de)和日语(ja)。
- 内容: 该数据集包含来自亚马逊客户评论的句子,这些句子被标注用于反事实检测(CFD)二元分类。反事实语句描述未发生或不可能发生的事件。
数据集特点
- 多语言: 数据集涵盖英语、德语和日语。
- 高质量标注: 标注工作由专业语言学家完成,确保了标注质量。
- 附加资源: 提供由专业语言学家制定的标注指南和定义,以及用于初步数据筛选的反事实句子典型线索词列表。
数据集使用
-
加载方式: 可以通过以下代码加载不同语言的数据集子集: python from datasets import get_dataset_config_names
dataset_id = "SetFit/amazon_counterfactual" configs = get_dataset_config_names(dataset_id)
加载英语子集
dset = load_dataset(dataset_id, name="en")
返回的配置包括 [de, en, en-ext, ja]。



