five

mteb/amazon_counterfactual

收藏
Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/amazon_counterfactual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自亚马逊客户评论的句子,用于反事实检测(CFD)的二元分类。反事实语句描述的是未发生或不可能发生的事件。数据集是多语言的,包含英语、德语和日语的句子。标注工作由专业语言学家完成,确保了高质量。数据集还提供了由专业语言学家制定的标注指南和定义,以及用于初始数据过滤的反事实句子典型线索词列表。
提供机构:
mteb
原始信息汇总

Amazon Multilingual Counterfactual Dataset 概述

数据集描述

  • 语言: 包含英语(en)、德语(de)和日语(ja)。
  • 内容: 该数据集包含来自亚马逊客户评论的句子,这些句子被标注用于反事实检测(CFD)二元分类。反事实语句描述未发生或不可能发生的事件。

数据集特点

  • 多语言: 数据集涵盖英语、德语和日语。
  • 高质量标注: 标注工作由专业语言学家完成,确保了标注质量。
  • 附加资源: 提供由专业语言学家制定的标注指南和定义,以及用于初步数据筛选的反事实句子典型线索词列表。

数据集使用

  • 加载方式: 可以通过以下代码加载不同语言的数据集子集: python from datasets import get_dataset_config_names

    dataset_id = "SetFit/amazon_counterfactual" configs = get_dataset_config_names(dataset_id)

    加载英语子集

    dset = load_dataset(dataset_id, name="en")

    返回的配置包括 [de, en, en-ext, ja]。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作