SetFit/amazon_counterfactual

Name: SetFit/amazon_counterfactual
Creator: SetFit
Published: 2022-02-08 10:15:40
License: 暂无描述

Hugging Face2022-02-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SetFit/amazon_counterfactual

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自亚马逊客户评论的句子，用于反事实检测（CFD）二元分类。反事实语句描述未发生或不可能发生的事件。数据集的关键特点包括多语言支持（英语、德语、日语）、由专业语言学家进行的高质量标注、以及提供的标注指南和定义。此外，数据集还提供了用于初始数据过滤的线索词列表。

# 亚马逊多语言反事实数据集（Amazon Multilingual Counterfactual Dataset）本数据集源自亚马逊产品评论数据集的采样样本，收录经标注的亚马逊消费者评论语句，用于反事实检测（Counterfactual Detection, CFD）二分类任务。反事实语句描述的是未曾发生或不可能发生的事件。此类语句可被识别为形如“若命题p为真，则命题q亦为真”的表述（即其前提p与结论q均被认定为或假定为假的断言）。本数据集的核心特性如下： * 数据集支持多语言，涵盖英语、德语及日语三类语句。 * 标注工作由专业语言学家完成，确保了数据集的高质量水准。 * 数据集附带由专业语言学家制定的标注指南与术语定义。此外，我们还提供了由专业语言学家编撰的反事实语句典型线索词列表，该列表曾用于初始数据筛选环节。如需了解数据集统计信息、数据收集与标注的详细说明，请参阅相关论文（https://arxiv.org/abs/2104.06893）。 GitHub 仓库地址：https://github.com/amazon-research/amazon-multilingual-counterfactual-dataset ## 使用方法可通过如下方式加载各语言子集： from datasets import get_dataset_config_names dataset_id = "SetFit/amazon_counterfactual" # Returns ['de', 'en', 'en-ext', 'ja'] configs = get_dataset_config_names(dataset_id) # Load English subset dset = load_dataset(dataset_id, name="en")

提供机构：

SetFit

原始信息汇总

Amazon Multilingual Counterfactual Dataset 概述

数据集描述

内容来源：该数据集包含来自亚马逊客户评论的句子，这些句子是从亚马逊产品评论数据集中抽样得到的。
主要用途：用于反事实检测（Counterfactual Detection, CFD）二元分类任务。反事实陈述描述了未发生或不可能发生的事件。

数据集特点

多语言支持：数据集包含英语、德语和日语三种语言的句子。
高质量标注：标注工作由专业语言学家完成，确保了标注质量。
附加资源：提供由专业语言学家制定的标注指南和定义，以及用于初步数据筛选的反事实句子典型线索词列表。

数据集使用

加载方式：可以通过以下代码加载不同语言的子集： python from datasets import get_dataset_config_names

dataset_id = "SetFit/amazon_counterfactual" configs = get_dataset_config_names(dataset_id)

加载英语子集

dset = load_dataset(dataset_id, name="en")
可用配置：数据集提供 de, en, en-ext, ja 四种配置。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

SetFit/amazon_counterfactual

Amazon Multilingual Counterfactual Dataset 概述

数据集描述

数据集特点

数据集使用

加载英语子集