UKPLab/amazon_counterfactual_en
收藏Hugging Face2023-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UKPLab/amazon_counterfactual_en
下载链接
链接失效反馈官方服务:
资源简介:
Amazon Multilingual Counterfactual Dataset包含来自亚马逊客户评论的句子,这些句子被标注用于反事实检测(CFD)二元分类。反事实语句描述的是未发生或不可能发生的事件。数据集是多语言的,包含英语、德语和日语的句子。标注工作由专业语言学家完成,确保了高质量。数据集还附带了由专业语言学家制定的标注指南和定义,以及用于初始数据过滤的反事实句子典型线索词列表。
Amazon Multilingual Counterfactual Dataset包含来自亚马逊客户评论的句子,这些句子被标注用于反事实检测(CFD)二元分类。反事实语句描述的是未发生或不可能发生的事件。数据集是多语言的,包含英语、德语和日语的句子。标注工作由专业语言学家完成,确保了高质量。数据集还附带了由专业语言学家制定的标注指南和定义,以及用于初始数据过滤的反事实句子典型线索词列表。
提供机构:
UKPLab
原始信息汇总
Amazon Multilingual Counterfactual Dataset 概述
数据集内容
- 语言多样性:包含英语、德语和日语三种语言的句子。
- 数据来源:来自亚马逊客户评论,特别是产品评论数据集的样本。
- 数据用途:用于反事实检测(CFD)二元分类任务。反事实陈述描述未发生或不能发生的事件,通常表现为“如果p为真,则q为真”的形式,其中p和q被认为或假定为假。
数据集特点
- 高质量标注:由专业语言学家进行标注,确保数据质量。
- 附加资源:提供标注指南和定义,以及用于初步数据筛选的反事实句子典型线索词列表,这些资源均由专业语言学家编制。
数据集详情
- 详细信息:数据统计、收集和标注的详细描述可在相关论文中找到。
数据集访问
- GitHub仓库:数据集的GitHub仓库地址为 https://github.com/amazon-research/amazon-multilingual-counterfactual-dataset。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于反事实检测的亚马逊多语言数据集,包含10,000条来自产品评论的句子,进行二元分类(反事实与非反事实)。其特点包括由专业语言学家标注以确保高质量,并提供多语言支持(英语、德语、日语)以及详细的标注指南和线索词列表,适用于自然语言处理任务如情感分析或文本分类。
以上内容由遇见数据集搜集并总结生成



