five

jpwahle/etpc

收藏
Hugging Face2023-10-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jpwahle/etpc
下载链接
链接失效反馈
官方服务:
资源简介:
Extended Paraphrase Typology Corpus (ETPC) 是一个用于文本分类任务中的情感分类的数据集,主要包含英语文本。该数据集标注了扩展的释义类型和否定,是迄今为止标注了原子释义类型的最大语料库。数据集的结构包括句子对、释义标签、否定标签等字段。数据集的创建目的是为了更好地理解释义现象,并研究释义与否定之间的关系。
提供机构:
jpwahle
原始信息汇总

数据集概述

数据集基本信息

  • 名称: Extended Paraphrase Typology Corpus (ETPC)
  • 语言: 英语 (en)
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 1K<n<10K
  • 来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 情感分类

数据集描述

  • 摘要: ETPC是迄今为止最大的原子释义类型标注语料库,首次详细标注了释义和非释义对,以及释义和否定。该资源有助于更好地理解释义现象,并允许研究释义与否定之间的关系。
  • 支持的任务: 文本分类

数据集结构

  • 数据字段:
    • idx: 单调递增的索引ID。
    • sentence1: 关于电影的完整意见句子。
    • sentence2: 关于电影的完整意见句子。
    • etpc_label: 根据ETPC标注方案,文本对是否为释义,"是" (1) 或 "否" (0)。
    • mrpc_label: 根据MRPC标注方案,文本对是否为释义,"是" (1) 或 "否" (0)。
    • negation: 一个句子是否为另一个句子的否定,"是" (1) 或 "否" (0)。
  • 数据分割:
    • train: 5801

数据集创建

  • 源数据生产者: Rotten Tomatoes评论者。
  • 许可证信息: 未知。
  • 引用信息: bibtex @inproceedings{kovatchev-etal-2018-etpc, title = "{ETPC} - A Paraphrase Identification Corpus Annotated with Extended Paraphrase Typology and Negation", author = "Kovatchev, Venelin and Mart{\i}, M. Ant{`o}nia and Salam{o}, Maria", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://aclanthology.org/L18-1221", }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作