sihaochen/propsegment

Name: sihaochen/propsegment
Creator: sihaochen
Published: 2023-05-26 18:18:53
License: 暂无描述

Hugging Face2023-05-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sihaochen/propsegment

下载链接

链接失效反馈

官方服务：

资源简介：

PropSegment是一个大规模、人工标注的语料库，用于将英文文本分割成命题，并识别命题级别的蕴含关系。该数据集包含超过45k个人工标注的命题和超过35k个命题与文档之间的蕴含标签。数据集的重建过程通过网页爬虫完成，约96%的数据可以重建，其余4%由于URL失效或句子编辑无法对齐原始数据集。数据集提供了用于文本分割任务和命题到文档蕴含任务的数据文件格式。

提供机构：

sihaochen

原始信息汇总

数据集概述

数据集名称

PropSegmEnt: 一个大规模的命题级分割和蕴涵识别语料库。

数据集描述

任务类别: 文本分类、令牌分类、文本生成
语言: 英语
标签: 自然语言处理、蕴涵、NLI、Google研究数据集
规模: 10K<n<100K

数据集内容

命题级分割和蕴涵: 该数据集包含超过45,000个人工标注的命题（句子中的独立语义单元）和超过35,000个命题与文档之间的蕴涵标签。
数据重建: 通过网络爬虫重建数据集，约96%的数据可被重现，剩余4%的数据由于URL失效或句子编辑而无法对齐。

数据集结构

命题分割数据: 存储于proposition_segmentation.*.jsonl，用于文本分割任务，将句子分割成命题。输出命题通过特殊标记[SEP]连接，每个命题由[M]和[/M]标记包围。
命题-文档蕴涵任务数据: 存储于propnli.*.jsonl，用于命题与文档之间的蕴涵关系预测，判断命题是否被文档蕴涵、矛盾或中立。

引用信息

@inproceedings{chen2023propsegment, title = "{PropSegmEnt}: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition", author = "Chen, Sihao and Buthpitiya, Senaka and Fabrikant, Alex and Roth, Dan and Schuster, Tal", booktitle = "Findings of the Association for Computational Linguistics: ACL 2023", year = "2023", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集