PrincipledPreTraining/DiscoEval

Name: PrincipledPreTraining/DiscoEval
Creator: PrincipledPreTraining
Published: 2023-10-22 09:46:18
License: 暂无描述

Hugging Face2023-10-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PrincipledPreTraining/DiscoEval

下载链接

链接失效反馈

官方服务：

资源简介：

DiscoEval是一个英语基准测试，包含7个任务的测试套件，用于评估句子表示是否包含与话语处理相关的语义信息。基准数据集提供了一系列任务，旨在评估自然语言理解模型在话语分析和连贯性方面的表现。数据集来源包括Arxiv、Wikipedia、Rocstory、Ubuntu IRC频道、PeerRead、RST Discourse Treebank和Penn Discourse Treebank。支持的任务包括句子定位、二元句子排序、话语连贯性、句子部分预测和话语关系识别。所有任务均为分类任务，数据字段均为字符串类型，包括标签。数据集的语言为英语，数据分割为训练集、验证集和测试集。

提供机构：

PrincipledPreTraining

原始信息汇总

DiscoEval Benchmark Datasets

数据集描述

数据集概述

DiscoEval是一个英语语言基准测试，包含7个任务，用于评估句子表示是否包含与语篇处理相关的语义信息。该基准数据集提供了一系列任务，旨在评估自然语言理解模型在语篇分析和连贯性方面的能力。

数据集来源

Arxiv: 科学论文和研究文章的存储库。
Wikipedia: 包含各种主题文章的在线百科全书。
Rocstory: 由虚构故事组成的语料库。
Ubuntu IRC频道: 从Ubuntu互联网中继聊天（IRC）频道提取的对话数据。
PeerRead: 常用于语篇相关任务的科学论文数据集。
RST Discourse Treebank: 使用修辞结构理论（RST）语篇关系注释的数据集。
Penn Discourse Treebank: 另一个带有注释语篇关系的数据集，便于研究语篇结构。

支持的任务

句子定位
- 数据集来源: Arxiv, Wikipedia, Rocstory
- 描述: 确定一个句子在给定的五个句子上下文中的正确位置。
二元句子排序
- 数据集来源: Arxiv, Wikipedia, Rocstory
- 描述: 确定两个句子是否按正确的连续顺序排列，识别更连贯的结构。
语篇连贯性
- 数据集来源: Ubuntu IRC频道, Wikipedia
- 描述: 确定六个句子序列是否形成一个连贯的段落。
句子节预测
- 数据集来源: 从PeerRead构建
- 描述: 根据内容和上下文确定一个句子在科学论文中属于哪个部分或类别。
语篇关系
- 数据集来源: RST Discourse Treebank, Penn Discourse Treebank
- 描述: 识别和分类句子或文本段之间的语篇关系，有助于揭示语篇的结构和流程。

语言

所有数据集中的文本均为英语，关联的BCP-47代码为en。

数据集结构

数据实例

所有任务都是分类任务，它们根据每个示例的句子数量和标签类型而有所不同。

数据字段

在此基准测试中，所有数据字段均为字符串，包括标签。

数据分割

数据被分割为每个任务的训练集、验证集和测试集。

任务和数据集	训练集	验证集	测试集
句子定位: Arxiv	10000	4000	4000
句子定位: Rocstory	10000	4000	4000
句子定位: Wiki	10000	4000	4000
二元句子排序: Arxiv	20000	8000	8000
二元句子排序: Rocstory	20000	8000	8000
二元句子排序: Wiki	20000	8000	8000
语篇连贯性: Chat	5816	1834	2418
语篇连贯性: Wiki	10000	4000	4000
句子节预测	10000	4000	4000
语篇关系: Penn Discourse Tree Bank: 隐式	8693	2972	3024
语篇关系: Penn Discourse Tree Bank: 显式	9383	3613	3758
语篇关系: RST Discourse Tree Bank	17051	2045	2308

附加信息

基准创建者

该基准由Mingda Chen、Zewei Chu和Kevin Gimpel在芝加哥大学和芝加哥丰田理工学院工作期间创建。

引用信息

@inproceedings{mchen-discoeval-19, title = {Evaluation Benchmarks and Learning Criteria for Discourse-Aware Sentence Representations}, author = {Mingda Chen and Zewei Chu and Kevin Gimpel}, booktitle = {Proc. of {EMNLP}}, year={2019} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集