OfekGlick/DiscoEval

Name: OfekGlick/DiscoEval
Creator: OfekGlick
Published: 2023-11-06 14:06:49
License: 暂无描述

Hugging Face2023-11-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/OfekGlick/DiscoEval

下载链接

链接失效反馈

官方服务：

资源简介：

DiscoEval是一个英语基准测试，包含7个任务的测试套件，用于评估句子表示是否包含与话语处理相关的语义信息。该基准数据集提供了一系列任务，旨在评估自然语言理解模型在话语分析和连贯性方面的表现。数据来源于Arxiv、Wikipedia、Rocstory等多个渠道，所有文本均为英文。数据集结构包括数据实例、数据字段和数据分割，提供了训练、验证和测试集。

DiscoEval is an English benchmark test suite comprising 7 tasks, developed to evaluate whether sentence representations contain semantic information relevant to discourse processing. This benchmark dataset provides a series of tasks aimed at assessing the performance of natural language understanding models in discourse analysis and coherence. The data is sourced from multiple channels including Arxiv, Wikipedia, Rocstory, and all texts are in English. The dataset structure includes data instances, data fields and data splits, with training, validation and test sets provided.

提供机构：

OfekGlick

原始信息汇总

DiscoEval Benchmark Datasets

数据集描述

数据集概述

DiscoEval是一个英语语言基准测试，包含7个任务，用于评估句子表示是否包含与话语处理相关的语义信息。该基准数据集提供了一系列任务，旨在评估自然语言理解模型在话语分析和连贯性方面的能力。

数据集来源

Arxiv: 科学论文和研究文章的存储库。
Wikipedia: 包含各种主题文章的在线百科全书。
Rocstory: 由虚构故事组成的数据集。
Ubuntu IRC频道: 从Ubuntu互联网中继聊天（IRC）频道提取的对话数据。
PeerRead: 常用于话语相关任务的科学论文数据集。
RST Discourse Treebank: 使用修辞结构理论（RST）话语关系注释的数据集。
Penn Discourse Treebank: 另一个包含话语关系注释的数据集，便于研究话语结构。

支持的任务

句子定位
- 数据集来源: Arxiv, Wikipedia, Rocstory
- 描述: 确定一个句子在给定的五个句子上下文中的正确位置。
二元句子排序
- 数据集来源: Arxiv, Wikipedia, Rocstory
- 描述: 确定两个句子是否按正确的连续顺序排列，识别更连贯的结构。
话语连贯性
- 数据集来源: Ubuntu IRC频道, Wikipedia
- 描述: 确定六个句子序列是否形成一个连贯的段落。
句子部分预测
- 数据集来源: 从PeerRead构建
- 描述: 根据内容和上下文确定一个句子在科学论文中属于哪个部分或类别。
话语关系
- 数据集来源: RST Discourse Treebank, Penn Discourse Treebank
- 描述: 识别和分类句子或文本段之间的话语关系，有助于揭示话语的结构和流程。

语言

所有数据集中的文本均为英语，关联的BCP-47代码为en。

数据集结构

数据实例

所有任务均为分类任务，它们在每个示例的句子数量和标签类型上有所不同。

数据字段

在此基准测试中，所有数据字段均为字符串，包括标签。

数据分割

数据被分为每个任务的训练集、验证集和测试集。

任务和数据集	训练集	验证集	测试集
句子定位: Arxiv	10000	4000	4000
句子定位: Rocstory	10000	4000	4000
句子定位: Wiki	10000	4000	4000
二元句子排序: Arxiv	20000	8000	8000
二元句子排序: Rocstory	20000	8000	8000
二元句子排序: Wiki	20000	8000	8000
话语连贯性: Chat	5816	1834	2418
话语连贯性: Wiki	10000	4000	4000
句子部分预测	10000	4000	4000
话语关系: Penn Discourse Tree Bank: 隐式	8693	2972	3024
话语关系: Penn Discourse Tree Bank: 显式	9383	3613	3758
话语关系: RST Discourse Tree Bank	17051	2045	2308

附加信息

基准创建者

该基准由Mingda Chen、Zewei Chu和Kevin Gimpel在芝加哥大学和芝加哥丰田技术研究所工作期间创建。

引用信息

@inproceedings{mchen-discoeval-19, title = {Evaluation Benchmarks and Learning Criteria for Discourse-Aware Sentence Representations}, author = {Mingda Chen and Zewei Chu and Kevin Gimpel}, booktitle = {Proc. of {EMNLP}}, year={2019} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集