OfekGlick/DiscoEval
收藏Hugging Face2023-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OfekGlick/DiscoEval
下载链接
链接失效反馈官方服务:
资源简介:
DiscoEval是一个英语基准测试,包含7个任务的测试套件,用于评估句子表示是否包含与话语处理相关的语义信息。该基准数据集提供了一系列任务,旨在评估自然语言理解模型在话语分析和连贯性方面的表现。数据来源于Arxiv、Wikipedia、Rocstory等多个渠道,所有文本均为英文。数据集结构包括数据实例、数据字段和数据分割,提供了训练、验证和测试集。
DiscoEval is an English benchmark test suite comprising 7 tasks, developed to evaluate whether sentence representations contain semantic information relevant to discourse processing. This benchmark dataset provides a series of tasks aimed at assessing the performance of natural language understanding models in discourse analysis and coherence. The data is sourced from multiple channels including Arxiv, Wikipedia, Rocstory, and all texts are in English. The dataset structure includes data instances, data fields and data splits, with training, validation and test sets provided.
提供机构:
OfekGlick
原始信息汇总
DiscoEval Benchmark Datasets
数据集描述
数据集概述
DiscoEval是一个英语语言基准测试,包含7个任务,用于评估句子表示是否包含与话语处理相关的语义信息。该基准数据集提供了一系列任务,旨在评估自然语言理解模型在话语分析和连贯性方面的能力。
数据集来源
- Arxiv: 科学论文和研究文章的存储库。
- Wikipedia: 包含各种主题文章的在线百科全书。
- Rocstory: 由虚构故事组成的数据集。
- Ubuntu IRC频道: 从Ubuntu互联网中继聊天(IRC)频道提取的对话数据。
- PeerRead: 常用于话语相关任务的科学论文数据集。
- RST Discourse Treebank: 使用修辞结构理论(RST)话语关系注释的数据集。
- Penn Discourse Treebank: 另一个包含话语关系注释的数据集,便于研究话语结构。
支持的任务
-
句子定位
- 数据集来源: Arxiv, Wikipedia, Rocstory
- 描述: 确定一个句子在给定的五个句子上下文中的正确位置。
-
二元句子排序
- 数据集来源: Arxiv, Wikipedia, Rocstory
- 描述: 确定两个句子是否按正确的连续顺序排列,识别更连贯的结构。
-
话语连贯性
- 数据集来源: Ubuntu IRC频道, Wikipedia
- 描述: 确定六个句子序列是否形成一个连贯的段落。
-
句子部分预测
- 数据集来源: 从PeerRead构建
- 描述: 根据内容和上下文确定一个句子在科学论文中属于哪个部分或类别。
-
话语关系
- 数据集来源: RST Discourse Treebank, Penn Discourse Treebank
- 描述: 识别和分类句子或文本段之间的话语关系,有助于揭示话语的结构和流程。
语言
所有数据集中的文本均为英语,关联的BCP-47代码为en。
数据集结构
数据实例
所有任务均为分类任务,它们在每个示例的句子数量和标签类型上有所不同。
数据字段
在此基准测试中,所有数据字段均为字符串,包括标签。
数据分割
数据被分为每个任务的训练集、验证集和测试集。
| 任务和数据集 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| 句子定位: Arxiv | 10000 | 4000 | 4000 |
| 句子定位: Rocstory | 10000 | 4000 | 4000 |
| 句子定位: Wiki | 10000 | 4000 | 4000 |
| 二元句子排序: Arxiv | 20000 | 8000 | 8000 |
| 二元句子排序: Rocstory | 20000 | 8000 | 8000 |
| 二元句子排序: Wiki | 20000 | 8000 | 8000 |
| 话语连贯性: Chat | 5816 | 1834 | 2418 |
| 话语连贯性: Wiki | 10000 | 4000 | 4000 |
| 句子部分预测 | 10000 | 4000 | 4000 |
| 话语关系: Penn Discourse Tree Bank: 隐式 | 8693 | 2972 | 3024 |
| 话语关系: Penn Discourse Tree Bank: 显式 | 9383 | 3613 | 3758 |
| 话语关系: RST Discourse Tree Bank | 17051 | 2045 | 2308 |
附加信息
基准创建者
该基准由Mingda Chen、Zewei Chu和Kevin Gimpel在芝加哥大学和芝加哥丰田技术研究所工作期间创建。
引用信息
@inproceedings{mchen-discoeval-19, title = {Evaluation Benchmarks and Learning Criteria for Discourse-Aware Sentence Representations}, author = {Mingda Chen and Zewei Chu and Kevin Gimpel}, booktitle = {Proc. of {EMNLP}}, year={2019} }



