DISCOFUSE
收藏arXiv2019-03-18 更新2024-06-21 收录
下载链接:
https://discofuse.page.link/data
下载链接
链接失效反馈官方服务:
资源简介:
DISCOFUSE是由特拉维夫大学创建的大规模数据集,专注于基于话语的句子融合任务。该数据集包含6000万个融合示例,来源于维基百科和体育文章,每个示例都标注了重建融合文本所需的话语信息。数据集的创建过程涉及手动构建的规则集,用于识别文本中的多种话语现象,并将文本分解为两个独立的句子。DISCOFUSE的应用领域广泛,包括基于检索的对话系统、文本摘要和问答系统,旨在解决多源文本整合中的话语理解和文本生成问题。
DISCOFUSE is a large-scale dataset created by Tel Aviv University, focusing on the discourse-based sentence fusion task. It contains 60 million fusion examples sourced from Wikipedia and sports articles, with each example annotated with the discourse information required for reconstructing the fused text. The dataset construction process involves manually crafted rule sets that identify various discourse phenomena in text and decompose the original text into two separate sentences. DISCOFUSE has a wide range of application fields, including retrieval-based dialogue systems, text summarization and question answering systems, aiming to address the issues of discourse understanding and text generation in multi-source text integration.
提供机构:
特拉维夫大学
创建时间:
2019-02-27
搜集汇总
背景与挑战
背景概述
DISCOFUSE是由特拉维夫大学创建的大规模数据集,专注于基于话语的句子融合任务,包含6000万个来自维基百科和体育文章的融合示例,每个示例都标注了话语信息以支持文本重建。该数据集通过手动构建规则集识别话语现象,应用于对话系统、文本摘要和问答系统,旨在解决多源文本整合中的话语理解和生成问题。
以上内容由遇见数据集搜集并总结生成



