five

CLTS

收藏
github2024-01-05 更新2024-05-31 收录
下载链接:
https://github.com/lxj5957/CLTS-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
CLTS是一个新的中文长文本摘要数据集,从中文新闻网站ThePaper.cn提取。数据集包含超过180,000个长序列对,每篇文章由多个段落组成,每个摘要由多个句子组成。

CLTS is a novel Chinese long-text summarization dataset, extracted from the Chinese news website ThePaper.cn. The dataset comprises over 180,000 long sequence pairs, with each article consisting of multiple paragraphs and each summary composed of several sentences.
创建时间:
2020-05-05
原始信息汇总

数据集概述

数据集名称

CLTS: A Chinese Long Text Summarization Dataset

数据集来源

提取自中文新闻网站ThePaper.cn

数据集内容

包含超过180,000个长序列对,每个文章由多个段落组成,每个摘要由多个句子组成。

数据集特征

  • 数据集大小:185,397
  • 训练集大小:148,317
  • 最大文章长度:6130个中文字符
  • 平均文章长度:1363.69个中文字符
  • 平均摘要长度:58.12个中文字符

数据集下载

数据集分为训练、验证和测试集,可从此处下载,密码为iucp

搜集汇总
数据集介绍
main_image_url
构建方式
CLTS数据集构建于中文新闻网站ThePaper.cn,旨在解决自动摘要领域中中文数据集稀缺及长文本数据集匮乏的问题。通过从该网站提取新闻文章,构建了超过18万条长序列对,每篇文章包含多个段落,每个摘要则由多个句子组成。这一构建过程不仅丰富了中文长文本摘要的数据资源,还为相关研究提供了坚实的基础。
使用方法
CLTS数据集已划分为训练集、验证集和测试集,用户可通过提供的链接下载完整数据。下载后,用户可根据需求加载相应数据集,进行模型训练、验证和测试。数据集中的每篇文章和摘要均为长文本格式,适合用于训练和评估长文本摘要模型。通过使用CLTS,研究人员能够深入探索中文长文本摘要的生成机制,提升模型性能。
背景与挑战
背景概述
在自动摘要领域,中文数据集的数量相对较少,尤其是针对长文本的摘要数据集更为稀缺。CLTS数据集应运而生,填补了这一空白。该数据集由研究人员从中国新闻网站《澎湃新闻》中提取,包含超过18万条长序列对,每篇文章由多个段落组成,摘要则由多个句子构成。CLTS的创建旨在解决中文长文本摘要的自动化问题,为相关研究提供了宝贵的数据资源。该数据集于2020年首次发布,并在《CLTS: A New Chinese Long Text Summarization Dataset》一文中详细介绍了其构建过程与特性。CLTS的出现不仅丰富了中文摘要数据集,还为长文本摘要模型的研究与优化提供了重要支持。
当前挑战
CLTS数据集在解决中文长文本摘要问题时面临多重挑战。首先,长文本摘要的生成需要模型具备更强的上下文理解能力,以捕捉文章的核心信息并生成连贯的摘要。其次,由于中文语言的复杂性和多样性,模型在处理长文本时容易受到语义歧义和结构复杂性的影响。在数据集构建过程中,研究人员也面临了数据清洗与标注的挑战,尤其是如何确保摘要的质量与一致性。此外,CLTS的规模虽大,但与英文数据集相比仍显不足,这限制了其在更广泛场景中的应用。如何进一步提升数据集的多样性与代表性,以及优化模型在长文本摘要任务中的表现,仍是未来研究的重要方向。
常用场景
经典使用场景
在自然语言处理领域,CLTS数据集被广泛应用于中文长文本摘要生成任务。该数据集通过提供大量长文本及其对应的多句摘要,为研究人员提供了一个理想的实验平台。特别是在深度学习模型的训练和评估中,CLTS数据集能够有效支持模型在处理长文本时的性能优化,从而提升摘要生成的准确性和连贯性。
解决学术问题
CLTS数据集解决了中文长文本摘要生成领域的两大关键问题:一是中文数据集稀缺,二是现有数据集多为短文本,难以支持长文本摘要任务。通过提供超过18万条长文本及其摘要,CLTS填补了这一空白,为研究人员提供了丰富的数据资源,推动了中文长文本摘要生成技术的发展。
实际应用
在实际应用中,CLTS数据集被广泛用于新闻摘要、文档摘要等场景。例如,新闻网站可以利用该数据集训练模型,自动生成新闻文章的摘要,帮助用户快速了解文章内容。此外,企业文档管理系统也可以通过该数据集优化文档摘要功能,提高信息检索效率。
数据集最近研究
最新研究方向
在自然语言处理领域,中文长文本摘要生成技术正逐渐成为研究热点。CLTS数据集的推出,填补了中文长文本摘要数据集的空白,为相关研究提供了宝贵的资源。该数据集从中国新闻网站ThePaper.cn提取,包含超过18万条长序列对,每篇文章由多个段落组成,摘要则由多个句子构成。与现有数据集相比,CLTS在文章长度和摘要长度上均表现出显著优势,为模型训练和评估提供了更为丰富的上下文信息。当前,基于CLTS的研究主要集中在提升长文本摘要的生成质量、优化模型对长文本的处理能力,以及探索跨语言摘要生成的可能性。这些研究不仅推动了中文自然语言处理技术的发展,也为全球多语言摘要生成领域提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作