five

LCSTS|中文短文本摘要数据集|深度学习数据集

收藏
arXiv2016-02-20 更新2024-06-21 收录
中文短文本摘要
深度学习
下载链接:
http://icrc.hitsz.edu.cn/Article/show/139.html
下载链接
链接失效反馈
资源简介:
LCSTS是一个大规模的中文短文本摘要数据集,由哈尔滨工业大学深圳研究生院智能计算研究中心创建。该数据集包含超过240万条来自新浪微博的真实中文短文本及其作者提供的简短摘要。数据集的创建过程涉及从新浪微博中爬取验证组织用户的微博,通过人工规则过滤和清洗数据,确保数据质量。LCSTS数据集主要用于支持短文本摘要研究,特别是通过深度学习方法如循环神经网络进行摘要生成,旨在解决自动文本摘要这一高难度问题。
提供机构:
哈尔滨工业大学深圳研究生院智能计算研究中心
创建时间:
2015-06-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
LCSTS数据集通过从中国微博平台新浪微博中挖掘自然标注的短文本及其对应的摘要构建而成。首先,研究人员选择了50个来自不同领域的知名机构用户作为种子用户,这些用户包括人民日报、经济观察报等。随后,通过爬取这些种子用户及其关注者的微博内容,并使用约100条人工总结的规则进行过滤和清洗,最终提取出高质量的短文本及其摘要对。数据集包含超过240万条短文本及其摘要,并进一步手动标注了10,666条摘要的相关性评分,以确保数据集的质量和可用性。
特点
LCSTS数据集的主要特点在于其规模庞大且质量高,包含2,400,591条短文本及其摘要对,适用于大规模的监督学习模型训练。此外,数据集还包含10,666条手动标注的摘要相关性评分,评分范围为1到5,用于评估摘要与原文的相关性。数据集的摘要具有高度抽象性,许多摘要中的词汇并未出现在原文中,这使得该数据集与传统的句子压缩数据集有显著区别。
使用方法
LCSTS数据集可用于训练和评估中文短文本摘要生成模型。研究者可以使用数据集中的短文本及其摘要对进行模型训练,并利用手动标注的10,666条数据进行模型性能的评估。数据集的划分包括一个大规模的训练集和一个包含高质量标注的测试集,便于研究人员进行基准测试和方法比较。此外,数据集还支持基于字符和基于词的两种输入方式,研究者可以根据需求选择合适的输入方式进行实验。
背景与挑战
背景概述
在自然语言处理(NLP)领域,自动文本摘要技术一直是一个极具挑战性的研究课题,尤其是在缺乏大规模高质量数据集的情况下。LCSTS数据集由哈尔滨工业大学深圳研究生院智能计算研究中心的Baotian Hu、Qingcai Chen和Fangze Zhu等人于2015年创建,旨在解决中文短文本摘要生成中的数据稀缺问题。该数据集从中国微博平台新浪微博中提取了超过240万条短文本及其对应的作者提供的摘要,并手动标注了10,666条摘要的相关性。LCSTS的推出不仅为中文短文本摘要研究提供了丰富的资源,还为相关算法的基准测试提供了基础,推动了深度学习方法在该领域的应用。
当前挑战
LCSTS数据集的构建面临多重挑战。首先,从微博等社交媒体平台中提取高质量的短文本及其摘要需要复杂的筛选和清洗过程,确保数据的准确性和一致性。其次,手动标注摘要与原文的相关性耗时且成本高,且标注质量直接影响数据集的可用性。此外,短文本的特性使得摘要生成任务更加复杂,摘要不仅需要简洁,还需准确传达原文的核心信息。最后,尽管深度学习方法在摘要生成中展现了潜力,但如何有效处理中文特有的语言结构和词汇稀疏性问题仍是当前研究的主要挑战。
常用场景
经典使用场景
LCSTS数据集的经典使用场景主要集中在短文本摘要生成任务中。由于该数据集包含了超过200万条来自新浪微博的中文短文本及其对应的作者提供的简短摘要,它为研究人员提供了一个大规模、高质量的训练和测试平台。通过利用这些数据,研究者可以训练和评估各种自动摘要生成模型,尤其是基于深度学习的模型,如循环神经网络(RNN)和编码器-解码器架构,以生成与原文信息高度相关且简洁的摘要。
实际应用
LCSTS数据集在实际应用中具有广泛的潜力,特别是在新闻摘要、社交媒体内容分析和信息提取等领域。例如,新闻机构可以利用该数据集训练的模型自动生成新闻摘要,帮助读者快速获取关键信息;社交媒体平台则可以通过自动摘要技术,为用户提供更简洁、易读的内容推荐。此外,该数据集还可用于舆情监控和情感分析,帮助企业和政府机构快速了解公众对特定事件或话题的反应。
衍生相关工作
LCSTS数据集的发布催生了一系列相关的经典工作,尤其是在中文短文本摘要生成和深度学习模型的应用方面。许多研究者基于该数据集提出了改进的摘要生成模型,如引入注意力机制的编码器-解码器架构,以及基于字符级别的输入方法,以解决词汇稀疏问题。此外,该数据集还激发了对多文档摘要、跨语言摘要生成等扩展任务的研究,进一步推动了自动摘要技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

Thyroid Disease Data

该数据集包含13个临床病理特征,旨在预测分化良好的甲状腺癌的复发。数据集收集了15年间的数据,每位患者至少被跟踪了10年。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Global Water Quality Dataset

该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。

www.kaggle.com 收录

Chinese-Roleplay-Novel

该数据集旨在填补中文角色扮演领域中交互游戏方向的开源数据空白。基于4500条小说文本,构建了约260条酒馆风格的多轮对话数据,每轮对话均包含详细的状态数据,如时间、角色状态、任务进度等。数据集结构包括世界观、场景、角色、对话内容等,状态信息以列表、表格、JSON等多种格式呈现。

huggingface 收录