新华深度报道长文档数据集
收藏江苏数据交易所2026-01-30 收录
下载链接:
https://exchange.jsdataex.com/trade-home/#/project/tradingMarket/productDetail?productId=5497
下载链接
链接失效反馈官方服务:
资源简介:
数据集为纯文本,计划汇聚50万篇深度报道,平均4000字,合计20亿字。每篇文章标注篇章结构(导语、正文、结语)、观点句、情感极性、关键实体、事件时间线等6类标签;并生成100字AI摘要。整体压缩后数据规模约0.6TB,支持按主题、人物、地域、时间等12个维度聚类。
提供机构:
江苏新华日报大数据有限公司
搜集汇总
背景与挑战
背景概述
该数据集汇集了50万篇深度报道文章,每篇平均4000字,总计20亿字,每篇文章均标注了篇章结构、观点句、情感极性等6类标签,并自动生成100字AI摘要。数据集支持按主题、人物、地域和时间等12个维度进行聚类分析,压缩后数据规模约为0.6TB,适用于大规模文本分析和自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



