five

每日新闻数据集

收藏
魔搭社区2026-05-23 更新2026-05-10 收录
下载链接:
https://modelscope.cn/datasets/chensongpoixs/daily_news_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
每日新闻语料库,以结构化格式自动沉淀多源新闻文本。数据经过去重、清洗、时长对齐与主题标签,可供下游 NLP 任务(摘要、事件监测、指令微调、实体识别等)直接使用。提供原始文本、元数据及标准化的 JSONL 分发格式。

Daily News Corpus is a dataset that automatically accumulates multi-source news texts in structured format. The data has been processed with deduplication, cleaning, duration alignment and topic labeling, and can be directly used for downstream NLP tasks including summarization, event monitoring, instruction tuning, named entity recognition and others. It provides raw texts, metadata and standardized JSONL distribution format.
提供机构:
maas
创建时间:
2026-04-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集为每日新闻语料库,由chensongpoixs贡献,采用Apache 2.0许可证,更新于2026年5月27日。用户可通过ModelScope SDK或Git命令下载,但数据集详情页面未提供更具体的描述信息。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务