five

alexander-llm-people-daily-summarization

收藏
魔搭社区2025-12-12 更新2025-11-29 收录
下载链接:
https://modelscope.cn/datasets/siliconflow/alexander-llm-people-daily-summarization
下载链接
链接失效反馈
官方服务:
资源简介:
# PeopleDaily_Summarization A Chinese news summarization dataset constructed from People's Daily articles. This dataset covers articles from **2021 to 2025**, with a total of **110,301** samples after deduplication and preprocessing. ## Source This dataset is derived from the Kaggle dataset: - **Renmindaily (People's Daily)** https://www.kaggle.com/datasets/concyclics/renmindaily/data The original Kaggle dataset is released under the **Creative Commons CC0 1.0 Universal** license. ## Description Based on the original Renmindaily dataset, we perform the following processing steps: - Remove duplicates by article content - Clean and normalize article text where appropriate - Combine `date`, `title`, and `content` into a single prompt - Construct a summarization-style user message - Reformat the data into OpenAI Batch–compatible JSONL, with each line containing a `/v1/chat/completions` request body. This dataset is intended for benchmarking and evaluating Chinese news summarization models on People's Daily–style articles. ## License This derived dataset is released under the **Creative Commons CC0 1.0 Universal** license: - CC0 1.0 Universal (Public Domain Dedication) https://creativecommons.org/publicdomain/zero/1.0/

# 人民日报摘要数据集(PeopleDaily_Summarization) 本数据集为基于人民日报文章构建的中文新闻摘要数据集,涵盖2021年至2025年的新闻文本,经去重与预处理后总计包含110,301条样本。 ## 数据集来源 本数据集衍生自Kaggle平台上的如下数据集: - **Renmindaily(人民日报)** 数据集链接:https://www.kaggle.com/datasets/concyclics/renmindaily/data 原始Kaggle数据集采用**知识共享CC0 1.0 通用版(Creative Commons CC0 1.0 Universal)**许可协议发布。 ## 数据集说明 本数据集基于原始Renmindaily数据集开展如下预处理流程: - 基于文章内容去除重复样本 - 对文章文本进行适度清洗与规范化处理 - 将`date`(日期)、`title`(标题)与`content`(正文内容)整合为单条提示词(prompt) - 构建面向摘要任务的用户交互消息 - 将数据重新格式化为适配OpenAI批量处理(OpenAI Batch)的JSONL格式,每行均包含一个`/v1/chat/completions`接口的请求体。 本数据集旨在针对人民日报风格的中文新闻文本,开展中文新闻摘要模型的基准测试与性能评估工作。 ## 许可协议 本衍生数据集采用**知识共享CC0 1.0 通用版(Creative Commons CC0 1.0 Universal)**许可协议发布: - CC0 1.0 通用版(公有领域奉献协议,Public Domain Dedication) 链接:https://creativecommons.org/publicdomain/zero/1.0/
提供机构:
maas
创建时间:
2025-11-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作