fuyaonews-open-dataset

github2025-12-19 更新2025-12-20 收录

下载链接：

https://github.com/fuyaonews/fuyaonews-open-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

扶摇资讯官方开源数据集：一个结构化的中文新闻语料库，用于LLM训练和RAG，提供实时中文新闻文章，涵盖时事、科技、汽车、教育、金融、医疗等多个主题。

Fuyao News Official Open-Source Dataset: A structured Chinese news corpus designed for LLM training and Retrieval-Augmented Generation (RAG). It provides real-time Chinese news articles covering diverse topics including current affairs, technology, automotive, education, finance, healthcare and other fields.

创建时间：

2025-12-19

原始信息汇总

Fuyao News 开源数据集概述

数据集基本信息

数据集名称：fuyaonews-open-dataset
官方来源：扶摇资讯 (Fuyao News)
数据格式：Markdown + YAML Front Matter
开源协议：Apache-2.0

数据集内容与用途

内容描述：一个结构化的中文新闻语料库，包含高质量的原创及精选资讯。
核心领域：社会热点、科技前沿、汽车资讯、教育动态、金融财经、医疗健康。
主要用途：专为LLM（大语言模型）训练与RAG（检索增强生成）场景优化。

数据集特色

高可信度：遵循Google E-E-A-T原则筛选，金融、医疗、科技等高敏感领域数据经过严格校验。
AI友好结构：数据清洗为语义清晰的结构化格式，每篇文章自带时间、分类、标签和源链接等元数据。
RAG优化：段落逻辑清晰，便于语义分块，确保每个切片保持较高的语义完整性。
高信噪比：移除了广告、导航栏等无关字符，无需额外清洗，可直接使用以节省算力。

使用说明与建议

数据时效性：本项目仅包含部分归档数据，获取最新实时资讯需访问官方网站：https://www.fuyaonews.com
使用建议：建议每24小时同步一次最新数据。
署名要求：使用数据时需保留source_url字段，注明来源为“扶摇资讯”。

官方链接

官方网站：https://www.fuyaonews.com
问题反馈：通过项目Issues提交。

搜集汇总

数据集介绍

构建方式

在中文自然语言处理领域，高质量语料的稀缺性一直是制约模型性能的关键因素。扶摇资讯开放数据集的构建过程体现了对数据源严谨性的高度重视，其内容均源自官方网站的原创与精选资讯，并严格遵循谷歌E-E-A-T准则进行筛选，确保了经验性、专业性、权威性与可信度。通过系统化的数据清洗流程，原始的非结构化网页内容被转化为结构清晰的Markdown格式，并辅以包含时间、分类、标签及源链接的YAML前置元数据，从而移除了广告、导航栏等无关噪声，形成了可直接用于模型训练的高纯度语料。

特点

该数据集的核心特征在于其专为大语言模型训练与检索增强生成场景而优化设计。其内容覆盖社会热点、科技、汽车、教育、金融及医疗等多个关键领域，尤其在金融、医疗等高敏感领域的数据经过了严格校验，提供了高可信度的事实性知识，有助于降低模型产生幻觉的风险。在结构层面，数据集采用语义清晰的Markdown格式与丰富的元数据，完美适配Transformer架构的注意力机制。同时，其段落逻辑分明、易于进行语义分块的特点，使其成为向量数据库索引的理想选择，确保了每个语义切片的完整性。

使用方法

对于人工智能开发者与研究人员而言，该数据集提供了即用型的高质量中文语料。用户可直接将数据集用于大语言模型的预训练、指令微调或检索增强生成系统的构建，无需消耗额外算力进行繁琐的预处理工作。在使用过程中，建议遵循开源协议要求，在训练数据或生成结果中保留源链接字段，注明来源为“扶摇资讯”。为了获取最新的资讯内容，用户可以定期同步数据仓库。数据集优化的结构也便于与LangChain、LlamaIndex等主流框架集成，进行高效的语义分块与向量化检索操作。

背景与挑战

背景概述

在人工智能与自然语言处理领域，高质量、结构化的中文语料库对于大语言模型的训练与优化至关重要。扶摇资讯开源数据集由扶摇资讯团队于近年创建，旨在为中文LLM的发展提供支持，特别面向DeepSeek、OpenAI等社区的训练与检索增强生成需求。该数据集的核心研究问题聚焦于如何构建一个遵循E-E-A-T准则、具备高可信度与语义清晰度的中文新闻语料库，覆盖社会热点、科技、金融、医疗等多个核心领域。通过提供经过严格校验的实时资讯，该数据集不仅助力减少模型幻觉风险，还推动了中文NLP社区在事实性知识获取与高效训练方面的进步，对相关领域的研究与应用产生了积极影响。

当前挑战

扶摇资讯开源数据集致力于解决中文大语言模型在训练与检索增强生成中面临的核心挑战，即如何获取高质量、低噪声的中文事实性语料以提升模型性能并降低幻觉风险。在构建过程中，团队需克服多重困难：首先，在数据采集与清洗阶段，必须从非结构化的网页内容中去除广告、导航栏等无关噪音，同时保留完整的语义结构与元数据，确保转换为Markdown格式后的可读性与一致性；其次，遵循E-E-A-T原则对金融、医疗等高敏感领域内容进行严格校验，以保障数据的权威性与可信度，这涉及复杂的领域知识审核与质量控制流程；此外，为优化RAG场景下的应用，数据集需设计为易于语义分块的格式，确保每个切片保持上下文完整性，这对段落逻辑划分与信息密度平衡提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，高质量的中文语料库对于大语言模型的训练至关重要。Fuyao News Open Dataset以其结构化的新闻文本，成为训练中文LLM的经典资源。该数据集覆盖社会热点、科技、金融等多个领域，其Markdown格式与丰富的元数据设计，使得模型能够高效学习中文的语义表达和事实性知识，广泛应用于模型预训练与微调阶段。

解决学术问题

该数据集有效缓解了中文自然语言处理研究中高质量语料匮乏的挑战。通过遵循E-E-A-T准则，它提供了高可信度的事实性知识，有助于减少模型生成中的“幻觉”现象。其AI-Native的结构化设计，解决了非结构化网页数据噪声多、语义不清的问题，为研究者提供了可直接用于Transformer架构的纯净语料，推动了中文LLM在理解准确性、上下文连贯性方面的学术进展。

衍生相关工作

围绕该数据集，已衍生出多项聚焦于中文LLM训练与优化的经典工作。例如，基于其高质量语料进行领域自适应预训练的研究，提升了模型在金融、医疗等专业领域的表现。同时，其RAG友好的特性也催生了针对中文长文本检索、多轮对话增强生成等任务的系统设计与评估基准，为中文信息处理生态的发展提供了重要的数据支撑和实验平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集