five

FirstData

收藏
github2026-02-03 更新2026-01-28 收录
下载链接:
https://github.com/MLT-OSS/FirstData
下载链接
链接失效反馈
官方服务:
资源简介:
全球最全面、最权威、最结构化的开源数据源知识库,旨在构建一个面向全球的、权威的、结构化的Primary Sources知识库,覆盖科研学术、政务公开、法律法规、公司披露与财报、标准规范与行业权威资料等多个领域,将分散、非标、难复用的原始内容转化为可追溯、可验证、可引用的核心事实。

The most comprehensive, authoritative and structured open-source data source knowledge base worldwide. It aims to build a global, authoritative and structured knowledge base of Primary Sources, covering multiple fields including scientific research and academia, government public information, laws and regulations, corporate disclosures and financial reports, standard specifications and industry authoritative materials. It transforms scattered, non-standard and hard-to-reuse raw content into traceable, verifiable and citable core facts.
创建时间:
2026-01-27
原始信息汇总

FirstData 数据集概述

数据集基本信息

  • 项目名称:FirstData
  • 项目描述:全球最全面、最权威、最结构化的开源数据源知识库
  • 项目目标:构建一个面向全球的、权威的、结构化的 Primary Sources 知识库,旨在系统性发掘并聚合跨领域高可信信源,将分散、非标、难复用的原始内容,转化为可追溯、可验证、可引用的“核心事实”。
  • 核心定位:AI时代的事实防线,为模型提供抗幻觉、抗投毒的可信底座。
  • 许可证:MIT License

数据源概览

  • 总规划数据源数量:1000+
  • 当前已完成数据源数量:126
  • 总体完成进度:13%

数据源分类统计

类别 当前数量/规划数量 覆盖内容示例
国际组织 28 / 100+ 世界银行、IMF、OECD、WHO、FAO等
中国数据源 19 / 500+ 人民银行、国家统计局、海关总署、证监会等
各国官方 24 / 200+ 美国、加拿大、日本、英国、澳大利亚等
学术机构 26 / 100+ NBER、Penn World Table、PubMed等
行业领域 29 / 100+ 能源、金融、健康、气候等

核心特性与优势

  1. 深度覆盖中国数据源:规划独家收录500+中国政府数据源,涵盖多个核心领域。
  2. 结构化元数据体系:为每个数据源定义完整元数据标准,支持机器可读和自动化证据链构建。
  3. 权威等级分类:将数据源权威性分为六类:政府、国际组织、研究机构、市场机构、商业机构、其他。
  4. AI智能搜索:基于LLM驱动的数据源查询Agent,理解复杂多维度查询。
  5. MCP协议集成:提供标准MCP Server,可集成到Claude Desktop、Cline等多种AI应用中。
  6. 中英双语支持:所有元数据提供中英文版本。
  7. 100%验证:每个URL经过测试,每个数据源有完整文档,每个权威等级有依据。

元数据结构

每个数据源包含以下结构化元数据:

  • 核心信息:唯一ID、名称(英文、中文和本地语言)、组织信息(名称、类型、国家、官方网站)、详细的双语描述。
  • 访问与发现:主要URL、API信息(可用性、文档、认证要求)、下载选项(批量下载、支持格式)、访问级别(开放、需注册等)。
  • 覆盖详情:地理范围、国家/地区、时间范围(起始年份、结束年份、更新频率)、领域、数据内容描述。
  • 权威性标识:通过authority_level字段标注权威等级。

FirstData MCP 服务

功能概述:将静态的数据源知识库转化为动态的智能导航系统,连接自然语言与一手权威数据。

核心功能

  1. 权威信源定位 (Source Locator):基于用户自然语言提问,智能推荐最权威的一手数据源网站,提供Top 3-5最相关数据源及详细匹配理由。
  2. 网站操作导航 (Site Pathfinder):针对结构复杂的专业网站,提供手把手的操作路径说明书,从首页到目标数据的完整导航指引。

集成与使用

  • MCP服务器地址https://firstdata.deepminer.com.cn/mcp
  • API Key申请:需访问 https://firstdata.deepminer.com.cn/ 申请免费API Key。
  • 支持平台:Claude Desktop、Cline (VS Code)、Zed、Cursor、Copilot、Windsurf、JetBrains AI Assistant、Warp Terminal、Gemini CLI、Factory CLI、Qoder、Kiro、OpenCode、Visual Studio、Codex、Amp等所有兼容MCP协议的AI应用。

质量保证措施

  • 100% URL验证:每个链接都经过测试且可用。
  • 权威性优先:主要收录政府和国际组织数据源。
  • 元数据验证:所有JSON文件通过schema验证。
  • 双语文档:所有数据源提供中英文说明。
  • 证据链完整:提供从查询到原始数据的完整路径。

贡献方式

欢迎推荐新的权威数据源,收录标准包括:政府官方数据源、国际组织官方数据、顶级学术机构和研究仓库、定期更新的权威行业数据。推荐流程为提交Issue说明数据源信息和推荐理由,经评估后正式收录。

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能技术重塑信息生态的背景下,FirstData数据集致力于构建一个面向全球的权威开源数据源知识库。其构建过程遵循严谨的系统性方法,通过系统性发掘与聚合跨领域的高可信信源,涵盖科研学术、政务公开、法律法规、公司披露及行业权威资料等多个维度。项目团队对每个潜在数据源进行严格的权威性评估,优先收录中外政府部门、国际组织及学术机构等官方渠道,并执行百分之百的URL可用性验证,确保链接真实有效。所有收录的数据源均被转化为结构化的元数据记录,包含访问路径、权威等级、更新频率等关键信息,形成可追溯、可验证的知识体系,为后续的机器可读与自动化处理奠定坚实基础。
特点
FirstData数据集的核心特征体现在其高度的结构化、权威性与智能服务集成。数据集构建了一套完整的结构化元数据体系,不仅提供数据源的基本链接,更详细记录了API接口、数据格式、地理与时间覆盖范围等深度信息,实现了机器可读与可编程访问。其独创的权威等级分类系统,将数据源明确划分为政府、国际组织、研究机构等六类,为评估数据可信度提供了科学依据。尤为突出的是,数据集深度覆盖了中国数据源,计划收录超过500个中国政府机构数据,有效填补了全球数据生态中的关键空白。此外,数据集通过集成MCP协议,提供了基于大语言模型的智能搜索代理,能够理解复杂的自然语言查询,精准推荐权威数据源并提供详细的操作导航,实现了从静态知识库到动态智能导航系统的跨越。
使用方法
为充分发挥FirstData数据集的价值,用户可通过多种方式将其集成至现有工作流。数据集的核心使用方式是通过其提供的标准MCP服务器,用户可在Claude Desktop、Cline、VS Code Copilot等兼容MCP协议的AI应用中完成配置,将智能检索功能无缝嵌入日常分析环境。配置完成后,用户可直接使用自然语言提出数据需求,例如查询特定经济指标或行业报告,系统内的智能代理将基于对查询意图的理解,从知识库中筛选并推荐最匹配的权威数据源列表,并附上详细的匹配理由与访问信息。对于结构复杂的官方数据平台,数据集还提供了预置的网站操作说明书,能引导用户完成从网站首页到目标数据定位的每一步操作。这种结合智能推荐与精准导航的使用模式,旨在帮助研究人员、数据分析师及决策者高效、可靠地获取并验证一手数据,构建完整的证据链闭环。
背景与挑战
背景概述
在生成式人工智能重塑信息生态的背景下,FirstData项目应运而生,旨在构建一个面向全球的、权威且结构化的开源数据源知识库。该项目由DeepMiner等机构或团队主导,其核心研究问题是应对信息过载时代中“真实”的稀缺性,致力于将分散、非标准的原始内容转化为可追溯、可验证的核心事实。通过系统聚合来自政府、国际组织、学术机构等的高可信信源,并设计结构化元数据体系与MCP智能搜索协议,该项目为大型语言模型提供了抗幻觉、可计算的可信数据底座,对推动基于证据的严谨推理与深度研究具有重要影响力。
当前挑战
FirstData所应对的领域挑战在于,如何在海量且质量参差的互联网信息中,为人工智能系统精准定位并提供权威、可验证的一手数据源,以解决模型幻觉和证据链缺失的根本问题。在构建过程中,项目面临多重具体挑战:其一是数据源的权威性筛选与持续验证,需确保收录的千余个全球信源均符合政府与国际组织优先的高标准,并维持URL链接的100%可用性;其二是复杂元数据结构的设计与实施,需将非标、异构的原始数据转化为机器可读、支持自动化证据链构建的标准化格式;其三是实现智能导航与低门槛访问,需通过MCP协议理解自然语言查询,并为结构复杂的专业数据平台提供详尽的操作路径说明书,以跨越专业检索的高门槛。
常用场景
经典使用场景
在生成式人工智能重塑信息生态的背景下,FirstData数据集作为权威数据源知识库,其经典使用场景聚焦于为大型语言模型提供抗幻觉、抗投毒的可信事实底座。研究者或开发者通过其结构化元数据体系,能够精准定位并调用来自政府、国际组织及顶级学术机构的原始数据,从而将AI的模糊概括升级为基于一手证据的严谨推理与引用,构建从自然语言查询到原始数据验证的完整证据链闭环。
解决学术问题
该数据集系统性地解决了人工智能时代信息可信度验证的核心学术难题。通过聚合并结构化全球高可信度的一手信源,它有效应对了信息过载背景下真实证据稀缺的挑战,为模型训练与推理提供了可追溯、可验证的事实基础。其意义在于确立了数据权威性评估的标准化框架,推动了从依赖二手信息到基于原始证据的学术研究范式转变,为构建可靠、透明且可复现的智能系统奠定了关键基石。
衍生相关工作
围绕FirstData数据集及其理念,已衍生出多项旨在增强AI系统事实核查与证据追溯能力的研究与实践。其核心的MCP服务器架构,作为一种连接自然语言与权威数据的智能导航系统,启发了众多集成到Claude、Cursor等AI应用中的工具开发。这些相关工作共同致力于构建一个机器可读、可编程访问的全球可信数据网络,推动了基于证据链的自动化研究流程和可解释人工智能方法的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作