five

SN33 LLMs.txt Dataset

收藏
github2026-04-03 更新2026-03-29 收录
下载链接:
https://github.com/afterpartyai/llms_txt_store
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集发布通过大规模SN33处理Common Crawl数据生成的机器可读llms.txt文件。SN33使用命名实体识别、语义标记和结构提取来分析网络内容,为网站创建AI就绪的知识表面。这些表面使LLM代理和AI应用程序更容易理解网站的结构和含义,而无需爬取和解释原始HTML。

This dataset provides machine-readable llms.txt files generated by processing Common Crawl data at scale using SN33. SN33 analyzes web content through named entity recognition, semantic tagging and structural extraction to create AI-ready knowledge surfaces for websites. These surfaces enable LLM agents and AI applications to more easily understand the structure and meaning of websites without having to crawl and parse raw HTML.
创建时间:
2026-03-07
原始信息汇总

SN33 LLMs.txt 数据集概述

数据集简介

该数据集发布通过大规模SN33处理Common Crawl数据生成的机器可读llms.txt文件。这些文件旨在为网站创建AI就绪的知识表面,使LLM代理、MCP服务器和AI应用程序无需爬取和解析原始HTML即可理解网站的结构和含义。数据集提供了网络的结构化语义摘要,目标是让AI系统更容易理解、导航和使用网络。初始版本包含约1000个已处理的站点作为测试数据集。

核心处理流程(SN33)

SN33处理大量Common Crawl数据,将原始HTML转换为结构化AI资源。核心步骤包括:

  1. 内容提取:解析HTML、规范化文本、移除样板内容。
  2. 命名实体识别:识别人员、组织、技术、地点、产品、概念。
  3. 语义标记:分类主题、检测关系、识别关键主题。
  4. 站点级聚合:跨页面组合信号、构建域级摘要。
  5. LLM资源生成:生成标准化的llms.txt文件,并针对代理消费进行优化。

仓库结构

仓库根据域名确定性地组织llms.txt文件。

  • 目录结构/{顶级域}/{子域名(如有)}/{字符展开的域名}/llms.txt
  • 设计优势:支持O(1)查找、无目录膨胀、可浏览、对Git友好、安全处理子域名。
  • 处理复合顶级域:包含从Mozilla公共后缀列表派生的143个复合顶级域列表,以确保全球站点的域路径生成正确。

主要优势

  • 对AI开发者:加快代理对网站的推理、减少与网络内容交互时的令牌使用、与MCP服务器和代理框架更清晰的集成、结构化站点元数据的确定性查找。
  • 对LLM应用程序:结构化的实体和主题理解、改进大型文档站点的导航、减少引用外部源时的幻觉、更可靠的响应基础。
  • 对开放网络:共享的AI基础设施层、减少冗余爬取和解析、可供任何人使用的公共开放数据集、大规模AI原生网络索引的基础。
  • 对Bittensor生态系统:展示SN33的实际效用、将原始爬取数据转换为可用的AI基础设施、为模型训练和评估提供可重用的语义数据集、将SN33确立为去中心化AI的数据智能层

应用场景

  • MCP服务器
  • LLM浏览器
  • 训练数据
  • 检索系统
  • AI搜索

发展路线图

约200个域的试点数据集开始。 未来阶段:

  1. 10K域
  2. 100K域
  3. 1M域
  4. 根据Common Crawl版本持续更新 长期目标是为AI系统提供优化的开放网络语义层

关于SN33

SN33是Bittensor去中心化AI网络中的一个子网,专注于:

  • 大规模数据处理
  • 语义提取
  • AI就绪的数据集
  • 机器智能的知识基础设施 SN33将海量原始数据集转换为模型、代理和AI应用程序可用的结构化资源
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能与网络信息交互日益频繁的背景下,SN33 LLMs.txt 数据集通过系统化处理Common Crawl的海量网页数据构建而成。其构建流程涵盖内容提取、命名实体识别、语义标注、站点级聚合及LLM资源生成五个核心环节。首先从原始HTML中解析并规范化文本,剔除冗余模板;随后运用命名实体识别技术标识出人物、组织、技术、地点等关键实体;进而通过语义标注对主题进行分类并探测实体间关系;接着跨页面整合信号,生成域名级别的语义摘要;最终输出标准化的llms.txt文件,形成机器可读的网站语义索引。
特点
该数据集的核心特点在于其高度结构化的语义表示与优化的存储架构。每个llms.txt文件作为网站的压缩语义表征,集成了实体关系、主题分类及关键主题识别,为AI系统提供了即用的语义上下文,显著降低了模型解析原始HTML的冗余计算。数据集采用基于域名的确定性目录结构,实现了O(1)查找效率,并通过字符分层策略避免了目录膨胀,确保在GitHub等平台上的可管理性。此外,数据集涵盖约1000个站点作为测试样本,并设计支持扩展到数百万域名,具备良好的可扩展性。
使用方法
在人工智能应用领域,该数据集为多种场景提供了便捷的集成方式。对于MCP服务器与LLM智能体,可直接在爬取网站前获取对应llms.txt文件,以快速建立语义理解基础,加速推理过程并减少令牌消耗。在检索增强生成(RAG)管道中,数据集可作为语义 grounding 的可靠来源,提升信息检索的准确性。同时,其结构化实体与主题数据适用于模型训练与评估,为AI搜索引擎提供改进的排名信号。用户只需根据域名遵循确定的路径规则访问相应文件,即可高效利用这一语义层资源。
背景与挑战
背景概述
在人工智能与网络信息处理领域,如何高效地将海量非结构化网页内容转化为机器可理解的语义表示,一直是制约智能代理与大型语言模型深度交互的关键瓶颈。SN33 LLMs.txt数据集于近期由Bittensor去中心化AI网络中的SN33子网发布,旨在通过大规模处理Common Crawl数据,构建一个面向AI系统的结构化语义知识库。该数据集的核心研究问题聚焦于消除AI系统重复解析原始HTML的冗余开销,通过命名实体识别、语义标注与站点级聚合技术,生成标准化的llms.txt文件,为LLM智能体、MCP服务器等应用提供即插即用的网站语义摘要,从而推动开放网络语义基础设施层的建设。
当前挑战
该数据集致力于解决AI系统理解与导航网页内容时所面临的语义鸿沟挑战,即如何从噪声密集、结构异构的原始HTML中稳定提取并整合高质量的实体关系与主题信息,以支持智能代理的精准推理与决策。在构建过程中,挑战主要体现于大规模网页数据的预处理与语义归一化,包括跨语言、跨文化网页的实体识别一致性维护,以及复合顶级域名(如co.uk、com.au)的路径映射与存储结构优化,确保数千万站点规模下数据的可扩展性与高效检索。
常用场景
经典使用场景
在人工智能与自然语言处理领域,SN33 LLMs.txt数据集为大型语言模型(LLMs)提供了结构化的语义索引,使其能够高效理解网站内容。该数据集通过命名实体识别、语义标记和站点级聚合,将原始HTML转化为机器可读的语义摘要,从而优化了AI系统对网络信息的访问。经典使用场景包括AI代理在浏览网站前预先加载llms.txt文件,以快速获取站点的语义上下文,避免了重复爬取和解析的冗余计算,显著提升了推理效率。
实际应用
在实际应用中,SN33 LLMs.txt数据集被集成于多种AI驱动系统中。例如,在MCP服务器和LLM浏览器中,它作为语义引导层,帮助代理快速导航大型文档站点或陌生域名,减少令牌使用并提升响应准确性。在检索增强生成(RAG)管道中,该数据集提供结构化的实体和主题信号,增强了信息检索的语义基础。此外,它还可作为AI搜索的排名信号来源,优化基于领域语义的内容排序,为开放网络中的AI应用提供了可扩展的基础设施支持。
衍生相关工作
该数据集衍生了一系列经典工作,主要集中在去中心化AI和语义网络基础设施领域。基于SN33处理流程,研究者开发了面向Bittensor生态的语义提取子网,将Common Crawl数据转化为可训练的结构化资源。相关研究扩展了实体识别和关系检测算法,并探索了llms.txt格式在代理框架中的集成方法。这些工作共同构建了一个开放的AI原生网络索引层,为大规模知识表示和机器智能应用提供了可复用的数据基础,推动了语义Web与人工智能的交叉创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作