five

circumvention-corpus

收藏
github2026-05-06 更新2026-05-12 收录
下载链接:
https://github.com/getlantern/circumvention-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
一个结构化的、可调用LLM的审查规避研究语料库,包含论文核心元数据、受控词汇标签(审查/检测技术/防御)、团队笔记和(可选)提取的发现,通过MCP服务器暴露,使LLM能够回答关于该领域研究的问题。

A structured, LLM-callable research corpus for censorship circumvention, which contains core paper metadata, controlled vocabulary tags (censorship, detection techniques, and defenses), team notes, and (optional) extracted findings. The corpus is exposed via an MCP server, enabling LLMs to answer questions regarding research in this domain.
创建时间:
2026-05-05
原始信息汇总

数据集概述:circumvention-corpus

这是一个以 LLM 可调用方式组织的、结构化的网络审查规避研究文献索引。它并非一个论文托管网站,而是一个为每篇论文提供核心元数据、受控词汇标签及团队注释的研究索引。

核心目的

该数据集旨在填补现有资源(如 net4people/bbs、gfw.report、CensorBib、OONI)中缺失的一层:提供一个一致的、结构化的元数据模式,并通过 MCP(模型上下文协议)服务器暴露给 AI 助手,使其能够执行复杂的组合查询。

数据结构与组织方式

数据集采用 YAML 格式存储,主要结构如下:

  • schema/:包含 JSON Schema 和 YAML 分类法(taxonomy.yaml),定义了审查方、检测技术及防御手段的受控词汇。
  • corpus/
    • papers/:每篇论文对应一个 YAML 文件,包含核心元数据。
    • findings/(可选):从论文中提取的发现,每篇论文对应一个 YAML 文件。
    • pdfs/(可选):本地 PDF 缓存。

每篇论文都有一个 visibility 字段,定义了四种可见性级别:

  • public:可公开提供
  • community:仅在审查规避工具开发者间共享
  • internal:仅限 Lantern 团队内部
  • embargoed:将在指定日期后公开

数据集规模与收录哲学

  • 遵循 “策展优于数量” 原则:约 200 篇经过人工精选的、团队信任的论文比自动爬取的 50,000 篇更有价值。
  • 收录标准:Lantern 协议设计者若未读过该论文是否会因此降低效率?如是,则收入。
  • “对该领域的全面覆盖”并非目标。

MCP 服务器工具

该数据集通过 MCP 服务器暴露以下工具:

  • search_papers:支持关键词和标签过滤的搜索,返回排序后的记录。
  • get_paper:通过 ID 获取单条记录。
  • list_taxonomy:返回受控词汇表,供 AI 代理了解可用的标签 ID。
  • find_related:查找共享审查方 / 技术 / 防御手段标签的相关论文。

可浏览网站

该数据集的静态网站版本托管在 corpus.lantern.io,由 Go 的 html/template 渲染,无任何 JavaScript 框架,渲染整个语料库约需 0.1 秒。

如何使用 MCP 服务器

  • 托管版(推荐):作为 Cloudflare Pages Function 运行在 https://corpus.lantern.io/mcp,零安装,推送至主分支后自动部署。
  • 自托管版:适用于被 Cloudflare 屏蔽地区的用户或注重隐私的用户,可运行 Go 的 stdio 服务器直接从本地克隆库读取 YAML 文件。

如何贡献

欢迎以下形式的贡献:

  • 新论文(特别是近期的测量 / 威胁模型工作)
  • 对现有论文的更好标签
  • 从论文中提取的发现(含论文 ID 和章节引用的 1-3 句陈述)
  • 当现有词汇不适用时的分类法补充

许可协议

  • 模式、分类法和语料库元数据:CC0 / 公共领域。
  • 论文 PDF(本地存储时):不允许重新分发。每篇论文的 YAML 文件指向规范 URL,下载由用户自行负责。
搜集汇总
数据集介绍
main_image_url
构建方式
审查规避语料库(circumvention-corpus)是一个专为大型语言模型(LLM)设计的结构化、可调用的研究索引,旨在系统化组织网络审查规避领域的学术文献。该数据集摒弃了传统论文托管模式,采用YAML格式记录每篇文献的核心元数据,包括受控词表标签(审查者、检测技术、防御手段)、团队注释及可选萃取发现。所有条目通过MCP服务器暴露,使AI助手能够执行诸如“2024年主动探测研究有何发现?”或“检索评估针对GFW全加密流量检测器防御方案的所有论文”等复杂查询,而无需人工重读领域文献。数据集构建遵循严格的组织结构:schema目录存储JSON Schema和YAML分类法,corpus目录按论文、发现和PDF缓存分层存放,并通过Go语言实现的MCP服务器或Cloudflare Pages Function提供本地与托管两种访问方式。
特点
该数据集的核心特点在于其精心设计的可见性模型与严谨的策展哲学。可见性分为公开、社区、内部和禁运四个层级,通过公共仓库与私有仓库的物理隔离实现数据路径硬分离,确保敏感信息不会被公共端点意外泄露。策展团队坚持“策展胜于数量”的原则,拒绝自动批量爬取,而是通过人工精选构建200篇左右的高质量语料库,每篇论文均由人类专家评估其是否可能影响Lantern协议设计者的工作进程。此外,数据集的受控词表确保标签一致性,而LLM可调用的接口设计则实现了自然语言与结构化数据之间的无缝交互,使研究者能够以对话形式探索复杂的研究脉络。
使用方法
使用circumvention-corpus数据集最为便捷的方式是通过托管的MCP端点,用户只需在Claude或兼容MCP客户端中配置https://corpus.lantern.io/mcp地址,即可零安装、免工具链地获得自动部署的最新版本。对于身处网络审查环境或注重隐私的用户,可选择自托管模式:通过Go工具链安装corpus-mcp服务器,并指向本地克隆的仓库目录。MCP服务器提供search_papers、get_paper、list_taxonomy、find_related四个核心工具,支持关键词与标签组合搜索、单篇文献获取、受控词表检索以及关联文献发现。此外,用户还可通过静态站点corpus.lantern.io浏览由相同YAML数据生成的HTML页面,该站点以Go的html/template渲染,无JavaScript框架依赖,约0.1秒即可完成整个语料库的渲染。
背景与挑战
背景概述
circumvention-corpus数据集由Lantern团队于2024年创建,旨在为审查规避研究领域提供一个结构化、可被大型语言模型调用的文献索引。该数据集聚焦于网络审查与规避技术的核心研究问题,通过统一的YAML元数据模式和受控词表(涵盖审查者、检测技术、防御手段),将散落的学术文献转化为机器可读的知识库。其影响力体现在填补了现有资源(如CensorBib、OONI)缺乏结构化查询能力的空白,使AI助手能够高效检索特定年份的主动探测发现或评估针对完全加密流量检测器的防御措施,从而加速该领域的知识整合与创新。
当前挑战
circumvention-corpus面临的挑战首先源于领域问题:网络审查规避研究涉及动态演变的审查技术与防御策略,文献分布零散且术语不统一,传统关键词搜索难以精准定位关联性强的成果。构建过程中,数据集需手工精选文献而非自动抓取,以确保质量,但200篇左右的高门槛制约了覆盖广度;同时,不同可见性级别(公开、社区、内部、禁运)的论文管理依赖严格的数据路径分离,防止授权漏洞导致私密记录泄露。此外,从论文中提取结构化发现需人工判别,平衡详实性与可扩展性亦是持续挑战。
常用场景
经典使用场景
circumvention-corpus数据集最经典的使用场景在于为网络审查规避研究领域构建了一个结构化的、可被大型语言模型直接调用的文献索引库。研究者或AI助手可通过MCP服务器对其发起语义化查询,例如检索2024年针对主动探测技术的研究成果,或寻找所有评估对抗GFW全加密流量检测方法的相关论文。这种以受控词表元数据为核心的精细化组织形式,使得复杂的跨文献信息多跳检索得以自动高效实现,显著提升了领域知识的可访问性和复用效率。
衍生相关工作
circumvention-corpus衍生了多项重要的基础设施工作,包括用于本地部署的Go语言MCP服务器cmd/corpus-mcp、将YAML语料打包为JSON的内联工具cmd/corpus-bundle,以及基于Cloudflare Pages的托管理MCP端点。这些组件共同构建了一条从数据管理到AI推理的全链路管道。值得关注的是,该项目还提出了四级可见性模型(public/community/internal/embargoed),并配套设立了私有关联仓库circumvention-corpus-private,以解决包含NDA文档或未公开数据的合规分发问题。这种设计方法论为其他敏感领域构建可控、可信的AI接入学术语料库提供了可复用的范式参考。
数据集最近研究
最新研究方向
针对circumvention-corpus这一结构化、可被大语言模型调用的审查规避文献索引库,当前该领域的前沿研究正聚焦于利用AI代理(如Claude、GPT)进行知识检索与分析,以重塑网络审查与反审查的技术博弈格局。伴随全球范围内网络主权意识增强与审查技术(如深度包检测、主动探测)的迭代升级,该数据集通过受控词表元数据(涵盖审查机制、检测技术与防御策略)与MCP服务器接口,实现了文献检索与内部数据查询的深度融合,为研究团队提供了实时、精准的知识洞见。其影响在于,它不仅弥补了现有资源(如CensorBib、OONI)在AI可调用性与结构化元数据方面的缺失,更通过严格的可见性分层模型(公开、社区、内部与保密)确保敏感研究的安全共享,从而推动网络自由领域中合作效率与情报安全的平衡,成为构建下一代智能反审查系统的基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作