five

exa-ai/CodeDocsNER

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/exa-ai/CodeDocsNER
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation language: - en tags: - code - ner pretty_name: CodeDocsNER size_categories: - 100K<n<1M --- # CodeDocsNER A large-scale NER dataset built from **206,382 markdown documentation files** across **4,835 permissively licensed GitHub repositories** (MIT and Apache-2.0), with **~17M named entities** across **25,547 entity types**. Repositories are identified via [GH Archive](https://www.gharchive.org/) star data on BigQuery, filtered to those with at least 5 stars in 2026. File contents are fetched directly from the GitHub API. Entities are annotated using a two-pass approach with DeepSeek v3.2 and spaCy. Built with [github-markdown-exporter](https://github.com/maxwbuckley/github-markdown-exporter). **Data freshness:** This snapshot was fetched on **2026-04-07** directly from GitHub. ## Dataset Structure ### annotations/ (train/test splits) JSONL files with annotated chunks, filtered and normalized. | Field | Type | Description | |-------|------|-------------| | `repo_name` | string | Source repository (owner/repo) | | `path` | string | File path within repo | | `chunk_index` | int | 0-based chunk position within file | | `chunk_text` | string | Stripped, chunked plain text | | `entities` | list | Named entities `[{"text": "...", "label": "..."}, ...]` | Train: 401,020 chunks. Test: 3,470 chunks. ### docs/ (raw markdown content) | Column | Type | Description | |--------|------|-------------| | `repo_name` | string | Repository in `owner/repo` format | | `path` | string | File path within the repo (e.g. `docs/guide.md`) | | `license` | string | `mit` or `apache-2.0` | | `size` | int64 | File size in bytes | | `content` | string | Full markdown text | ### attribution/ (licensing metadata) | Column | Type | Description | |--------|------|-------------| | `repo_name` | string | Repository in `owner/repo` format | | `license_type` | string | `MIT` or `Apache-2.0` | | `copyright_line` | string | Extracted copyright notice | | `has_notice_file` | bool | Whether the repo has a NOTICE file | | `license_text` | string | Full LICENSE file content | | `notice_text` | string | Full NOTICE file content (if any) | ## Filtering Source data: - **License**: Only MIT and Apache-2.0 licensed repositories - **Stars**: Minimum 5 stars received in 2026 (using GH Archive event data) - **File type**: Markdown files (`.md`) only - **Size**: Between 200 bytes and 500 KB (excludes empty templates and generated files) - **Excluded paths**: `vendor/`, `node_modules/`, `.github/`, symlinks Chunks: - **Max characters**: Chunks longer than 2,000 characters are discarded (pre-annotation) - **Max entities**: Chunks with more than 100 total entities are discarded (post-annotation) ## Statistics | Metric | Value | |--------|-------| | Repositories | 4,835 | | Documents | 206,382 | | Annotated chunks (train) | 401,020 | | Annotated chunks (test) | 3,470 | | Entity types (after normalization) | 25,547 | | Total entities (pre-filter) | ~17M | | Annotation cost | $590 (DeepSeek v3.2 via OpenRouter) | ## Attribution Each source document retains its original license. Per-repository license text, copyright notices, and NOTICE file contents are provided in the `attribution/` parquet files for 4,431 of the 4,835 repos (the subset with a discoverable LICENSE file). See the `NOTICES` file for the aggregated Apache 2.0 notices. ## License This dataset is released under the Apache-2.0 license. Source documents retain their original licenses (MIT or Apache-2.0) as specified in the per-document metadata.
提供机构:
exa-ai
搜集汇总
数据集介绍
main_image_url
构建方式
CodeDocsNER数据集源自4,835个采用MIT或Apache-2.0许可证的GitHub仓库,这些仓库经由GH Archive在BigQuery上的星标数据筛选而出,需在2026年内获得至少5颗星。数据采集阶段,通过GitHub API直接抓取了206,382份Markdown文档,并依据文件大小(200字节至500KB)及路径(排除vendor、node_modules等目录)进行初步过滤。实体标注采用两阶段策略:首先利用DeepSeek v3.2模型进行自动化识别,随后借助spaCy工具进行标准化与后处理,共标注约1700万个命名实体,涵盖25,547种实体类型。整个流程基于github-markdown-exporter工具构建,数据快照于2026年4月7日从GitHub直接获取,确保了信息的时效性与原始性。
使用方法
该数据集适用于训练和评估专注于代码与技术文档的命名实体识别模型。用户可通过加载JSONL格式的注释文件,利用其中的repo_name、path、chunk_text及entities字段构建训练数据。对于需要原始上下文的场景,可关联docs/目录下的完整Markdown内容。归属元数据提供了各仓库的许可证信息与版权声明,便于用户在合规前提下进行二次发布或集成。推荐将数据集用于零样本或少样本学习场景中的技术实体抽取任务,也可作为微调大型语言模型的领域适配数据。由于实体类型丰富且标注格式标准,该数据集能直接适配主流NER框架(如spaCy或Hugging Face Transformers),降低使用门槛。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别(NER)是信息抽取的核心任务之一,其性能高度依赖于高质量标注数据的规模与覆盖面。然而,现有NER数据集多聚焦于新闻、医疗等通用或专业文本,缺乏对软件工程文档中技术实体(如API名称、库名、代码标识符等)的系统性建模。CodeDocsNER数据集由研究人员于2026年构建,依托GH Archive与GitHub API,从4835个采用MIT或Apache-2.0许可的开源仓库中采集20.6万份Markdown文档,并借助DeepSeek v3.2大模型与spaCy实现两阶段自动标注,生成了约1700万实体、涵盖25547种实体类型的大规模资源。该数据集的提出填补了开源技术文档领域NER语料的空白,为代码智能与软件知识图谱的构建提供了坚实的数据基础,对推动开发者工具与文档自动化技术的发展具有重要影响。
当前挑战
CodeDocsNER数据集在构建与应用中面临多重挑战。在领域问题层面,软件文档中实体类型高度多样且存在大量技术术语(如函数名、版本号),远超传统通用领域NER的标签体系,且实体边界模糊(如'DeepSeek v3.2'需识别为单一实体),对模型长尾实体识别能力提出严苛要求。在构建过程中,数据采集需从海量仓库中筛选合规(许可、星数、文件大小)的文档,同时规避vendor/等非内容目录;自动标注采用两阶段方法,虽降低人工成本至590美元,但大模型标注的噪声与一致性需通过最大实体数过滤(100个/块)等规则缓解,且25547种实体类型经归一化后仍需处理同义标签冲突。此外,测试集仅3470块,规模较小可能影响评估的统计鲁棒性。
常用场景
经典使用场景
CodeDocsNER数据集的核心经典应用场景在于代码技术文档中的命名实体识别(NER)。该数据集从超过20万份Markdown格式的技术文档中,以两阶段标注策略自动构建了约1700万个命名实体,涵盖25,547种实体类型。研究者和开发者可借助这一资源训练模型,以精准识别文档中出现的API名称、编程语言术语、框架名、库名及函数调用等技术实体,从而提升对非结构化代码文档的信息抽取能力。该数据集特别适用于构建代码知识图谱、支持智能文档检索以及辅助代码注释生成等下游任务。
解决学术问题
CodeDocsNER数据集的发布有效弥补了大规模、高质量技术文档NER语料库的缺失,解决了学术研究中长期面临的标注数据匮乏与实体类型稀疏两大难题。此前,大多数NER数据集聚焦于新闻、生物医学或通用领域,而针对代码文档的实体识别研究常因缺乏全面且细粒度的标注资源而受限。该数据集不仅提供了海量、多类型的实体标注,还建立了实体类型归一化策略,使得跨仓库、跨项目的实体识别结果更具可比性。其研究意义在于推动了软件工程与自然语言处理交叉领域的发展,为代码理解、文档自动维护以及技术知识管理提供了坚实的数据基础。
实际应用
在实际应用层面,CodeDocsNER数据集能够赋能一系列软件开发生命周期中的智能工具。例如,在代码搜索与推荐系统中,利用该数据集训练的NER模型可以自动识别库名和API,从而提升检索意图理解的精准度;在自动化文档生成场景下,模型可高亮代码中的关键实体,辅助生成结构化的技术说明或变更日志。此外,该数据集还可服务于开发者社区中的技术实体规范化,帮助代码审核工具自动识别和链接可疑的外部依赖,增强软件供应链的安全性。这些应用不仅提升了开发效率,也为技术文档的维护与演化提供了智能化的解决方案。
数据集最近研究
最新研究方向
CodeDocsNER作为首个大规模开源代码文档命名实体识别数据集,由约48万份来自4835个GitHub仓库的markdown文档构建,标注了超过1700万个实体和25547种类型。当前前沿研究方向聚焦于利用该数据集推动代码文档中的实体抽取与知识图谱构建,尤其是结合大型语言模型的少样本与零样本学习能力。该数据集与2026年GitHub仓库快照的紧密关联,使其成为研究软件生态知识挖掘、API文档语义理解及许可合规性分析的标杆资源。其开源许可属性(MIT/Apache-2.0)和低廉的标注成本($590)为社区提供了可复现、可扩展的研究基础,对自动化文档智能、代码检索增强及跨仓库知识关联具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作