DLT-Corpus

Name: DLT-Corpus
Creator: 伦敦大学学院·区块链技术中心; 爱丁堡大学·信息学院; Exponential Science
Published: 2026-02-25 23:53:41
License: 暂无描述

arXiv2026-02-25 更新2026-02-27 收录

下载链接：

https://huggingface.co/collections/ExponentialScience/dlt-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

DLT-Corpus是由伦敦大学学院等机构构建的分布式账本技术领域最大规模文本集合，包含29.8亿Tokens的跨学科数据。该数据集整合科学文献（3.7万篇）、美国专利（4.9万项）和社交媒体（2200万条）三大来源，通过语义检索和领域过滤确保内容相关性，其关键词密度达到通用语料的8.7倍。该资源支持技术创新扩散分析、市场情绪追踪等应用，为区块链领域的自然语言处理研究提供了首个综合性文本基础设施。

DLT-Corpus is the largest-scale text collection in the distributed ledger technology (DLT) field, constructed by institutions including University College London (UCL). It contains 2.98 billion tokens of interdisciplinary data, integrating three major sources: 37,000 scientific papers, 49,000 U.S. patents, and 22 million social media posts. Content relevance is ensured via semantic retrieval and domain filtering, with its keyword density reaching 8.7 times that of general-purpose corpora. This resource supports applications such as technological innovation diffusion analysis and market sentiment tracking, providing the first comprehensive text infrastructure for natural language processing research in the blockchain domain.

提供机构：

伦敦大学学院·区块链技术中心; 爱丁堡大学·信息学院; Exponential Science

创建时间：

2026-02-25

搜集汇总

数据集介绍

构建方式

在分布式账本技术领域，现有自然语言处理资源多集中于加密货币价格预测与智能合约，缺乏对领域特定语言的系统性覆盖。为填补这一空白，DLT-Corpus通过整合三个互补来源构建而成：从Semantic Scholar获取开放获取的科学文献，经PDF解析、语言过滤及基于BERT的领域相关性筛选，最终保留37,440篇文献；从美国专利商标局公开数据库采集专利文本，涵盖49,023项申请；并聚合多个学术与行业来源的社交媒体数据，经去重与语言过滤后包含2,200万条推文。整个语料库总计22.12百万文档、29.8亿词元，确保了法律合规性与领域代表性。

特点

DLT-Corpus的显著特征在于其规模宏大与领域专精性。语料库涵盖科学文献、专利与社交媒体，不仅捕获了技术规范、经济机制与社区讨论等多维度内容，更通过丰富的元数据支持跨学科研究。质量评估显示，其领域关键词密度达到通用语料库的8.7倍，文档覆盖率高达98.7%，Jensen-Shannon散度显著高于通用文本，证实了词汇分布的本质差异。这种高密度术语暴露为语言模型提供了强有力的领域学习信号，使其能够更有效地掌握分布式账本技术的专业语境与演化动态。

使用方法

该数据集为分布式账本技术领域的自然语言处理研究提供了坚实基础。研究者可直接通过Hugging Face平台访问各子集，利用其结构化元数据进行创新扩散分析、技术趋势检测或协作网络研究。对于模型开发，语料库支持领域自适应预训练，如LedgerBERT的持续预训练所示，能显著提升命名实体识别等下游任务性能。此外，附带的众包情感分析数据集可用于市场情绪研究，而完整的工具链与代码发布确保了研究的可复现性，助力学术界与产业界探索技术演进与市场动态间的复杂关联。

背景与挑战

背景概述

随着分布式账本技术（DLT）领域的迅猛发展，其市场估值已突破三万亿美元，并涌现出稳定币、去中心化交易所等创新概念。然而，该领域的自然语言处理研究长期受限于数据资源的碎片化与狭隘性，现有数据集多聚焦于加密货币价格预测与智能合约等特定任务，未能全面涵盖科学文献、专利文件及社交媒体中的海量文本。为此，伦敦大学学院区块链技术中心等机构的研究团队于2025年构建了DLT-Corpus，这一迄今规模最大的领域专用文本集合，旨在整合学术论文、美国专利商标局专利及社交媒体帖子，为DLT领域的语言模型训练与创新扩散分析提供坚实基础。

当前挑战

DLT-Corpus致力于解决分布式账本技术领域自然语言处理任务中领域专用语言资源匮乏的核心挑战。现有研究多局限于狭窄的下游任务，如命名实体识别与情感分析，缺乏能够支撑检索增强生成、专利态势监控等复杂应用的大规模文本基础。在构建过程中，研究团队面临多重困难：首先，需从多源异构数据中筛选高相关度内容，尤其需剔除生物医学等领域中与DLT共享术语但实质无关的文献；其次，社交媒体数据的获取受平台API访问限制影响，仅能收录2023年之前的公开帖子；此外，还需在确保数据可重分发权利的前提下，处理科学文献的开放获取许可与专利文本的版权状态，以降低后续使用的法律风险。

常用场景

经典使用场景

在分布式账本技术领域，自然语言处理研究长期受限于领域专用文本资源的匮乏。DLT-Corpus作为迄今规模最大的领域专用文本集合，其经典使用场景在于为领域自适应语言模型的持续预训练提供高质量语料。通过整合科学文献、专利文本与社交媒体内容，该数据集能够有效捕捉分布式账本技术领域内快速演进的专业术语、技术规范及社区话语，为构建如LedgerBERT等专用模型奠定数据基础，显著提升命名实体识别等下游任务的性能表现。

实际应用

在实际应用层面，DLT-Corpus为产业界提供了监测技术景观、分析创新轨迹的重要工具。基于其专利与科学文献子集，企业可进行竞争对手分析、研发趋势探测与专利布局规划。社交媒体数据结合情感标注，有助于理解社区情绪与市场动态的互动关系。此外，衍生的LedgerBERT模型能够直接集成至检索增强生成系统，提升在分布式账本技术领域内问答、文档解析等实际应用的准确性与可靠性，降低大型语言模型产生幻觉的风险。

衍生相关工作

围绕DLT-Corpus已衍生出多项经典研究工作，其中最具代表性的是LedgerBERT领域自适应语言模型的构建。该模型通过对SciBERT在DLT-Corpus上进行持续预训练，在分布式账本技术专用命名实体识别任务上相比BERT-base实现了23%的性能提升。此外，基于该数据集开展的创新扩散分析揭示了稳定币、自动化做市商等技术从科学研究到专利再到社区传播的传统技术转移路径，为理解该领域创新生态提供了实证依据。这些工作共同确立了该数据集在推动领域专用自然语言处理研究与技术情报分析中的基石地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集