five

co-lustre

收藏
github2026-04-29 更新2026-04-30 收录
下载链接:
https://github.com/ellis-wilson-ms/co-lustre
下载链接
链接失效反馈
官方服务:
资源简介:
一个全面的Lustre文件系统文档、JIRA问题和源代码的文本语料库,转换为可搜索的纯文本以进行分析、参考和检索。Lustre是一个开源的分布式并行文件系统,专为大规模HPC环境设计。该仓库收集并规范化了来自多个Lustre知识源的数据,形成一个单一的、可grep的数据集。

A comprehensive text corpus of Lustre file system documentation, JIRA issues, and source code, converted into searchable plain text for analysis, reference, and retrieval. Lustre is an open-source distributed parallel file system designed specifically for large-scale HPC environments. This repository collects and standardizes data from multiple Lustre knowledge sources to form a single, grep-friendly dataset.
创建时间:
2026-04-29
原始信息汇总

根据您提供的数据集详情页面(README文件),以下是该数据集的总结:

数据集概述:co-lustre

co-lustre 是一个综合性的文本语料库,专门收集并整理了与 Lustre 文件系统相关的文档、JIRA 问题以及源代码,并将其转换为可搜索的纯文本格式,便于分析、参考和检索。

数据来源与格式

该数据集整合了以下四个主要来源的数据:

数据来源 原始来源 原始格式 处理后格式
JIRA 问题 jira.whamcloud.com XML 纯文本 + TSV 索引
官方手册 Lustre 文档 (DocBook) DocBook XML 纯文本
维基百科 wiki.lustre.org MediaWiki XML 纯文本
源代码 git.whamcloud.com 保持原样

仓库结构

该仓库的目录结构清晰,主要包含以下内容:

  • raw/ 目录:存放原始数据,包括 JIRA 问题的 XML 导出、官方手册的 DocBook XML 源文件以及维基页面的 MediaWiki XML 导出。
  • processed/ 目录:存放清理后的纯文本输出,包含源代码、JIRA 问题的纯文本及其索引、手册章节的纯文本以及维基页面的纯文本。
  • scripts/ 目录:存放数据收集和格式转换的实用脚本。

处理后的数据格式

  • JIRA 问题:每个问题以纯文本文件存储,包含键、摘要、状态、优先级、类型、分配者、描述和评论等结构化字段。其 index.tsv 文件提供了所有问题的制表符分隔概览。
  • 手册:每个章节以独立的纯文本文件存储,文件名以其主题命名。
  • 维基页面:每个页面以纯文本文件存储,文件名以页面标题命名。另有一个 wiki_in_wikitext/ 目录保留了原始的维基文本标记。

使用说明

  • 处理后的数据:位于 processed/ 目录,是该数据集的核心部分,可直接用于日常使用。
  • 脚本与原始数据:位于 scripts/raw/ 目录,仅用于透明展示数据的收集和归一化过程,不是日常使用的必需品。
  • 必备工具:Python 3、pandoc、curl。

许可证

  • Lustre 源代码:采用 GPL-2.0 许可证。
  • 文档和 JIRA 数据:来源于 Lustre 项目的公共资源。
搜集汇总
数据集介绍
main_image_url
构建方式
面向高性能计算领域中广泛应用的并行分布式文件系统Lustre,为满足技术文档检索与代码分析的需求,co-lustre数据集系统地整合了来自三大官方知识源的异构数据。构建过程首先通过脚本从Whamcloud的JIRA服务器并行下载XML格式的问题追踪记录,利用curl实现批量获取;同时获取DocBook格式的官方手册源码与MediaWiki格式的完整维基页面导出文件。原始数据经由专门开发的转换工具链统一处理:JIRA XML经Python脚本剥离HTML标签并提取状态、优先级、指派者等元数据后生成结构化纯文本及TSV索引;DocBook手册章节借助Pandoc工具完成格式转换;维基XML则通过定制脚本拆分为独立页面并去除Wiki标记,同时保留原始Wiki文本版本。Lustre内核源码以原样纳入最终数据集。所有处理后的结果统一存放于processed目录,而raw与scripts目录则完整记录了数据采集与规范化过程以确保可复现性。
特点
该数据集的核心优势在于其跨来源、多模态的信息覆盖与高度结构化的存储形式。它首次将Lustre文件系统的代码库、官方技术手册、社区维基以及JIRA问题追踪系统中的技术讨论无缝整合至一个统一的纯文本语料库中,为深度技术分析提供了前所未有的数据基础。每个JIRA问题被转换为包含键、状态、优先级、类型、指派者以及完整描述与评论的独立文件,同时辅以TSV格式的索引表格,便于快速筛选与批量检索。手册章节按主题命名,维基页面以标题组织,并与原始Wiki标记版本并行存放,既满足了文本挖掘的需求,又保留了原始格式信息。这种设计兼顾了机器的可解析性与人工阅读的便捷性,使得数据集在技术文档检索、代码注释分析、系统故障模式研究等场景中具有极高的实用价值。
使用方法
使用co-lustre数据集时,用户可直接聚焦于processed目录中的结构化纯文本文件,无需关注原始格式的复杂转换。对于JIRA分析,可先通过index.tsv文件按照键值、状态、优先级等维度快速过滤目标问题,再定位至对应的txt文件获取完整内容;利用grep等命令行工具可跨所有文件执行关键词搜索,实现技术要点的即时定位。手册与维基文本已按主题或页面标题整理为命名清晰的独立文件,适合直接导入文本分析框架或构建基于语言模型的检索增强系统。需要自定义数据范围的高级用户,可通过scripts目录中的脚本重现整个构建流程,或修改参数以获取特定版本的数据子集。数据集定期与上游数据源同步更新,确保持续反映Lustre生态的最新发展。
背景与挑战
背景概述
在当今高性能计算(HPC)领域,Lustre分布式并行文件系统凭借其卓越的扩展性与吞吐量,成为众多大规模计算集群的核心存储基石。然而,Lustre知识体系的碎片化问题长期困扰着研究人员与运维工程师——官方手册、JIRA问题追踪、Wiki文档及源代码分散于多个平台,缺乏统一的检索与分析入口。为弥合这一缺口,Ellis Wilson于近年主导构建了co-lustre语料库,该系统性地收集并归一化处理了Whamcloud JIRA(LU与LUDOC项目)、DocBook格式官方手册、Lustre Wiki以及Git仓库中的源代码,最终转换为可搜索的纯文本数据集。该工作不仅为Lustre的故障诊断、系统调优与学术研究提供了便捷的参考资源,更推动了HPC文件系统领域知识聚合与自然语言处理交叉研究的发展。
当前挑战
co-lustre的建设面临多重挑战。首先是领域问题层面,Lustre系统在超大规模部署中常遭遇配置复杂、调试困难、性能瓶颈等核心难题,而现有知识分散的特征使得跨源检索与关联分析效率低下,亟需一个结构化、可查询的语料库作为认知基础设施。其次在构建过程中,技术难点尤为突出:JIRA数据需通过并行HTTP请求逐一下载XML导出,并剥离HTML标签以保留结构化元数据;官方手册的DocBook格式依赖Pandoc进行多级转换;MediaWiki XML导出包含大量模板与标记,需定制脚本实现页面拆分与纯文本清洗。此外,多源数据的版本同步、编码一致性以及GPL-2.0许可协议的合规性处理,均增加了项目维护的复杂度与工作负载。
常用场景
经典使用场景
在高性能计算(HPC)领域,Lustre分布式并行文件系统作为存储基石,其运维与调优涉及大量分散的文档、代码和问题追踪记录。co-lustre数据集通过系统整合Lustre官方手册、Wiki页面、JIRA工单及源代码,构建了一个结构化、可搜索的纯文本语料库。研究人员可借助此语料库进行信息检索、知识图谱构建或自然语言处理任务,例如通过查询JIRA工单中的状态与优先级分析系统Bug的演化规律,或对比Wiki与手册内容以评估文档一致性,从而为Lustre生态的自动化运维与智能问答提供数据基础。
解决学术问题
该数据集主要解决了HPC存储系统研究中知识碎片化与可复现性不足的痛点。传统Lustre研究常依赖单一数据源(如仅分析源代码或用户手册),难以全面捕捉系统行为与社区实践。co-lustre通过多源数据融合,支持对系统生命周期(从代码提交到文档更新再到Bug报告)的纵向分析。例如,学者可基于JIRA工单的时间戳与分类标签,量化不同版本中功能特性与稳定性缺陷的分布,进而提出更精准的故障预测模型。其公开的预处理流程与索引文件(如TSV格式的工单元数据)更提升了实验的可复现性,推动了HPC领域数据驱动型研究的标准化。
衍生相关工作
基于co-lustre已衍生出多项代表性工作。例如,有研究者利用其JIRA工单文本训练了针对Lustre的Bug分类器,能够在代码审查阶段自动标记高风险补丁;另有团队基于手册与Wiki的文本相似度分析,生成了文档一致性报告,并提交给上游维护者以修复过时内容。在信息检索方向,co-lustre被用作测试基准,验证针对技术文档的密集检索模型(如基于BERT的微调方案)。此外,该数据集的结构化设计(如TSV索引)启发了其他开源项目(如HDFS、Ceph)构建类似的跨源语料库,形成了HPC存储系统知识管理的通用方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作