MLMRL-Hub

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/VoiceOfML/MLMRL-Hub

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个关于马列毛主义与革命左翼资料的仓储中心和图书馆，包含多个不同主题的子仓库。主要内容包括未重复的马列毛主义资料（319GB）、各书库备份（91GB）、马列之声电子书（867GB）、封禁的苏联资料（194GB）、导师著作（53GB）、未现于互联网的日语资料（29GB）、珍贵的文化大革命遗留教材（24GB）、推荐书单（2GB）、未现于互联网的朝鲜语资料以及OCR数据。数据集旨在为研究者和学习者提供丰富的革命历史和学习资料。用户可以通过提供的目录文件进行高效查找。

创建时间：

2026-04-16

原始信息汇总

数据集概述

基本信息

数据集名称：MLMRL-Hub
托管平台：Hugging Face Datasets
许可证：GPL-3.0

核心内容

数据主题：马列毛主义与革命左翼相关的未重复资料。
数据规模：约319GB。
数据处理：仅经过一次MD5检测，压缩包内容未去重。

数据获取与使用

完整克隆（不含大文件）：可使用命令 GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/VoiceOfML/MLMRL-Hub 仅下载文件指针（文件名信息）。
数据目录：主数据存储在 https://huggingface.co/datasets/VoiceOfML/MLMRL-Hub/tree/main。
辅助文件：提供“直接目录.txt”与“树形目录.txt”文件以辅助查找，地址分别为：
- https://huggingface.co/datasets/VoiceOfML/MLMRL-Hub/blob/main/%E7%9B%B4%E6%8E%A5%E7%9B%AE%E5%BD%95.txt
- https://huggingface.co/datasets/VoiceOfML/MLMRL-Hub/blob/main/%E6%A0%91%E5%BD%A2%E7%9B%AE%E5%BD%95.txt

关联数据集

MLMRL-Library：各书库备份，约91GB。地址：https://huggingface.co/datasets/VoiceOfML/MLMRL-Library/tree/main
VOMEBOOK：马列之声电子书，约867GB。地址：https://huggingface.co/datasets/VoiceOfML/VOMEBOOK/tree/main
SovMaterials：封禁的苏联资料，约194GB。地址：https://huggingface.co/datasets/VoiceOfML/SovMaterials/tree/main
Teachers：导师著作，约53GB。地址：https://huggingface.co/datasets/VoiceOfML/Teachers/tree/main
Japanese-Materials：未现于互联网的日语资料，约29GB。地址：https://huggingface.co/datasets/VoiceOfML/Japanese-Materials/tree/main
GPCREducation：珍贵的文化大革命遗留教材，约24GB。地址：https://huggingface.co/datasets/VoiceOfML/GPCREducation/tree/main
A-Historical-Learning-Data：推荐书单，约2GB。地址：https://huggingface.co/datasets/VoiceOfML/A-Historical-Learning-Data/tree/main
Korea-Materials：未现于互联网的朝鲜语资料。地址：https://huggingface.co/datasets/VoiceOfML/Korea-Materials/tree/main
RevOCR：OCR数据。地址：https://huggingface.co/datasets/VoiceOfML/RevOCR/tree/main

其他信息

问题反馈：建议在 https://huggingface.co/datasets/VoiceOfML/MLMRL-Hub/discussions 提出。
友情链接：
- https://github.com/ProletRevDicta/Prolet
- https://github.com/banned-historical-archives/banned-historical-archives.github.io
- https://huggingface.co/datasets/banned-historical-archives/banned-historical-archives

搜集汇总

数据集介绍

构建方式

在数字人文与历史档案保存的背景下，MLMRL-Hub数据集通过系统化地收集与整合马列毛主义及革命左翼相关的文献资源构建而成。其构建过程侧重于从多个分散的仓储中心与图书馆中汇集资料，并采用MD5哈希值进行初步去重检测，确保内容的唯一性。数据集以原始文件形式存储，未对压缩包内部内容进行二次去重，从而保留了资料的完整性与原始状态，总规模达到319GB，为研究者提供了一个较为集中的历史文献档案库。

特点

该数据集的核心特点在于其专题性与历史档案的稀缺性，专注于马列毛主义与革命左翼领域的文献，涵盖了书籍、教材、档案及多种语言资料。数据集通过提供直接目录与树形目录文本文件，增强了内容的可检索性与组织结构。此外，它作为更大资源网络的一部分，与多个关联仓库相互链接，共同构成一个多层次、多主题的数字档案生态系统，为学术研究提供了丰富且相互关联的原始材料。

使用方法

为有效利用该数据集，用户可通过Git命令配合环境变量设置，仅克隆文件指针以快速获取元数据，从而避免直接下载大型文件。在具体研究中，可借助提供的目录文件进行内容定位与筛选。数据集适用于数字人文、历史学、政治学等领域的定性或定量分析，例如文本挖掘、历史文献比较或意识形态研究。用户需注意遵守相关许可协议，并通过指定渠道进行问题讨论与反馈。

背景与挑战

背景概述

在数字人文与历史档案学领域，大规模文本数据集的构建对于保存与传播特定意识形态文献具有关键意义。MLMRL-Hub数据集由VoiceOfML团队创建，旨在系统整合马列毛主义及革命左翼相关的多语言文献资源，涵盖了从经典理论著作到历史档案的广泛材料。该数据集的核心研究问题聚焦于如何通过数字化手段聚合分散的、有时面临访问限制的历史与理论文本，为学术研究与社会运动提供可持续的数据基础。其影响力不仅体现在为相关领域的文本挖掘与内容分析提供了结构化数据支持，更促进了边缘化历史资料的保存与跨学科研究。

当前挑战

该数据集致力于解决历史与政治文本数字化领域的核心挑战，即如何高效整合多源、多语言且规模庞大的文献资源，并确保其可访问性与完整性。在构建过程中，面临多重技术难题：首先，数据去重与质量控制需平衡效率与准确性，尤其是在压缩包内容未完全去重的情况下；其次，多语言文本（如日语、朝鲜语资料）的标准化处理与元数据标注增加了复杂性；此外，大规模数据（总容量超过1.5TB）的存储、分发与索引要求高效的工程方案，例如通过指针文件优化克隆流程。这些挑战共同指向了数字化档案库在可扩展性与可持续性方面的深层需求。

常用场景

经典使用场景

在数字人文与历史档案研究领域，MLMRL-Hub数据集作为马列毛主义与革命左翼文献的数字化仓储，其经典使用场景聚焦于学术文本的深度挖掘与分析。研究者常利用该数据集进行大规模历史文献的语料库构建，支持主题建模、术语演变追踪以及意识形态话语的量化研究，为思想史与政治理论提供数据驱动的实证基础。

解决学术问题

该数据集有效解决了历史文献数字化保存与可及性不足的学术难题，尤其针对边缘化或受限政治文献的散佚风险。通过系统整合多语言革命左翼资料，它促进了跨区域比较研究，助力学者探讨意识形态传播、历史叙事建构与社会运动演变等核心问题，填补了传统档案学在特定领域的数据空白。

衍生相关工作

围绕该数据集衍生的经典工作包括基于其语料的政治文本分类模型、历史事件时间线重构工具，以及跨文献库的语义检索系统。这些研究不仅推动了计算社会科学方法在历史分析中的应用，还催生了如‘革命文献多模态分析框架’等创新方向，深化了数据科学与人文研究的交叉融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集