SLiM-CZ-V1
收藏SLiM-CZ-V1 Czech Text Corpus 数据集概述
数据集基本信息
- 数据集名称:SLiM-CZ-V1 Czech Text Corpus
- 创建者:Filip Sedivy
- 语言:捷克语 (cs)
- 许可协议:MIT License
- 数据规模:100K<n<1M
- 任务类别:文本生成、掩码填充
- 标签:czech、language-model、transformer、nlp
数据集描述
SLiM-CZ-V1捷克语文本语料库包含经过预处理的捷克语文本数据,用于训练SLiM-CZ-V1(捷克斯拉夫语言集成微模型)。该数据集是一个小型基于Transformer的语言模型,专为捷克语文本生成和语言建模任务设计。数据集已通过一致的清洗、分词和序列创建进行预处理,以确保为捷克语语言模型提供高质量的训练数据。
数据集来源
- 代码仓库:https://github.com/filipsedivy/SLiM-CZ-V1
- 模型仓库:https://huggingface.co/filipsedivy/SLiM-CZ-V1
用途
直接用途
- 训练中小型捷克语语言模型(3M-125M参数)
- 捷克语自回归文本生成
- 捷克语NLP语言建模研究
- 针对捷克语特定任务微调预训练模型
- 理解基于Transformer的语言模型的教育目的
- 推荐用途:训练SLiM-CZ-V1模型(Tiny、Small、Medium、Large变体)
超出范围的用途
- 无人监督的生产系统
- 医疗、法律或财务决策
- 生成有害或非法内容
- 未经验证的事实准确性至关重要的应用
- 训练非捷克语语言模型
数据结构
数据格式
数据集以JSON格式提供,为分词ID序列列表: json [ [15, 32, 45, 67, 89, 12, 34, 56, 78, 90, 23, 45, ...], [32, 45, 67, 89, 12, 34, 56, 78, 90, 23, 45, 67, ...], [45, 67, 89, 12, 34, 56, 78, 90, 23, 45, 67, 89, ...], ... ]
每个序列是一个整数分词ID列表,长度为seq_len + 1:
- 前
seq_len个分词作为输入 - 后
seq_len个分词作为标签(偏移1个位置)
示例
当seq_len=512时:
- 每个序列有513个分词
- 输入:分词[0:512]
- 目标:分词[1:513]
- 创建“下一个分词预测”任务
数据文件
processed_data/ ├── train.json # 训练序列(列表的列表) ├── val.json # 验证序列(列表的列表) ├── test.json # 测试序列(列表的列表) ├── tokenizer.json # 分词器词汇表和映射 ├── stats.json # 数据集统计信息 └── data_config.json # 预处理配置
数据划分
| 划分 | 百分比 | 近似序列数 |
|---|---|---|
| 训练集 | 90% | ~90,000-900,000 |
| 验证集 | 5% | ~5,000-50,000 |
| 测试集 | 5% | ~5,000-50,000 |
确切数字取决于源语料库大小和配置。
数据集创建
创建理由
- 在消费级硬件上运行高效捷克语语言模型
- 生成具有正确形态和句法的连贯捷克语文本
- 作为领域特定微调的基础
- 以可访问的模型规模支持捷克语NLP研究
- 提供学习语言模型的教育资源
源数据
数据收集与处理
使用标准化流程创建数据集(参见prepare_data.py):
- 文件收集
- 递归扫描文本文件(.txt, .md, .rst, .py, .js, .html, .css, .json, .xml, .csv, .log, .c, .cpp, .java)
- 从多个捷克语文本源收集
- 文本清洗
- 使用正则表达式模式移除URL
- 移除电子邮件地址
- 空白字符规范化(多个空格→单个空格)
- 短行过滤(最少10个字符)
- 重复内容去重
- 分词
- 字符级分词(可配置)
- 特殊分词:
<pad>、<unk>、<bos>、<eos> - 构建具有最小频率阈值的词汇表
- 默认词汇表大小:10,000个分词
- 序列创建
- 具有可配置步长的重叠序列
- 默认:
seq_len=512,stride=256 - 每个序列为
seq_len + 1个分词(默认513个) - 确保序列间上下文保留
- 数据集划分
- 分层划分:90%训练集,5%验证集,5%测试集
- 使用固定种子(42)进行随机打乱以确保可复现性
源数据生产者
源数据来自公开可用的捷克语文本源:
- 捷克语维基百科文章(CC BY-SA许可)
- 公共领域捷克语文献(古典作者)
- 捷克语新闻网站(允许重新分发)
- 捷克语技术文档(开源项目)
- 捷克语博客和论坛(公开访问) 所有源均尊重版权法和许可要求。不包含个人或私人通信。
标注
该数据集除分词外不包含任何额外标注。专为无监督语言建模设计。
个人和敏感信息
已尽力移除个人信息:
- 电子邮件地址:预处理期间自动移除
- URL:预处理期间自动移除
- PII筛选:应用基本过滤 但无法保证完全移除个人信息。用户应注意可能存在残留的个人信息,并为敏感应用实施额外的安全措施。
偏见、风险和限制
已知限制
技术限制:
- 字符级分词:对捷克语形态不理想(生产环境考虑BPE/WordPiece)
- 固定序列长度:截断长文档
- 有限词汇覆盖:10,000个分词可能遗漏罕见词
- 有限覆盖:捷克语方言和地区变体
- 静态数据集:不包含近期事件或信息
质量限制:
- 文本质量因来源而异
- 网络抓取内容可能存在噪声
- 未完整代表所有捷克语领域
- 可能未充分捕捉口语或非正式捷克语
偏见
数据集可能包含各种偏见: 来源偏见:
- 正式/书面捷克语与非正式/口语捷克语的比例过高
- 偏向某些主题(如技术、百科全书内容)
- 反映文本撰写时间的时间偏见 人口统计偏见:
- 可能反映源文本作者的观点
- 少数观点可能代表性不足
- 标准捷克语与地区变体的地理偏见 内容偏见:
- 可能延续源数据中存在的刻板印象
- 源数据选择可能存在的政治或意识形态偏见
- 不同主题领域代表性不均
引用
BibTeX: bibtex @misc{slim_cz_v1_dataset, title={SLiM-CZ-V1 Czech Text Corpus}, author={Filip Sedivy}, year={2025}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/datasets/filipsedivy/SLiM-CZ-V1}} }
APA: Filip Sedivy. (2025). SLiM-CZ-V1 Czech Text Corpus. Hugging Face. https://huggingface.co/datasets/filipsedivy/SLiM-CZ-V1
数据集统计信息
- 序列格式:列表的列表(无键,仅分词ID)
- 序列长度:
seq_len + 1个分词(默认:513) - 词汇表大小:可配置(默认:10,000)
- 分词方式:字符级(每个字符=1个分词)
- 总分词数:~100M-1B(取决于源语料库)
- 语言:仅捷克语
- 文件格式:JSON(纯列表)
质量保证
数据集经过多项质量检查:
- 重复检测和移除
- 最小行长度过滤(10个字符)
- 字符编码验证(UTF-8)
- 分词频率分析
- 序列长度验证(所有序列均为
seq_len + 1) - 划分完整性检查
数据集卡片联系人
- GitHub Issues:https://github.com/filipsedivy/SLiM-CZ-V1/issues
- Hugging Face Discussions:https://huggingface.co/datasets/filipsedivy/SLiM-CZ-V1/discussions




