khmer-raw-text-3M
收藏数据集概述:nphearum/khmer-raw-text-3M
基本信息
- 数据集名称:nphearum/khmer-raw-text-3M
- 许可协议:Apache License 2.0
- 主要语言:高棉语(km)、英语(en)
- 数据规模:约50,000条完整记录,包含300万个文本片段(1M<n<10M)
- 创建者:Phearum Nop
- 资助方:自筹资金/独立研究
- 共享者:Phearum Nop
数据集简介
nphearum/khmer-raw-text-3M是一个大规模原始文本语料库,旨在支持大型语言模型(LLM)的预训练、持续预训练和领域适应。该数据集强调高棉语(一种历史上代表性不足的低资源语言)的覆盖,同时保留双语语境以支持跨语言学习。
主要用途
直接用途
- 大型语言模型的持续预训练
- 指令感知语言建模
- 主题条件文本生成
- 表示学习
- 训练能够适应任务上下文的智能体风格大型语言模型
任务类型词汇表
explanation– 信息性或教育性文本summarization– 浓缩或概述式文本analysis– 推理性内容classification– 主题或类别驱动的文本
数据结构
数据集包含为大型语言模型预训练和指令感知调优设计的原始及轻度整理的文本样本。
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
topic |
字符串 | 文本的高级主题或领域(例如:coding、education、technology、general) |
task_type |
字符串 | 预期的任务或使用类型(例如:explanation、summarization、classification、analysis) |
text |
字符串 | 主要的原始文本内容,使用高棉语或英语 |
数据示例
json { "topic": "geography", "task_type": "summarization", "text": "ភូមិសាស្ត្រ គឺជាការសិក្សាអំពីទេសភាព បរិស្ថាន និងសង្គមមនុស្ស និងការអភិវឌ្ឍន៍របស់វា។ វារួមបញ្ចូលទិដ្ឋភាពរូបវិទ្យា ដូចជាតំបន់អាកាសធាតុ ប្រព័ន្ធអេកូឡូស៊ី ក៏ដូចជាលក្ខណៈវប្បធម៌ដូចជាប្រពៃណី ភាសា ឬសូម្បីតែអង្គការនយោបាយ។ ការយល់ដឹងពីរបៀបដែលសមាសធាតុទាំងនេះមានអន្តរកម្មជាមួយគ្នាទៅវិញទៅមកបង្កើតបានជាផ្នែកសំខាន់មួយនៅក្នុងវិស័យអន្តរកម្មសិក្សានេះ ដែលរួមចំណែកដល់ការដោះស្រាយបញ្ហាទាក់ទងនឹងបញ្ហាចម្រុះទាក់ទងនឹងការគ្រប់គ្រងធនធាន និងនិរន្តរភាព។" }
数据集特点
- 内容类型:未标记的原始文本
- 文本领域:涵盖多个领域,包括常识、教育材料、公共信息和混合双语内容
- 标注情况:不包含人工标注
- 监督学习:不包含用于监督学习的显式标签,旨在作为语言模型训练的原始或弱结构化数据使用
创建过程
创建理由
为解决现代大型语言模型训练中大规模高棉语文本语料库稀缺的问题而创建。现有的多语言数据集往往对高棉语代表性不足或包含嘈杂的机器翻译文本。
数据来源与处理
- 来源:公开可用的来源
- 生产者:记者、教育工作者、公共机构、在线作者和贡献者
- 处理:应用了基本清洗(去重、Unicode规范化),移除了控制字符和不可见Unicode字符(如适用情况下的零宽空格),未进行激进过滤以保留语言多样性
- 工具:标准Python NLP工具和Hugging Face
datasets库
注意事项
个人与敏感信息
数据集可能包含公共文本中典型的附带个人引用。未有意收集敏感个人数据。建议用户在敏感上下文中部署基于此数据集训练的模型时应用额外的过滤。
偏见、风险与限制
- 高棉语变体可能代表性不均
- 某些领域可能在语料库中占主导地位
- 可能存在过时或不正确的 factual 信息
- 源文本中存在的文化和社会偏见可能被反映
使用建议
- 将此数据集与整理过的或特定任务的数据结合使用
- 在部署前进行安全性微调
- 针对专业应用时进行领域过滤
- 避免单独使用该数据集进行高风险应用
引用信息
BibTeX
bibtex @dataset{nphearum_khmer_raw_text_3M, author = {Phearum Nop}, title = {Khmer Raw Text Dataset (3M)}, year = {2026}, url = {https://huggingface.co/datasets/nphearum/khmer-raw-text-3M}, license = {Apache-2.0} }
APA
Phearum Nop. (2026). Khmer Raw Text Dataset (3M). Hugging Face. https://huggingface.co/datasets/nphearum/khmer-raw-text-3M
词汇表
- Raw text:未标记的自然语言文本
- CPT:持续预训练
- LLM:大型语言模型
联系信息
- 数据集卡片作者:Phearum Nop
- 邮箱:phearum.nop.kh@gmail.com
- Hugging Face个人主页:https://huggingface.co/nphearum




