openpecha/BoCorpus
收藏Hugging Face2026-04-02 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/openpecha/BoCorpus
下载链接
链接失效反馈官方服务:
资源简介:
---
tags:
- tibetan
- classical-tibetan
- buddhist-texts
- corpus
- openpecha
license: mit
language:
- bo
datasets_info:
- config_name: default
features:
- name: id
dtype: string
- name: collection
dtype: string
- name: filename
dtype: string
- name: text
dtype: string
- name: char_count
dtype: int64
---
# BoCorpus
A comprehensive Tibetan corpus dataset for language model training and NLP research.
## Dataset Description
BoCorpus is a curated collection of classical Tibetan texts compiled from multiple digital collections. The dataset is designed for training language models and conducting research in Tibetan natural language processing.
### Collections Included
The corpus contains texts from the following collections:
- **Bon Kangyur**: 151 texts
- **Derge Kangyur**: 103 texts
- **Derge Tengyur**: 213 texts
- **DharmaEbook**: 98 texts
- **Pagen Project**: 1 texts
- **Tsadra Collection**: 266 texts
- **འབྲི་ལུགས་བང་མཛོད་སྐོར་ལྔ།**: 136 texts
- **རིན་ཆེན་གཏེར་མཛོད་ཆེན་མོ།**: 71 texts
### Data Statistics
- **Total records**: 1039
- **Total characters**: 603,325,999
- **Average characters per text**: 580,679
## Dataset Schema
| Column | Type | Description |
|--------|------|-------------|
| `id` | string | Unique UUID4 identifier for each record |
| `collection` | string | Name of the source collection |
| `filename` | string | Original filename (without extension) |
| `text` | string | Full text content with all line breaks removed |
| `char_count` | int64 | Total number of characters in the text |
## Usage
### Loading with HuggingFace Datasets
```python
from datasets import load_dataset
dataset = load_dataset("openpecha/BoCorpus", split="train")
# Access a single example
example = dataset[0]
print(f"Collection: {example['collection']}")
print(f"Characters: {example['char_count']}")
print(f"Text preview: {example['text'][:100]}...")
```
### Loading with Pandas
```python
import pandas as pd
df = pd.read_parquet("bo_corpus.parquet")
print(df.head())
```
### Loading with PyArrow
```python
import pyarrow.parquet as pq
table = pq.read_table("bo_corpus.parquet")
df = table.to_pandas()
```
## Data Preparation
The texts in this dataset have undergone the following preprocessing:
1. **Newline removal**: All newline characters (`\n`) are removed to create continuous text strings
2. **UUID assignment**: Each text receives a unique UUID4 identifier
3. **Character counting**: Total character count is computed for each text
4. **Collection tagging**: Each record is tagged with its source collection name
## Citation
If you use this dataset in your research, please cite:
```bibtex
@dataset{bocorpus,
title = {BoCorpus: A Tibetan Text Corpus},
author = {OpenPecha},
year = {2024},
url = {https://huggingface.co/openpecha/BoCorpus}
}
```
## License
This dataset is released under the MIT License.
## Acknowledgments
This corpus was prepared by [OpenPecha](https://openpecha.org) as part of their mission to make Tibetan Buddhist texts accessible for digital research and AI applications.
提供机构:
openpecha
搜集汇总
数据集介绍

构建方式
在藏文文献数字化保护的背景下,BoCorpus数据集通过系统化的整理流程构建而成。其文本源自多个权威的藏文数字典藏,包括《苯教大藏经》、《德格大藏经》及《德格丹珠尔》等经典藏传佛教文献集合,同时整合了DharmaEbook、Tsadra Collection等现代数字资源。构建过程中,每一篇文本均被赋予唯一的UUID4标识符,并移除了所有换行符以形成连贯的字符串,随后精确统计字符数量,并依据来源典藏进行标记归类,最终形成了包含1039条记录、总字符数超过6亿的规范化语料库。
使用方法
为便于学术研究与应用开发,BoCorpus提供了多样化的数据加载方式。用户可通过Hugging Face Datasets库直接加载,快速获取训练所需的文本数据流;亦可使用Pandas或PyArrow读取Parquet格式的本地文件,以便于进行灵活的数据分析与预处理。数据集已预先移除了换行符,建议研究者根据具体任务需求,如语言模型预训练、文本分类或机器翻译,进一步实施分词、向量化等定制化处理。该数据集遵循MIT许可协议,支持在注明出处的前提下自由用于各类非商业与学术研究项目。
背景与挑战
背景概述
在藏语自然语言处理领域,古典藏文文本的数字化与语料库构建一直是学术研究的基础性工作。BoCorpus数据集由OpenPecha机构于2024年发布,旨在为藏语语言模型训练和自然语言处理研究提供一个全面、规范的文本集合。该数据集汇集了《苯教甘珠尔》、《德格版甘珠尔》、《德格版丹珠尔》以及多个数字收藏中的古典藏文文献,共计1039篇文本,字符总量超过6亿。其核心研究问题聚焦于解决藏语,特别是古典藏文,在人工智能时代面临的数据稀缺与标准化挑战,通过系统化的文本整理与预处理,为藏语信息处理、机器翻译、文本分析等下游任务奠定了坚实的数据基础,对推动藏语文化遗产的数字化保存与智能技术应用具有显著影响力。
当前挑战
BoCorpus数据集所针对的领域挑战在于古典藏文自然语言处理,该语言因其复杂的语法结构、丰富的佛教哲学术语以及历史文献的书写变体,使得自动分词、语义理解和机器翻译等任务面临巨大困难。构建过程中的挑战则体现在多个方面:首先,原始文本分散于多个独立的数字收藏中,格式各异且质量参差不齐,需要进行大规模的收集、清洗与标准化整合;其次,古典藏文包含大量梵文音译词、缩写符号和古字体,准确的字符识别与统一编码处理是技术难点;此外,为确保语料库的连续性与适用性,所有文本中的换行符均被移除,这一预处理虽有利于语言模型训练,但也可能损失部分原本文献的段落结构信息,对某些细粒度研究构成潜在限制。
常用场景
经典使用场景
在藏语自然语言处理领域,BoCorpus数据集为语言模型的训练提供了关键资源。该数据集整合了《甘珠尔》、《丹珠尔》等经典藏文佛教文献,以及多个数字化收藏的文本,形成了大规模、高质量的语料库。研究人员利用其丰富的文本内容,能够训练出具备藏语理解和生成能力的预训练模型,为后续的机器翻译、文本摘要等任务奠定坚实基础。
解决学术问题
BoCorpus有效缓解了藏语数字人文研究中高质量语料稀缺的困境。该数据集通过系统化收集和预处理,为藏语语言模型的开发、历史文献的计量分析以及跨语言信息检索等研究提供了标准化数据支持。其意义在于推动了藏语计算语言学的发展,使得基于深度学习的文本分析方法得以应用于古典藏文,促进了传统文化资源的数字化保护与学术探索。
实际应用
在实际应用中,BoCorpus支撑了多种藏语智能信息处理系统的构建。基于该数据集训练的模型,可应用于藏文古籍的数字化整理、自动标点与分词、以及面向现代藏语的机器翻译系统开发。这些应用有助于降低藏文文献的研究门槛,辅助学者进行文本分析与知识发现,并为教育、出版等领域提供自动化工具,具有显著的文化传承价值。
数据集最近研究
最新研究方向
在藏语自然语言处理领域,BoCorpus作为涵盖古典藏文佛教文献的大规模语料库,正推动着前沿研究方向的发展。该数据集为低资源语言模型训练提供了关键支撑,促进了跨语言预训练技术的探索,特别是在多模态古籍数字化与智能分析方面,结合光学字符识别与语义理解技术,助力藏文文化遗产的保存与传播。随着全球对少数语言数字人文研究的关注升温,BoCorpus的应用已延伸至宗教文本计算语言学分析,为理解佛教哲学概念体系提供了数据基础,并在多语言大模型融合中扮演重要角色,增强了语言技术的包容性与多样性。
以上内容由遇见数据集搜集并总结生成



