five

tripitaka-siamrath

收藏
Hugging Face2024-12-14 更新2024-12-15 收录
下载链接:
https://huggingface.co/datasets/uisp/tripitaka-siamrath
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含45卷泰国版的《三藏经》,以多个CSV文件的形式呈现。每个CSV文件代表一本书的特定页面,文件名和内容与书籍的卷数和页码相关联。每本书的详细信息包括书名和页数。

This dataset includes 45 volumes of the Thai-edition Tripitaka, stored in multiple CSV files. Each CSV file corresponds to a specific page of a book, with its filename and content associated with the volume and page number of the corresponding book. Detailed information for each book covers its title and total page count.
创建时间:
2024-12-14
原始信息汇总

数据集概述

语言

  • 泰语

数据集描述

该数据集包含45卷泰文版的《三藏经》(Tripitaka Siamrath),以多文件CSV格式提供。

文件结构

数据集由多个CSV文件组成,每个文件对应一本书的某一页。例如:

  • 01/010001.csv: 第1卷第1页
  • 01/010002.csv: 第1卷第2页
  • ...
  • 02/020001.csv: 第2卷第1页

每卷的描述

  • 第1卷(754页):《法藏部》第1卷 大藏 初分
  • 第2卷(717页):《法藏部》第2卷 大藏 二分
  • 第3卷(328页):《法藏部》第3卷 比丘尼藏
  • 第4卷(304页):《法藏部》第4卷 大品藏 第1部分
  • 第5卷(278页):《法藏部》第5卷 大品藏 第2部分
  • 第6卷(328页):《法藏部》第6卷 小品藏 第1部分
  • 第7卷(279页):《法藏部》第7卷 小品藏 第2部分
  • 第8卷(517页):《法藏部》第8卷 譬喻
  • 第9卷(383页):《经藏》第1卷 论部 戒品
  • 第10卷(261页):《经藏》第2卷 论部 大品
  • 第11卷(288页):《经藏》第3卷 论部 小品
  • 第12卷(430页):《经藏》第4卷 中部 根本说一切有部
  • 第13卷(518页):《经藏》第5卷 中部 中分
  • 第14卷(413页):《经藏》第6卷 中部 增支部
  • 第15卷(289页):《经藏》第7卷 相应部 戒品
  • 第16卷(288页):《经藏》第8卷 相应部 本生品
  • 第17卷(310页):《经藏》第9卷 相应部 蕴品
  • 第18卷(402页):《经藏》第10卷 相应部 界品
  • 第19卷(469页):《经藏》第11卷 相应部 大品
  • 第20卷(290页):《经藏》第12卷 增支部 一、二、三分
  • 第21卷(240页):《经藏》第13卷 增支部 四分
  • 第22卷(407页):《经藏》第14卷 增支部 五、六分
  • 第23卷(379页):《经藏》第15卷 增支部 七、八、九分
  • 第24卷(333页):《经藏》第16卷 增支部 十、十一分
  • 第25卷(418页):《经藏》第17卷 大品 大品 初分
  • 第26卷(447页):《经藏》第18卷 大品 大品 二分
  • 第27卷(462页):《经藏》第19卷 大品 大品 初分
  • 第28卷(318页):《经藏》第20卷 大品 大品 二分
  • 第29卷(494页):《经藏》第21卷 大品 大品 初分
  • 第30卷(331页):《经藏》第22卷 大品 大品 二分
  • 第31卷(364页):《经藏》第23卷 大品 大品 初分
  • 第32卷(428页):《经藏》第24卷 大品 大品 初分
  • 第33卷(408页):《经藏》第25卷 大品 大品 二分
  • 第34卷(339页):《阿毗达摩藏》第1卷 法相品
  • 第35卷(532页):《阿毗达摩藏》第2卷 品类品
  • 第36卷(188页):《阿毗达摩藏》第3卷 界论 人品
  • 第37卷(842页):《阿毗达摩藏》第4卷 论品
  • 第38卷(731页):《阿毗达摩藏》第5卷 业品 初分
  • 第39卷(525页):《阿毗达摩藏》第6卷 业品 二分
  • 第40卷(818页):《阿毗达摩藏》第7卷 大品 初分
  • 第41卷(674页):《阿毗达摩藏》第8卷 大品 二分
  • 第42卷(466页):《阿毗达摩藏》第9卷 大品 三分
  • 第43卷(574页):《阿毗达摩藏》第10卷 品 四分
  • 第44卷(659页):《阿毗达摩藏》第11卷 品 五分
  • 第45卷(474页):《阿毗达摩藏》第12卷 品 六分

使用示例

python import pandas as pd from datasets import load_dataset

指定数据文件

data_files = { "010001": "01/010001.csv", "010002": "01/010002.csv" } dataset = load_dataset("uisp/tripitaka-siamrath", data_files=data_files)

print("加载的数据集键:", dataset.keys()) # 应显示分割键,如 {010001, 010002}

将分割转换为pandas进行进一步处理

df_010001 = dataset[010001].to_pandas() print(df_010001.head())

df_010002 = dataset[010002].to_pandas() print(df_010002.head())

示例输出

加载的数据集键: dict_keys([010001, 010002]) Book Page LineNumber Text 0 1 1 1 พระวินัยปิฎก 1 1 1 2 เล่ม ๑ 2 1 1 3 มหาวิภังค์ ปฐมภาค 3 1 1 4 ขอนอบน้อมแด่พระผู้มีพระภาคอรหันตสัมมาสัมพุทธเจ... 4 1 1 5 เวรัญชกัณฑ์ Book Page LineNumber Text 0 1 2 1 เวรัญชพราหมณ์กล่าวตู่พระพุทธเจ้า 1 1 2 2 [๒] หลังจากนั้น เวรัญชพราหมณ์ได้ไปในพุทธสำนัก ... 2 1 2 3 พระผู้มีพระภาค ครั้นผ่านการทูลปราศรัยพอให้เป็น... 3 1 2 4 ที่ควรส่วนข้างหนึ่ง เวรัญชพราหมณ์นั่ง ณ ที่ควร... 4 1 2 5 ว่า ท่านพระโคดม ข้าพเจ้าได้ทราบมาว่า พระสมณะโค...

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为‘tripitaka-siamrath’,其构建方式基于泰国佛教经典《三藏》(Tripitaka)的暹罗版(Siamrath)。数据集由45卷组成,每卷内容被细分为多个CSV文件,每个文件对应一页内容。文件命名规则为‘卷号/页码.csv’,如‘01/010001.csv’代表第一卷的第一页。这种结构化的方式使得数据集便于管理和检索,尤其适合进行文本分析和语言处理研究。
使用方法
使用该数据集时,用户可以通过指定特定的CSV文件进行加载,利用Python的‘datasets’库进行数据读取和处理。例如,用户可以加载特定卷和页的CSV文件,并将其转换为Pandas DataFrame进行进一步分析。数据集的灵活性使得用户可以根据研究需求选择特定的文本片段进行深入研究,适用于语言学、文本分析和佛教研究等多个领域。
背景与挑战
背景概述
Tripitaka-Siamrath 数据集是由泰国佛教经典《三藏》(Tripitaka)的暹罗版(Siamrath)整理而成的多文件CSV数据集,包含45卷,每卷以CSV格式存储,涵盖了从第1卷到第45卷的内容。该数据集的创建旨在为研究者提供一个结构化的佛教经典文本资源,以便进行语言学、宗教研究和文化分析。该数据集的构建可能由泰国相关研究机构或学者主导,其核心研究问题涉及如何将传统佛教经典数字化并进行有效的文本分析。这一数据集对佛教研究、语言学以及文化传承领域具有重要意义,尤其是在数字化文本处理和跨学科研究方面。
当前挑战
Tripitaka-Siamrath 数据集在构建过程中面临多重挑战。首先,如何将传统佛教经典文本准确无误地数字化是一个技术难题,尤其是在处理古文字和复杂排版时。其次,数据集的结构化处理,即将每卷内容按页码和行号进行分割并存储为CSV格式,需要高度的精确性和一致性。此外,数据集的语言特性(主要是泰语)也为自然语言处理(NLP)带来了挑战,尤其是在词法分析、句法分析和语义理解方面。最后,数据集的规模和复杂性要求研究者具备跨学科的知识,包括佛教研究、语言学和计算机科学,以确保数据的有效利用和分析。
常用场景
经典使用场景
Tripitaka-Siamrath 数据集的经典使用场景主要集中在佛教文本的数字化研究与分析。通过该数据集,研究者可以对泰国佛教经典进行深入的语言学、历史学和文化学研究。例如,研究者可以利用该数据集进行文本分类、情感分析、主题建模等任务,从而揭示佛教文本中的语言特征、思想流派及其历史演变。
解决学术问题
该数据集为学术界提供了一个宝贵的资源,解决了佛教文本数字化和多语言研究中的诸多问题。首先,它为语言学家提供了丰富的泰语佛教文本语料,有助于研究泰语的语法、词汇和语义特征。其次,历史学家可以通过该数据集追溯佛教在泰国的发展历程,分析不同历史时期的佛教思想变迁。此外,文化学者可以利用该数据集探讨佛教文化在泰国社会中的影响与传播。
实际应用
在实际应用中,Tripitaka-Siamrath 数据集可广泛应用于佛教文化的传承与推广。例如,宗教机构可以利用该数据集开发佛教文本的数字化阅读平台,方便信众学习和研究佛教经典。同时,教育机构可以将该数据集用于语言学和宗教课程的教学,帮助学生深入理解泰语和佛教文化。此外,该数据集还可用于开发智能搜索和文本分析工具,提升佛教文本的检索效率和研究深度。
数据集最近研究
最新研究方向
在佛教文献研究领域,Tripitaka-Siamrath数据集的最新研究方向主要集中在数字化佛教经典的文本分析与语义理解上。该数据集包含了泰国版的《三藏经》,涵盖了丰富的佛教教义和哲学思想,为研究者提供了宝贵的文本资源。近年来,研究者们利用自然语言处理技术,探索如何从这些古老的文本中提取有价值的信息,并应用于现代佛教研究、文化传承以及跨学科的哲学探讨。此外,该数据集的数字化也为多语言翻译、文本对比分析以及历史文献的保存与传播提供了新的可能性,进一步推动了佛教文献研究的现代化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作