pali-tripitaka-thai-script-siamrath-version-characters-fixed-with-chatgpt-4o

Hugging Face2025-02-27 更新2025-02-28 收录

下载链接：

https://huggingface.co/datasets/mgprogm/pali-tripitaka-thai-script-siamrath-version-characters-fixed-with-chatgpt-4o

下载链接

链接失效反馈

官方服务：

资源简介：

巴利语三藏，采用泰国文字的西拉姆拉特版本，共45册。这个数据集已经通过LLM模型GPT-4o进行了文字校对和修正，包括拼写、标点、格式等方面的调整。

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

该数据集的构建以《巴利三藏》的泰语版本为基础，利用LLM模型GPT-4o进行文本校对和修正。原始文本来源于www.learntripitaka.com，经过对文本中的拼写、标点、空格以及书写格式进行系统性的检查和调整，确保文本的准确性、可读性和一致性。

特点

数据集的特点在于其文本质量经过机器学习模型辅助校验，提高了文本的准确性。它包含了45卷《巴利三藏》的泰语版本，涵盖了律藏、经藏和论藏等多个部分，对于研究巴利语文献和泰语佛教文献具有重要价值。

使用方法

背景与挑战

背景概述

pali-tripitaka-thai-script-siamrath-version-characters-fixed-with-ChatGPT-4o数据集，是一项针对泰国巴利三藏文本的整理与修正工作。该数据集由泰国版的巴利三藏文本构成，共收录了45册，涵盖了佛教经典的主要部分。该数据集的创建旨在通过使用LLM模型GPT-4o对文本进行校对，以修正其中的文字错误，包括拼写、标点、格式等方面，确保文本的准确性。此数据集的建立不仅有利于巴利语和泰语的语言学研究，也对佛教文献的数字化保存与传播具有重要意义。

当前挑战

在构建该数据集的过程中，研究人员面临了多个挑战。首先，巴利三藏文本的数字化本身就是一个复杂的过程，需要确保文本的完整性和准确性。其次，由于巴利语和泰语在拼写和语法上存在差异，对文本的校对和修正需要高度的语言学专业知识。此外，使用LLM模型GPT-4o进行自动校对时，如何确保模型能够准确理解和修正文本中的错误，也是一个技术上的挑战。最后，数据集的构建还需考虑到版权问题，以及如何使数据集能够被广泛且合法地使用。

常用场景

经典使用场景

该数据集为巴利语三藏的泰语版本，经过GPT-4o模型的校对和修正，其经典使用场景主要在于学术研究，尤其是对于佛教文献学、比较宗教学以及泰语语言学等领域的研究者而言，它提供了一个准确且可靠的文本资源，可用于文本分析、语言学研究以及宗教文化的深入探讨。

解决学术问题

数据集通过机器学习模型对文本进行精确校对，解决了传统文本处理中存在的准确性问题，减少了人工校对的繁琐工作，提高了学术研究的效率。同时，该数据集的标准化处理有助于不同语言背景的研究者进行跨语言的比较研究，从而促进了学术交流和文化理解。

衍生相关工作

基于该数据集，研究者可以开展进一步的文本挖掘、语义分析以及翻译研究等。此外，该数据集的构建过程也为其他语言的文献数字化和校对工作提供了宝贵的参考和借鉴，推动了数字人文领域的发展。

以上内容由遇见数据集搜集并总结生成

数智校对（政府集约化平台插件）

数智校对（贵州省政府网站集约化平台）面向党政网站发稿中的书写错误，依据媒体，出版等领域规范和业务标准，利用自然语言理解、文本挖掘和机器学习等技术，对文本开展深度语义分析，实现文本书写中字词语法、政治类、禁用词、敏感词等错误的自动识别，并依据识别结果提出修正建议。该服务为各行业的写稿辅助、内容审阅等实际行业场景提供支撑，全面提升文稿的内容质量。

贵阳数据交易所2021-10-26 更新610

DharmaBench

DharmaBench是一个多任务基准测试套件，用于评估大型语言模型在梵文和古典藏文历史文献中的分类和检测任务。包含13个子任务，覆盖了隐喻和比喻检测、引语检测、诗歌/散文分类、韵律分类以及正文/评注对齐等挑战，这些任务反映了文献学者、哲学和宗教历史学家以及数字人文研究者研究佛教文本传统时面临的关键挑战。

Hugging Face2025-10-30 更新370

argilla/databricks-dolly-15k-curated-en

该数据集包含多个记录，每个记录包括类别、指令、上下文和对指令的响应。项目的目标是修正这些指令、输入和响应，以确保它们具有最高质量，并且与它们所属的任务类别相匹配。所有文本都应清晰且包含真实信息，响应应尽可能完整但简洁。

Hugging Face2023-10-02 更新120

数智校对

数智校对面向文稿、通告等文本中的书写错误，依据媒体，出版等领域规范和业务标准，利用自然语言理解、文本挖掘和机器学习等技术，对文本开展深度语义分析，实现文本书写中字词语法、政治类、禁用词、敏感词等错误的自动识别，并依据识别结果提出修正建议。该服务为各行业的写稿辅助、内容审阅等实际行业场景提供支撑，全面提升文稿的内容质量。

贵阳数据交易所2021-10-26 更新430

铀媒

铀媒通过文字差错校对、不规范表述校对、不良信息检测、发布安全管理等功能，全面保障政企日常办公场景中文字准确性、合法性、合规性。同时铀媒深入新媒体发布管理、数据分析、客户关系管理、多部门协同办公等新媒体运营工作环节，助力政企客户实现对多平台新媒体账号的统一化管理，切实满足数据实时化、标签透明化、任务可追踪、考核可量化等多方面需求。

西部数据交易中心2023-05-06 更新290