five

泰语通用文本语料库

收藏
国家数据集管理服务平台2026-04-28 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=cff8693bda3fc225f56b064fcabd85c7
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集致力于为泰语大语言模型提供坚实的数据支撑,改善因数据量不足导致的模型输出不稳定问题。包含1.94亿条泰语文本,覆盖本地新闻生成、商务沟通及政府文件处理等实用场景。 与通用爬虫语料不同,本数据集针对泰语无空格书写、复杂声调符号及佛教文化词汇等特性进行了专项清洗与标注,保留关键语言特征的同时过滤低质量噪音内容。

This dataset aims to provide solid data support for Thai large language models (LLMs), addressing the unstable model output issues caused by insufficient training data. It contains 194 million Thai text instances, covering practical scenarios such as local news generation, business communication, and government document processing. Unlike general web-crawled corpora, this dataset has undergone targeted cleaning and annotation tailored to the unique characteristics of Thai, including its space-free writing system, complex tone marks, and Buddhist cultural vocabulary, while retaining key linguistic features and filtering out low-quality noisy content.
提供机构:
上海库帕思科技有限公司
创建时间:
2026-04-27
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个专为泰语大语言模型设计的文本语料库,包含1.94亿条泰语文本,覆盖新闻、商务和政府等实用场景。它针对泰语的语言特性进行了专项清洗与标注,以提升模型在本地化任务中的性能,数据规模为238GB。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务