five

ZombitX64/moscar-corpus-thai-cleaned

收藏
Hugging Face2025-06-30 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/ZombitX64/moscar-corpus-thai-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个经过清洗的泰语大数据集,适用于自然语言处理任务,包括语言模型训练、文本分类、文本摘要和翻译等。数据集包含标题和正文两个字符串类型的特征,共有1,643,471个训练样本,总大小为5,132,779,656字节。使用Apache-2.0许可证,适用于研究但不建议商业用途。

This is a cleaned Thai large-scale dataset suitable for natural language processing tasks such as language model training, text classification, text summarization, and translation. The dataset includes two string-type features: title and text, with a total of 1,643,471 training samples and a size of 5,132,779,656 bytes. Licensed under Apache-2.0, it is for research purposes and not recommended for direct commercial use.
提供机构:
ZombitX64
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作