five

pythainlp/thai-culturax-clean-dataset

收藏
Hugging Face2024-05-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/thai-culturax-clean-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Thai CulturaX Clean数据集来源于CulturaX的泰语子集,该子集本身来源于mC4和四个OSCAR语料库。数据集经过过滤,去除了涉及赌博、成人内容和毒品的文本。数据集包含约8,748,575,684个单词(不包括空格)和16,768,585行,总大小为97 GB。使用该数据集时需要注意,尽管数据集已经过清理,但仍可能包含个人和敏感信息。

Thai CulturaX Clean数据集来源于CulturaX的泰语子集,该子集本身来源于mC4和四个OSCAR语料库。数据集经过过滤,去除了涉及赌博、成人内容和毒品的文本。数据集包含约8,748,575,684个单词(不包括空格)和16,768,585行,总大小为97 GB。使用该数据集时需要注意,尽管数据集已经过清理,但仍可能包含个人和敏感信息。
提供机构:
pythainlp
原始信息汇总

Thai CulturaX Clean dataset

数据来源

  • 数据源自CulturaX数据集的泰国子集,该子集来源于mC4和四个OSCAR语料库。

数据规模

  • 包含约8,748,575,684个单词(不含空格)和16,768,585行(97 GB)。

数据处理

  • 过滤了宣传赌博、成人内容和毒品的内容。

使用注意事项

  • 该数据集是CulturaX数据集的清洗版本,可能仍包含个人信息和敏感信息,使用前需谨慎考虑,如用于训练深度学习模型等。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作