five

textcleanlm/textclean-10B

收藏
Hugging Face2025-08-16 更新2025-09-13 收录
下载链接:
https://hf-mirror.com/datasets/textcleanlm/textclean-10B
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含了文本数据和相关特征的机器学习数据集,分为default和sample两个配置。每个文本数据都有原始文本、清理后的文本、词数、来源ID、用户资料、应用阶段、难度和配对状态等特征。default配置下,训练集包含超过970万个示例,而sample配置下的训练集仅包含100个示例,用于样本学习和测试。

This is a machine learning dataset with text data and related features, divided into two configurations: default and sample. Each text data has features including raw text, cleaned text, number of tokens, origin ID, user profile, stages applied, difficulty, and pair status. Under the default configuration, the training set contains over 9.7 million examples, while the training set under the sample configuration contains only 100 examples, for sample learning and testing.
提供机构:
textcleanlm
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作