five

textcleanlm/textclean-2B-raw-sample

收藏
Hugging Face2025-08-14 更新2025-09-13 收录
下载链接:
https://hf-mirror.com/datasets/textcleanlm/textclean-2B-raw-sample
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个文本数据集,包含了文本的ID、文本内容、元数据(如URL、来源域名、Warc相关信息等)、质量信号、FastText特征、eai_taxonomy分类信息等。数据集被划分为训练集,共包含100个文本示例。

This dataset is a collection of text data, including text ID, text content, metadata (such as URL, source domain, Warc-related information, etc.), quality signals, FastText features, eai_taxonomy classification information, etc. The dataset is divided into a training set, containing a total of 100 text examples.
提供机构:
textcleanlm
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作