five

matdmiller/finemath-4plus

收藏
Hugging Face2025-03-08 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/matdmiller/finemath-4plus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含网页文本内容的数据集,分为不同的规模版本,包括100k、10k、1M、1k和完整的(full)版本。每个版本都包含训练集和验证集,适用于自然语言处理任务。数据集的特征包括网页的URL、抓取时间、MIME类型、Warc文件信息、文本内容、词汇和字符计数、元数据、得分信息、爬虫和快照类型、语言信息等。

This dataset contains web page text content, divided into different scale versions including 100k, 10k, 1M, 1k, and the full version. Each version includes a training set and a validation set, suitable for natural language processing tasks. The features of the dataset include the URL of the web page, fetch time, MIME type, Warc file information, text content, vocabulary and character count, metadata, score information, crawler and snapshot type, language information, etc.
提供机构:
matdmiller
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作