five

nhagar/obelics_urls

收藏
Hugging Face2025-05-15 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/nhagar/obelics_urls
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了与HuggingFaceM4/OBELICS训练记录相关的URL和顶级域名。它是一组用于探索LLM训练数据集的数据集的一部分。该数据集通过从源数据中提取URL和顶级域名创建而成,使研究人员能够分析这些数据集的内容,而无需管理大量的原始文本。数据集的结构包括两列:url和domain。

This dataset provides the URLs and top-level domains associated with training records in the HuggingFaceM4/OBELICS dataset. It is part of a collection of datasets curated for exploring LLM training datasets. The dataset was created by extracting URLs and top-level domains from the source data, enabling researchers to analyze the contents of these datasets without managing large volumes of raw text. The dataset structure includes two columns: url and domain.
提供机构:
nhagar
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作