five

ArmelR/sharded-pile

收藏
Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ArmelR/sharded-pile
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: all data_files: - split: train path: - data/ArXiv/train/*.parquet - data/BookCorpus2/train/*.parquet - data/Books3/train/*.arrow - data/DM Mathematics/train/*.parquet - data/Enron Emails/train/*.parquet - data/EuroParl/train/*.parquet - data/FreeLaw/train/*.parquet - data/Github/train/*.parquet - data/Gutenberg (PG-19)/train/*.parquet - data/HackerNews/train/*.parquet - data/NIH ExPorter/train/*.parquet - data/OpenSubtitles/train/*.parquet - data/OpenWebText2/train/*.parquet - data/PhilPapers/train/*.parquet - data/Pile-CC/train/*.parquet - data/PubMed Abstracts/train/*.parquet - data/PubMed Central/train/*.parquet - data/StackExchange/train/*.parquet - data/UPSTO Backgrounds/train/*.parquet - data/Ubuntu IRC/train/*.parquet - data/Wikipedia (en)/train/*.parquet - data/YoutubeSubtitles/train/*.parquet default : true ---
提供机构:
ArmelR
原始信息汇总

数据集概述

数据集配置

  • 配置名称: all

数据文件详情

  • 分割类型: train
  • 文件路径:
    • data/ArXiv/train/*.parquet
    • data/BookCorpus2/train/*.parquet
    • data/Books3/train/*.arrow
    • data/DM Mathematics/train/*.parquet
    • data/Enron Emails/train/*.parquet
    • data/EuroParl/train/*.parquet
    • data/FreeLaw/train/*.parquet
    • data/Github/train/*.parquet
    • data/Gutenberg (PG-19)/train/*.parquet
    • data/HackerNews/train/*.parquet
    • data/NIH ExPorter/train/*.parquet
    • data/OpenSubtitles/train/*.parquet
    • data/OpenWebText2/train/*.parquet
    • data/PhilPapers/train/*.parquet
    • data/Pile-CC/train/*.parquet
    • data/PubMed Abstracts/train/*.parquet
    • data/PubMed Central/train/*.parquet
    • data/StackExchange/train/*.parquet
    • data/UPSTO Backgrounds/train/*.parquet
    • data/Ubuntu IRC/train/*.parquet
    • data/Wikipedia (en)/train/*.parquet
    • data/YoutubeSubtitles/train/*.parquet

默认设置

  • 默认: true
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作