five

mdroth/huggingface-course_section-5_zst

收藏
Hugging Face2023-07-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mdroth/huggingface-course_section-5_zst
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于Hugging Face课程第5节中,作为The Pile数据集的子数据集的替代品。数据集来源包括PubMed-200k-RTC和LegalText-classification两个Kaggle数据集。用户无需从Kaggle下载这些数据集,可以直接通过提供的URL链接使用。
提供机构:
mdroth
原始信息汇总

数据集概述

数据集名称

  • 名称:section 5 zst datasets
  • 别名:Hugging Face course section 5 .zst datasets

许可协议

  • 协议:Apache-2.0

任务类别

  • 类别:text-classification

语言

  • 语言:en

数据来源

  • PubMed-200k-RTC: https://www.kaggle.com/datasets/matthewjansen/pubmed-200k-rtc/download?datasetVersionNumber=5
  • LegalText-classification: https://www.kaggle.com/datasets/shivamb/legal-citation-text-classification/download?datasetVersionNumber=1

使用方法

  • 加载数据集的Python代码示例: python import zstandard from datasets import load_dataset url = "https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/LegalText-classification_train_min.jsonl.zst" load_dataset("json", data_files=url, split="train")

  • 可用数据文件链接:

    • LegalText-classification_train.jsonl.zst: https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/LegalText-classification_train.jsonl.zst
    • LegalText-classification_train_min.jsonl.zst: https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/LegalText-classification_train_min.jsonl.zst
    • PubMed-200k-RTC_train.jsonl.zst: https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/PubMed-200k-RTC_train.jsonl.zst
    • PubMed-200k-RTC_train_min.jsonl.zst: https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/PubMed-200k-RTC_train_min.jsonl.zst
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作