mdroth/huggingface-course_section-5_zst
收藏Hugging Face2023-07-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mdroth/huggingface-course_section-5_zst
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于Hugging Face课程第5节中,作为The Pile数据集的子数据集的替代品。数据集来源包括PubMed-200k-RTC和LegalText-classification两个Kaggle数据集。用户无需从Kaggle下载这些数据集,可以直接通过提供的URL链接使用。
提供机构:
mdroth
原始信息汇总
数据集概述
数据集名称
- 名称:section 5 zst datasets
- 别名:Hugging Face course section 5 .zst datasets
许可协议
- 协议:Apache-2.0
任务类别
- 类别:text-classification
语言
- 语言:en
数据来源
- PubMed-200k-RTC: https://www.kaggle.com/datasets/matthewjansen/pubmed-200k-rtc/download?datasetVersionNumber=5
- LegalText-classification: https://www.kaggle.com/datasets/shivamb/legal-citation-text-classification/download?datasetVersionNumber=1
使用方法
-
加载数据集的Python代码示例: python import zstandard from datasets import load_dataset url = "https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/LegalText-classification_train_min.jsonl.zst" load_dataset("json", data_files=url, split="train")
-
可用数据文件链接:
LegalText-classification_train.jsonl.zst: https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/LegalText-classification_train.jsonl.zstLegalText-classification_train_min.jsonl.zst: https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/LegalText-classification_train_min.jsonl.zstPubMed-200k-RTC_train.jsonl.zst: https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/PubMed-200k-RTC_train.jsonl.zstPubMed-200k-RTC_train_min.jsonl.zst: https://huggingface.co/datasets/mdroth/PubMed-200k-RTC/resolve/main/data/PubMed-200k-RTC_train_min.jsonl.zst



