asaoka/sample-large
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/asaoka/sample-large
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: "data/*.parquet"
---
[Hugging Face データセット作成チュートリアル](https://colab.research.google.com/drive/11rl9Wie22JVIB5bjj3W6bnygfWFlNijW#scrollTo=XXlFnTh04WLc)で用いるサンプルデータです。
データはPMC OS Subsetの[oa_comm_xml.PMC010xxxxxx.baseline.2023-12-18.tar.gz](https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_bulk/oa_comm/xml/)から約40万件分の論文のAbstractを抽出して作成しました。
提供机构:
asaoka
原始信息汇总
数据集概述
数据来源
- 数据集是从PMC OS Subset的
oa_comm_xml.PMC010xxxxxx.baseline.2023-12-18.tar.gz文件中提取的,该文件位于NCBI的FTP服务器。
数据内容
- 数据集包含约40万篇论文的摘要。
数据格式
- 数据文件格式为Parquet。
- 数据文件路径为
data/*.parquet。 - 数据集分为训练集(train)。



