caobin/SimXRDreview
收藏Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/caobin/SimXRDreview
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- en
tags:
- croissant
size_categories:
- 100M<n<1B
---
Partial data from SimXRD (the original dataset is too large to be shared on Hugging Face). Sample data provided for reviewers.
``` javascript
# 1. Point to a local or remote Croissant file
import mlcroissant as mlc
url = "https://huggingface.co/datasets/caobin/SimXRDreview/raw/main/simxrd_croissant.json"
# 2. Inspect metadata
dataset_info = mlc.Dataset(url).metadata.to_json
print(dataset_info)
from dataset.parse import load_dataset,bar_progress # defined in our github : https://github.com/compasszzn/XRDBench/blob/main/dataset/parse.py
for file_info in dataset_info['distribution']:
wget.download(file_info['contentUrl'], './', bar=bar_progress)
# 3. Use Croissant dataset in your ML workload
train_loader = DataLoader(load_dataset(name='train.tfrecord'), batch_size=args.batch_size, shuffle=True, num_workers=args.num_workers)
val_loader = DataLoader(load_dataset(name='val.tfrecord'), batch_size=args.batch_size, shuffle=True, num_workers=args.num_workers,drop_last=False)
test_loader = DataLoader(load_dataset(name='test.tfrecord'), batch_size=args.batch_size, shuffle=False, num_workers=args.num_workers,drop_last=False)
```
提供机构:
caobin
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 标签: croissant
- 大小分类: 100M<n<1B
数据来源
- 数据集为SimXRD的部分数据,原数据集过大,无法在Hugging Face上共享。当前提供的数据为样本数据,供评审使用。
数据使用
- 数据集文件可通过指定URL进行访问和下载,具体URL为:
https://huggingface.co/datasets/caobin/SimXRDreview/raw/main/simxrd_croissant.json - 数据集的元数据可通过特定代码进行查看和处理。
- 数据集包含训练、验证和测试数据,分别存储在
train.tfrecord、val.tfrecord和test.tfrecord文件中,可通过DataLoader进行加载和处理。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



