five

caobin/SimXRDreview

收藏
Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/caobin/SimXRDreview
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - en tags: - croissant size_categories: - 100M<n<1B --- Partial data from SimXRD (the original dataset is too large to be shared on Hugging Face). Sample data provided for reviewers. ``` javascript # 1. Point to a local or remote Croissant file import mlcroissant as mlc url = "https://huggingface.co/datasets/caobin/SimXRDreview/raw/main/simxrd_croissant.json" # 2. Inspect metadata dataset_info = mlc.Dataset(url).metadata.to_json print(dataset_info) from dataset.parse import load_dataset,bar_progress # defined in our github : https://github.com/compasszzn/XRDBench/blob/main/dataset/parse.py for file_info in dataset_info['distribution']: wget.download(file_info['contentUrl'], './', bar=bar_progress) # 3. Use Croissant dataset in your ML workload train_loader = DataLoader(load_dataset(name='train.tfrecord'), batch_size=args.batch_size, shuffle=True, num_workers=args.num_workers) val_loader = DataLoader(load_dataset(name='val.tfrecord'), batch_size=args.batch_size, shuffle=True, num_workers=args.num_workers,drop_last=False) test_loader = DataLoader(load_dataset(name='test.tfrecord'), batch_size=args.batch_size, shuffle=False, num_workers=args.num_workers,drop_last=False) ```
提供机构:
caobin
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 英语
  • 标签: croissant
  • 大小分类: 100M<n<1B

数据来源

  • 数据集为SimXRD的部分数据,原数据集过大,无法在Hugging Face上共享。当前提供的数据为样本数据,供评审使用。

数据使用

  • 数据集文件可通过指定URL进行访问和下载,具体URL为:https://huggingface.co/datasets/caobin/SimXRDreview/raw/main/simxrd_croissant.json
  • 数据集的元数据可通过特定代码进行查看和处理。
  • 数据集包含训练、验证和测试数据,分别存储在train.tfrecordval.tfrecordtest.tfrecord文件中,可通过DataLoader进行加载和处理。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作