five

Rohit228/govt_id_data

收藏
Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Rohit228/govt_id_data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置:keep_columns和push_to_argilla,每个配置都有不同的特征和示例。数据集主要用于生成美国B-1/B-2签证的样本文档,包含指令、生成内容、生成模型等信息。数据集是通过distilabel工具生成的,并且可以通过提供的pipeline.yaml文件进行复现。

该数据集包含两个配置:keep_columns和push_to_argilla,每个配置都有不同的特征和示例。数据集主要用于生成美国B-1/B-2签证的样本文档,包含指令、生成内容、生成模型等信息。数据集是通过distilabel工具生成的,并且可以通过提供的pipeline.yaml文件进行复现。
提供机构:
Rohit228
原始信息汇总

数据集概述

基本信息

  • 数据集名称: govt_id_data
  • 大小分类: n<1K
  • 标签: synthetic, distilabel, rlaif

配置信息

  1. 配置名称: keep_columns

    • 特征:
      • instruction: 字符串类型
      • generations: 字符串序列
      • generation_models: 字符串序列
      • ratings: 空序列
      • rationales: 空序列
    • 分割:
      • train: 128个示例,401257字节
    • 下载大小: 172163字节
    • 数据集大小: 401257字节
  2. 配置名称: push_to_argilla

    • 特征:
      • Index: int64类型
      • instruction: 字符串类型
      • Class: 字符串类型
      • Subclass: 字符串类型
      • Quantization: bool类型
      • generation_models: 字符串序列
      • generations: 字符串序列
      • model_name: 字符串类型
      • ratings: 空序列
      • rationales: 空序列
    • 分割:
      • train: 100个示例,341819字节
    • 下载大小: 150390字节
    • 数据集大小: 341819字节

数据文件

  1. 配置名称: keep_columns

    • 分割: train
    • 路径: keep_columns/train-*
  2. 配置名称: push_to_argilla

    • 分割: train
    • 路径: push_to_argilla/train-*

数据集结构

  • 配置: push_to_argilla

    • 示例结构包括: Class, Index, Quantization, Subclass, generation_models, generations, instruction, model_name, ratings, rationales
  • 配置: keep_columns

    • 示例结构包括: generation_models, generations, instruction, ratings, rationales

加载示例

  • 配置: push_to_argilla python from datasets import load_dataset ds = load_dataset("Rohit228/govt_id_data", "push_to_argilla")

  • 配置: keep_columns python from datasets import load_dataset ds = load_dataset("Rohit228/govt_id_data", "keep_columns")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作