Rohit228/govt_id_data
收藏Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Rohit228/govt_id_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个配置:keep_columns和push_to_argilla,每个配置都有不同的特征和示例。数据集主要用于生成美国B-1/B-2签证的样本文档,包含指令、生成内容、生成模型等信息。数据集是通过distilabel工具生成的,并且可以通过提供的pipeline.yaml文件进行复现。
该数据集包含两个配置:keep_columns和push_to_argilla,每个配置都有不同的特征和示例。数据集主要用于生成美国B-1/B-2签证的样本文档,包含指令、生成内容、生成模型等信息。数据集是通过distilabel工具生成的,并且可以通过提供的pipeline.yaml文件进行复现。
提供机构:
Rohit228
原始信息汇总
数据集概述
基本信息
- 数据集名称: govt_id_data
- 大小分类: n<1K
- 标签: synthetic, distilabel, rlaif
配置信息
-
配置名称: keep_columns
- 特征:
- instruction: 字符串类型
- generations: 字符串序列
- generation_models: 字符串序列
- ratings: 空序列
- rationales: 空序列
- 分割:
- train: 128个示例,401257字节
- 下载大小: 172163字节
- 数据集大小: 401257字节
- 特征:
-
配置名称: push_to_argilla
- 特征:
- Index: int64类型
- instruction: 字符串类型
- Class: 字符串类型
- Subclass: 字符串类型
- Quantization: bool类型
- generation_models: 字符串序列
- generations: 字符串序列
- model_name: 字符串类型
- ratings: 空序列
- rationales: 空序列
- 分割:
- train: 100个示例,341819字节
- 下载大小: 150390字节
- 数据集大小: 341819字节
- 特征:
数据文件
-
配置名称: keep_columns
- 分割: train
- 路径: keep_columns/train-*
-
配置名称: push_to_argilla
- 分割: train
- 路径: push_to_argilla/train-*
数据集结构
-
配置: push_to_argilla
- 示例结构包括: Class, Index, Quantization, Subclass, generation_models, generations, instruction, model_name, ratings, rationales
-
配置: keep_columns
- 示例结构包括: generation_models, generations, instruction, ratings, rationales
加载示例
-
配置: push_to_argilla python from datasets import load_dataset ds = load_dataset("Rohit228/govt_id_data", "push_to_argilla")
-
配置: keep_columns python from datasets import load_dataset ds = load_dataset("Rohit228/govt_id_data", "keep_columns")



