trl-internal-testing/tiny-ultrafeedback-binarized
收藏Hugging Face2024-10-17 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/trl-internal-testing/tiny-ultrafeedback-binarized
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
- name: score_chosen
dtype: float64
- name: score_rejected
dtype: float64
splits:
- name: train
num_bytes: 692523.3239237145
num_examples: 179
- name: test
num_bytes: 7898.908
num_examples: 2
download_size: 38693
dataset_size: 700422.2319237145
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
```python
from datasets import load_dataset
push_to_hub = True
def is_small(example):
small_prompt = len(example["chosen"][0]["content"]) < 100
small_chosen = len(example["chosen"][1]["content"]) < 100
small_rejected = len(example["rejected"][1]["content"]) < 100
return small_prompt and small_chosen and small_rejected
if __name__ == "__main__":
dataset = load_dataset("trl-lib/ultrafeedback_binarized")
dataset = dataset.filter(is_small)
if push_to_hub:
dataset.push_to_hub("trl-internal-testing/tiny-ultrafeedback-binarized")
```
### 数据集信息
特征字段:
- 名称:chosen(优选响应)
列表结构:
- 名称:content,数据类型:字符串
- 名称:role,数据类型:字符串
- 名称:rejected(淘汰响应)
列表结构:
- 名称:content,数据类型:字符串
- 名称:role,数据类型:字符串
- 名称:score_chosen(优选响应得分),数据类型:64位浮点数
- 名称:score_rejected(淘汰响应得分),数据类型:64位浮点数
数据集划分:
- 名称:训练集(train),字节大小:692523.3239237145,样本数量:179
- 名称:测试集(test),字节大小:7898.908,样本数量:2
下载总大小:38693
数据集总大小:700422.2319237145
配置项:
- 配置名称:默认配置(default)
数据文件:
- 划分集:训练集(train),路径:data/train-*
- 划分集:测试集(test),路径:data/test-*
---
### 数据集处理代码
python
from datasets import load_dataset # 从datasets库导入数据集加载函数load_dataset
push_to_hub = True # 开启推送到Hugging Face Hub的功能开关
def is_small(example):
"""判断单条样本是否为小型样本(所有文本字段长度均小于100)"""
small_prompt = len(example["chosen"][0]["content"]) < 100 # 提示文本的内容长度小于100
small_chosen = len(example["chosen"][1]["content"]) < 100 # 优选响应的内容长度小于100
small_rejected = len(example["rejected"][1]["content"]) < 100 # 淘汰响应的内容长度小于100
return small_prompt and small_chosen and small_rejected
if __name__ == "__main__":
dataset = load_dataset("trl-lib/ultrafeedback_binarized") # 加载trl-lib组织下的二分类超反馈数据集ultrafeedback_binarized
dataset = dataset.filter(is_small) # 使用is_small函数过滤数据集,仅保留符合小型样本要求的条目
if push_to_hub:
dataset.push_to_hub("trl-internal-testing/tiny-ultrafeedback-binarized") # 将过滤后的数据集推送到Hugging Face Hub的trl-internal-testing组织下的tiny-ultrafeedback-binarized仓库
提供机构:
trl-internal-testing



