honggen/hh_hard
收藏Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/honggen/hh_hard
下载链接
链接失效反馈官方服务:
资源简介:
对于HH-hard数据集,我们基于BERT-base模型对相似性进行排名。我们根据相似性([prompt+chosen, prompt+rejected])对数据进行排序后,提取了前50%的数据。
This dataset is used for text generation tasks, ranking the similarity of HH-hard data based on the BERT-base model, and extracting the top 50% of the data after sorting. These data are sorted by comparing the similarity of [prompt+chosen, prompt+rejected].
提供机构:
honggen
原始信息汇总
数据集概述
许可证
- Apache 2.0
任务类别
- 文本生成
语言
- 英语
数据规模
- 10K<n<100K
数据处理
- 基于BERT-base模型对相似度进行排序。
- 根据相似度排序后,提取前50%的数据([prompt+chosen, prompt+rejected])。



