honggen/hh_hard_v4
收藏Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/honggen/hh_hard_v4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于BERT-base模型,用于文本生成任务,专注于计算和筛选文本间的相似度。具体而言,它比较了提示+选定和提示+拒绝两种文本组合的相似度,并从中选取了最不相似的前50%的文本对。数据集语言为英语,遵循Apache-2.0许可协议。
该数据集基于BERT-base模型,用于文本生成任务,专注于计算和筛选文本间的相似度。具体而言,它比较了提示+选定和提示+拒绝两种文本组合的相似度,并从中选取了最不相似的前50%的文本对。数据集语言为英语,遵循Apache-2.0许可协议。
提供机构:
honggen
原始信息汇总
数据集概述
许可证
- Apache 2.0
任务类别
- 文本到文本生成
语言
- 英语
数据集描述
- 基于BERT-base模型,计算[prompt+chosen, prompt+rejected]之间的相似度。
- 仅选择相似度最低的前50%的配对。



