five

honggen/hh_hard_v4

收藏
Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/honggen/hh_hard_v4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于BERT-base模型,用于文本生成任务,专注于计算和筛选文本间的相似度。具体而言,它比较了提示+选定和提示+拒绝两种文本组合的相似度,并从中选取了最不相似的前50%的文本对。数据集语言为英语,遵循Apache-2.0许可协议。

该数据集基于BERT-base模型,用于文本生成任务,专注于计算和筛选文本间的相似度。具体而言,它比较了提示+选定和提示+拒绝两种文本组合的相似度,并从中选取了最不相似的前50%的文本对。数据集语言为英语,遵循Apache-2.0许可协议。
提供机构:
honggen
原始信息汇总

数据集概述

许可证

  • Apache 2.0

任务类别

  • 文本到文本生成

语言

  • 英语

数据集描述

  • 基于BERT-base模型,计算[prompt+chosen, prompt+rejected]之间的相似度。
  • 仅选择相似度最低的前50%的配对。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作