five

honggen/shp_all_BERT

收藏
Hugging Face2024-03-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/honggen/shp_all_BERT
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集源自Stanford SHP,基于BERT-Large的CLS嵌入构建了hard和soft两个子集。hard子集包含最相似的文本对,soft子集包含最不相似的文本对。为区分二者,排除了重叠文本对。每个提示仅选一对文本,用于text2text-generation任务,语言为英语,遵循Apache-2.0许可证。

本数据集源自Stanford SHP,基于BERT-Large的CLS嵌入构建了hard和soft两个子集。hard子集包含最相似的文本对,soft子集包含最不相似的文本对。为区分二者,排除了重叠文本对。每个提示仅选一对文本,用于text2text-generation任务,语言为英语,遵循Apache-2.0许可证。
提供机构:
honggen
原始信息汇总

数据集概述

数据来源

  • 原始数据来自Standford SHP数据集。

数据构建

  • 构建了两个子数据集:hard和soft。
  • hard数据集包含最相似的文本对。
  • soft数据集包含最不相似的文本对。
  • 通过BERT-Large模型的CLS嵌入进行区分。

数据筛选

  • 为了区分两个子数据集,排除了重叠的文本对。
  • 由于提示分布不均匀,每个提示仅选择一个文本对用于hard和soft数据集。

语言

  • 数据集语言为英语。

许可证

  • 数据集遵循Apache-2.0许可证。

任务类别

  • 数据集适用于text2text-generation任务。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作