honggen/shp_all_BERT
收藏Hugging Face2024-03-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/honggen/shp_all_BERT
下载链接
链接失效反馈官方服务:
资源简介:
本数据集源自Stanford SHP,基于BERT-Large的CLS嵌入构建了hard和soft两个子集。hard子集包含最相似的文本对,soft子集包含最不相似的文本对。为区分二者,排除了重叠文本对。每个提示仅选一对文本,用于text2text-generation任务,语言为英语,遵循Apache-2.0许可证。
本数据集源自Stanford SHP,基于BERT-Large的CLS嵌入构建了hard和soft两个子集。hard子集包含最相似的文本对,soft子集包含最不相似的文本对。为区分二者,排除了重叠文本对。每个提示仅选一对文本,用于text2text-generation任务,语言为英语,遵循Apache-2.0许可证。
提供机构:
honggen
原始信息汇总
数据集概述
数据来源
- 原始数据来自Standford SHP数据集。
数据构建
- 构建了两个子数据集:hard和soft。
- hard数据集包含最相似的文本对。
- soft数据集包含最不相似的文本对。
- 通过BERT-Large模型的CLS嵌入进行区分。
数据筛选
- 为了区分两个子数据集,排除了重叠的文本对。
- 由于提示分布不均匀,每个提示仅选择一个文本对用于hard和soft数据集。
语言
- 数据集语言为英语。
许可证
- 数据集遵循Apache-2.0许可证。
任务类别
- 数据集适用于text2text-generation任务。



