five

intfloat/personalized_passkey_retrieval

收藏
Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/intfloat/personalized_passkey_retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了个性化密码检索任务的数据,这些数据来源于论文《Improving Text Embeddings with Large Language Models》。数据集中的每个查询都有100个候选答案,标签字段指示了正确候选答案的索引,始终为0。上下文长度字段提供了候选文档的近似长度。

该数据集包含了个性化密码检索任务的数据,这些数据来源于论文《Improving Text Embeddings with Large Language Models》。数据集中的每个查询都有100个候选答案,标签字段指示了正确候选答案的索引,始终为0。上下文长度字段提供了候选文档的近似长度。
提供机构:
intfloat
原始信息汇总

数据集概述

该数据集包含用于个性化密钥检索任务的数据,源自论文《Improving Text Embeddings with Large Language Models》。

数据字段

  • query: 一个字符串特征。
  • candidates: 字符串特征列表,每个查询有100个候选。
  • label: 一个32位整数特征,表示正确候选在候选列表中的索引,始终为0。
  • context_length: 一个32位整数特征,表示候选文档的大致长度。

如何使用此数据集

您可以在Python代码中加载此数据集,如下所示:

python from datasets import load_dataset

dataset = load_dataset("intfloat/personalized_passkey_retrieval")

数据集中的数据由脚本generate_passkey_data.py生成。您也可以调整脚本以生成自己的数据。

引用信息

如果您在研究中使用此数据集,请引用以下论文:

@inproceedings{Wang2023ImprovingTE, title={Improving Text Embeddings with Large Language Models}, author={Liang Wang and Nan Yang and Xiaolong Huang and Linjun Yang and Rangan Majumder and Furu Wei}, year={2023}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作