intfloat/personalized_passkey_retrieval
收藏Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/intfloat/personalized_passkey_retrieval
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了个性化密码检索任务的数据,这些数据来源于论文《Improving Text Embeddings with Large Language Models》。数据集中的每个查询都有100个候选答案,标签字段指示了正确候选答案的索引,始终为0。上下文长度字段提供了候选文档的近似长度。
该数据集包含了个性化密码检索任务的数据,这些数据来源于论文《Improving Text Embeddings with Large Language Models》。数据集中的每个查询都有100个候选答案,标签字段指示了正确候选答案的索引,始终为0。上下文长度字段提供了候选文档的近似长度。
提供机构:
intfloat
原始信息汇总
数据集概述
该数据集包含用于个性化密钥检索任务的数据,源自论文《Improving Text Embeddings with Large Language Models》。
数据字段
query: 一个字符串特征。candidates: 字符串特征列表,每个查询有100个候选。label: 一个32位整数特征,表示正确候选在候选列表中的索引,始终为0。context_length: 一个32位整数特征,表示候选文档的大致长度。
如何使用此数据集
您可以在Python代码中加载此数据集,如下所示:
python from datasets import load_dataset
dataset = load_dataset("intfloat/personalized_passkey_retrieval")
数据集中的数据由脚本generate_passkey_data.py生成。您也可以调整脚本以生成自己的数据。
引用信息
如果您在研究中使用此数据集,请引用以下论文:
@inproceedings{Wang2023ImprovingTE, title={Improving Text Embeddings with Large Language Models}, author={Liang Wang and Nan Yang and Xiaolong Huang and Linjun Yang and Rangan Majumder and Furu Wei}, year={2023}, }



