grimulkan/passkey-retrieval

Name: grimulkan/passkey-retrieval
Creator: grimulkan
Published: 2024-01-13 04:02:38
License: 暂无描述

Hugging Face2024-01-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/grimulkan/passkey-retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练和评估Passkey检索任务，格式为Fastchat。文章来源于Long C4，长度不一，并在文章中随机插入了秘密Passkey。Passkey的类型和名称随机变化，包括密码短语、密钥、特定事实、喜欢的颜色等，且Passkey本身基于Faker库和WonderWords库随机生成。有50%的概率会添加一个记住Passkey的提示，15%的概率文章中没有Passkey。数据集文件格式为`c4_passkey_XXYY.json`，其中`XX`表示输入提示的近似长度，`YY`表示是否包含上下文查询。

提供机构：

grimulkan

原始信息汇总

数据集概述

该数据集包含用于训练和评估的Passkey检索数据，采用Fastchat格式。用户需要手动分割为训练集和评估集。

数据来源

文章来源于Long C4，长度不一。
每篇文章中随机插入一个秘密通行证（passkey）。

通行证特征

通行证的名称和类型随机变化，包括密码短语、秘密密钥、特定事实、喜欢的颜色、密码等。
通行证本身根据不同的专有名词随机生成，使用Faker Library和WonderWords Library生成不同长度的单词/短语。
有50%的概率添加一条记住通行证/事实的注释。
有15%的概率不包含通行证/事实，并指示没有此类信息。

文件格式

数据集文件格式为c4_passkey_XXYY.json，其中：

XX表示输入提示的大致长度，以ChatGPT的tiktoken标记为单位，非常近似，可能对应Llama的不同数量。可用的上下文长度约为8K、10K、16K和24K（24K大致对应30K Llama2标记）。
如果YY为空，则不仅包含通行证/事实的查询，还包含关于周围上下文的后续多轮问题，如它所在的行等。
如果YY为_nocontext，则仅为单一的问答，没有后续问题或上下文查询。

搜集汇总

数据集介绍

构建方式

该数据集名为grimulkan/passkey-retrieval，其构建方式采取从Long C4数据集中抽取不同长度的文章，并在文章中随机插入一个秘密通行证（passkey）。秘密的内容和类型多样，包括密码、密钥、具体事实等，且这些通行证是基于Faker Library和WonderWords Library随机生成的。此外，有一半的概率会添加一条用于记忆该通行证的提示，而大约15%的情况下，文章中不包含任何通行证信息。

特点

数据集的特点在于其多样性及随机性，秘密通行证嵌入的方式模拟了真实场景中信息的隐藏，这对于训练模型在非结构化文本中检索特定信息的能力具有重要价值。数据集包含了不同长度的输入提示，以及两种不同格式的文件：一种包含查询通行证及其周围上下文的后续多轮问题，另一种则仅包含单一的问题和答案，不含任何上下文信息。

使用方法

在使用该数据集时，用户需要手动将其分割为训练集和评估集。数据集以Fastchat格式存储，文件名中`XX`代表了输入提示的大致长度（以ChatGPT的tiktoken计算），而`YY`则表明了文件是否包含上下文信息。根据具体的应用场景和模型需求，用户可以选择合适的文件进行训练或评估。

背景与挑战

背景概述

在信息安全和密码管理领域，确保敏感信息的安全存储与正确恢复至关重要。grimulkan/passkey-retrieval数据集，创建于对密码恢复技术进行深入研究的需求之中，旨在提供一个模拟真实场景下密码或敏感信息隐藏与检索的基准。该数据集由 grimulkan 组织提供，主要研究人员利用了Faker Library和WonderWords Library等工具，在Long C4数据集的基础上，通过随机插入秘密通行证（passkey）的方式，构建了一个具有不同长度和类型的秘密信息的数据集。自发布以来，该数据集对提升密码恢复算法的准确性和鲁棒性产生了显著影响，成为信息安全领域研究的一个重要资源。

当前挑战

数据集构建过程中，研究团队面临了多个挑战。首先，如何在文本中随机且合理地插入秘密通行证，以模拟现实世界中的密码隐藏场景，是一个技术难题。其次，为了提高数据集的实用性和多样性，秘密通行证的类型和生成方式需要多样化。此外，数据集中还包含了无秘密通行证的情况，以模拟信息不存在的情况。在应用层面，该数据集要求研究者在处理长文本和短文本时，能够准确地区分并检索出秘密信息，这对于算法的设计和优化提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，grimulkan/passkey-retrieval数据集的经典使用场景主要聚焦于信息检索与提取任务。该数据集设计巧妙，将秘密通行证随机插入文章中，旨在训练模型识别并提取特定信息，从而为构建高效的信息检索系统提供了可靠的数据基础。

实际应用

在实际应用中，grimulkan/passkey-retrieval数据集可用于开发高级的信息筛选工具，如密码管理器、敏感信息检测系统等。它帮助模型在实际场景中准确识别和提取关键信息，保障信息安全。

衍生相关工作

基于此数据集，研究者们已衍生出一系列相关工作，如构建更为复杂的密码识别模型、研究信息隐藏与提取的新算法等。这些工作进一步拓宽了该数据集的应用范围，推动了自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集