nikitam/nlsi

Name: nikitam/nlsi
Creator: nikitam
Published: 2024-03-07 15:03:50
License: 暂无描述

Hugging Face2024-03-07 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/nikitam/nlsi

下载链接

链接失效反馈

官方服务：

资源简介：

我们开发并引入了NLSI（自然语言常设指令），这是一个英语数据集，其中每个示例都包含用户与对话代理之间的对话，伴随着一组常设指令（用户配置文件）和反映用户意图的API调用序列。NLSI数据集旨在评估大型语言模型（LLMs）中的个性化功能，包含超过2.4K个对话，涵盖17个领域，每个对话都与用户配置文件（一组用户的特定常设指令）和相应的结构化表示（API调用）配对。NLSI的一个关键挑战是确定哪些常设指令子集适用于给定的对话。

提供机构：

nikitam

原始信息汇总

数据集卡片 for NLSI

数据集描述

数据集概述

NLSI（自然语言固定指令）是一个英语数据集，每个示例包含用户和对话代理之间的对话，以及一组固定指令（用户配置文件）和反映用户意图的API调用序列。

支持的任务和排行榜

固定指令子集选择
相关固定指令的解释

语言

英语

数据集结构

数据实例

每个数据实例包含以下特征：example_id, user_utterance, all_standing_instructions, applicable_standing_instructions, api_calls, metadata, pred_applicable_standing_instructions, pred_api_calls

数据字段

example_id: 示例的唯一ID
user_utterance: 可能需要调用固定指令的对话
all_standing_instructions: 该示例的所有固定指令集合，称为用户配置文件
applicable_standing_instructions: 该示例的地面真实固定指令
api_calls: 相应的API调用列表
metadata: 包含示例ID、映射到SGD数据集的ID和示例的推理类型的字典

字段 pred_applicable_standing_instructions 和 pred_api_calls 目前未使用，但未来可用于存储模型预测。

数据分割

训练集: 150 个示例
验证集: 251 个示例
测试集: 2040 个示例

数据集创建

策划理由

为了减轻用户在使用自然语言接口时重复偏好信息的负担，我们提出将用户的部分偏好和指令以自然语言形式包含在内，作为此类接口的附加上下文。我们开发的NLSI数据集包含超过2.4K个跨17个领域的对话，每个对话都配有一个用户配置文件（一组特定用户的固定指令）和相应的结构化表示（API调用）。NLSI的一个关键挑战是识别哪些固定指令子集适用于给定对话。

源数据

初始数据收集和规范化

请参见论文的第3节。

源语言生产者

数据集包含在SGD中找到的句子，并使用GPT-3进行了适当改写。

个人和敏感信息

在创建基础数据集（SGD）时已排除。

使用数据的注意事项

使用

NLSI主要设计用于评估LLM中的个性化。

偏见讨论

我们的数据集基于SGD（Rastogi et al., 2020），包含虚构对话。数据集中的真实世界实体（如餐厅名称）从Freebase中采样，日期/时间合成生成。数据集中没有人类姓名或任何个人信息。我们的任务涉及在受限设置中生成API调用，通常不会产生有害或有毒的响应。

附加信息

许可信息

NLSI数据集采用Creative Commons Attribution Share Alike 4.0 (cc-by-sa-4.0) 许可。

引用信息

@misc{moghe2023interpreting, title={Interpreting User Requests in the Context of Natural Language Standing Instructions}, author={Nikita Moghe and Patrick Xia and Jacob Andreas and Jason Eisner and Benjamin Van Durme and Harsh Jhamtani}, year={2023}, journal={Computing Research Repository}, volume={arXiv:2311.09796}, url={http://arxiv.org/abs/1503.06733} }

联系

Nikita Moghe

5,000+

优质数据集

54 个

任务类型

进入经典数据集