five

nikitam/nlsi

收藏
Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nikitam/nlsi
下载链接
链接失效反馈
官方服务:
资源简介:
我们开发并引入了NLSI(自然语言常设指令),这是一个英语数据集,其中每个示例都包含用户与对话代理之间的对话,伴随着一组常设指令(用户配置文件)和反映用户意图的API调用序列。NLSI数据集旨在评估大型语言模型(LLMs)中的个性化功能,包含超过2.4K个对话,涵盖17个领域,每个对话都与用户配置文件(一组用户的特定常设指令)和相应的结构化表示(API调用)配对。NLSI的一个关键挑战是确定哪些常设指令子集适用于给定的对话。

我们开发并引入了NLSI(自然语言常设指令),这是一个英语数据集,其中每个示例都包含用户与对话代理之间的对话,伴随着一组常设指令(用户配置文件)和反映用户意图的API调用序列。NLSI数据集旨在评估大型语言模型(LLMs)中的个性化功能,包含超过2.4K个对话,涵盖17个领域,每个对话都与用户配置文件(一组用户的特定常设指令)和相应的结构化表示(API调用)配对。NLSI的一个关键挑战是确定哪些常设指令子集适用于给定的对话。
提供机构:
nikitam
原始信息汇总

数据集卡片 for NLSI

数据集描述

数据集概述

NLSI(自然语言固定指令)是一个英语数据集,每个示例包含用户和对话代理之间的对话,以及一组固定指令(用户配置文件)和反映用户意图的API调用序列。

支持的任务和排行榜

  • 固定指令子集选择
  • 相关固定指令的解释

语言

英语

数据集结构

数据实例

每个数据实例包含以下特征:example_id, user_utterance, all_standing_instructions, applicable_standing_instructions, api_calls, metadata, pred_applicable_standing_instructions, pred_api_calls

数据字段

  • example_id: 示例的唯一ID
  • user_utterance: 可能需要调用固定指令的对话
  • all_standing_instructions: 该示例的所有固定指令集合,称为用户配置文件
  • applicable_standing_instructions: 该示例的地面真实固定指令
  • api_calls: 相应的API调用列表
  • metadata: 包含示例ID、映射到SGD数据集的ID和示例的推理类型的字典

字段 pred_applicable_standing_instructionspred_api_calls 目前未使用,但未来可用于存储模型预测。

数据分割

  • 训练集: 150 个示例
  • 验证集: 251 个示例
  • 测试集: 2040 个示例

数据集创建

策划理由

为了减轻用户在使用自然语言接口时重复偏好信息的负担,我们提出将用户的部分偏好和指令以自然语言形式包含在内,作为此类接口的附加上下文。我们开发的NLSI数据集包含超过2.4K个跨17个领域的对话,每个对话都配有一个用户配置文件(一组特定用户的固定指令)和相应的结构化表示(API调用)。NLSI的一个关键挑战是识别哪些固定指令子集适用于给定对话。

源数据

初始数据收集和规范化

请参见论文的第3节。

源语言生产者

数据集包含在SGD中找到的句子,并使用GPT-3进行了适当改写。

个人和敏感信息

在创建基础数据集(SGD)时已排除。

使用数据的注意事项

使用

NLSI主要设计用于评估LLM中的个性化。

偏见讨论

我们的数据集基于SGD(Rastogi et al., 2020),包含虚构对话。数据集中的真实世界实体(如餐厅名称)从Freebase中采样,日期/时间合成生成。数据集中没有人类姓名或任何个人信息。我们的任务涉及在受限设置中生成API调用,通常不会产生有害或有毒的响应。

附加信息

许可信息

NLSI数据集采用Creative Commons Attribution Share Alike 4.0 (cc-by-sa-4.0) 许可。

引用信息

@misc{moghe2023interpreting, title={Interpreting User Requests in the Context of Natural Language Standing Instructions}, author={Nikita Moghe and Patrick Xia and Jacob Andreas and Jason Eisner and Benjamin Van Durme and Harsh Jhamtani}, year={2023}, journal={Computing Research Repository}, volume={arXiv:2311.09796}, url={http://arxiv.org/abs/1503.06733} }

联系

Nikita Moghe

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作