nikitam/nlsi
收藏数据集卡片 for NLSI
数据集描述
数据集概述
NLSI(自然语言固定指令)是一个英语数据集,每个示例包含用户和对话代理之间的对话,以及一组固定指令(用户配置文件)和反映用户意图的API调用序列。
支持的任务和排行榜
- 固定指令子集选择
- 相关固定指令的解释
语言
英语
数据集结构
数据实例
每个数据实例包含以下特征:example_id, user_utterance, all_standing_instructions, applicable_standing_instructions, api_calls, metadata, pred_applicable_standing_instructions, pred_api_calls
数据字段
example_id: 示例的唯一IDuser_utterance: 可能需要调用固定指令的对话all_standing_instructions: 该示例的所有固定指令集合,称为用户配置文件applicable_standing_instructions: 该示例的地面真实固定指令api_calls: 相应的API调用列表metadata: 包含示例ID、映射到SGD数据集的ID和示例的推理类型的字典
字段 pred_applicable_standing_instructions 和 pred_api_calls 目前未使用,但未来可用于存储模型预测。
数据分割
- 训练集: 150 个示例
- 验证集: 251 个示例
- 测试集: 2040 个示例
数据集创建
策划理由
为了减轻用户在使用自然语言接口时重复偏好信息的负担,我们提出将用户的部分偏好和指令以自然语言形式包含在内,作为此类接口的附加上下文。我们开发的NLSI数据集包含超过2.4K个跨17个领域的对话,每个对话都配有一个用户配置文件(一组特定用户的固定指令)和相应的结构化表示(API调用)。NLSI的一个关键挑战是识别哪些固定指令子集适用于给定对话。
源数据
初始数据收集和规范化
请参见论文的第3节。
源语言生产者
数据集包含在SGD中找到的句子,并使用GPT-3进行了适当改写。
个人和敏感信息
在创建基础数据集(SGD)时已排除。
使用数据的注意事项
使用
NLSI主要设计用于评估LLM中的个性化。
偏见讨论
我们的数据集基于SGD(Rastogi et al., 2020),包含虚构对话。数据集中的真实世界实体(如餐厅名称)从Freebase中采样,日期/时间合成生成。数据集中没有人类姓名或任何个人信息。我们的任务涉及在受限设置中生成API调用,通常不会产生有害或有毒的响应。
附加信息
许可信息
NLSI数据集采用Creative Commons Attribution Share Alike 4.0 (cc-by-sa-4.0) 许可。
引用信息
@misc{moghe2023interpreting, title={Interpreting User Requests in the Context of Natural Language Standing Instructions}, author={Nikita Moghe and Patrick Xia and Jacob Andreas and Jason Eisner and Benjamin Van Durme and Harsh Jhamtani}, year={2023}, journal={Computing Research Repository}, volume={arXiv:2311.09796}, url={http://arxiv.org/abs/1503.06733} }



