意大利用户请求和对应的约束表示试点数据集

Name: 意大利用户请求和对应的约束表示试点数据集
Creator: 卡利亚里大学，数学与计算机科学系，卡利亚里，意大利
Published: 2025-03-27 18:52:10
License: 暂无描述

arXiv2025-03-27 更新2025-03-29 收录

下载链接：

https://github.com/msang/nl-interface/tree/main/data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是专门为研究可再生能源社区（REC）中的用户偏好转换成能量优化约束而创建的。它包含了26个意大利用户的特定用能偏好的请求，这些请求被标注为对应的约束表示。数据集来源于更大规模的用户请求和标注意图语料库，用于训练对话代理的自然语言理解模块。每个请求都经过两步手动标注，第一步是识别和标记表达偏好的文本跨度，第二步是将这些偏好转换为可能的约束表示。

This dataset is specifically developed for research on converting user preferences into energy optimization constraints within Renewable Energy Communities (REC). It includes 26 requests from Italian users detailing their specific energy consumption preferences, with each request annotated with corresponding constraint representations. The dataset is derived from a larger-scale corpus of user requests with annotated intents, which was utilized to train the natural language understanding (NLU) module of conversational agents. Each request undergoes two-stage manual annotation: the first stage involves identifying and tagging the text spans that express user preferences, while the second stage converts these preferences into potential constraint representations.

提供机构：

卡利亚里大学，数学与计算机科学系，卡利亚里，意大利

创建时间：

2025-03-27

搜集汇总

数据集介绍

构建方式

该数据集构建于意大利可再生能源社区（REC）背景下，专注于将用户自然语言偏好转化为家庭能源设备的优化约束。研究团队从157条意大利语用户话语中筛选出26条具有明确时间或温度偏好的样本，采用两步标注流程：首先人工识别表达偏好的文本片段，随后将其转换为形式化的约束表示。标注方案基于优化器预定义的参数体系，涵盖设备状态变量(st)和温度变量(ht)的离散时间区间映射，并通过XML标签结构化标注结果以确保机器可读性。

使用方法

该数据集设计用于评估大语言模型（LLM）在约束转换任务中的性能，支持零样本、单样本和少样本三种学习范式。使用时需遵循特定流程：首先将用户话语中的偏好片段用XML标签标记，随后通过结构化提示词引导模型生成约束表示。评估阶段推荐采用字符级F值（ChrF）衡量格式合规性，辅以变量识别准确率（AccVariables）和条件生成准确率（AccConditions）两项指标。研究证实，对于意大利语LLM（如LLaMAntino-3），提供5个示例的少样本提示可获得最佳性能（ChrF=74.55）。数据集配套发布标注工具链和评估代码，支持端到端的研究复现。

背景与挑战

背景概述

意大利用户请求和对应的约束表示试点数据集由意大利卡利亚里大学数学与计算机科学系的Manuela Sanguinetti等研究人员于2024年构建，旨在探索大型语言模型（LLMs）在将用户自然语言偏好转化为家庭电器能源优化约束方面的应用。该数据集是更广泛的可再生能源社区（REC）研究项目的一部分，专注于意大利语境下的智能家电优化问题。通过将用户口语化需求转化为形式化约束条件，该研究为家庭能源管理系统的智能化交互提供了新范式，对推动可持续能源社区的发展具有重要实践意义。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：领域问题层面，如何准确捕捉用户非结构化的时间与温度偏好并将其转化为机器可处理的优化约束，这涉及自然语言理解与运筹学交叉领域的技术难题；构建过程层面，意大利语可用LLMs模型的稀缺性导致基线性能受限，且标注工作需要人工完成约束条件的双重映射（文本片段识别→形式化表示），这种领域特定的语义对齐对标注质量提出了极高要求。此外，小规模试点数据（仅26条标注样本）难以支撑数据驱动的深度学习方法，迫使研究采用少样本学习等策略，进一步放大了模型泛化能力的挑战。

常用场景

经典使用场景

在可再生能源社区（REC）的背景下，意大利用户请求和对应的约束表示试点数据集被广泛应用于家庭自动化与能源管理领域。该数据集的核心功能是将用户通过自然语言表达的电器使用偏好（如时间安排或温度设定）转化为可计算的优化约束条件，从而为智能家电的能源调度提供结构化输入。这一过程通常结合大型语言模型（LLMs）的零样本、单样本和小样本学习能力，验证其在意大利语语境下的语义解析与形式化转换效能。

解决学术问题

该数据集解决了能源优化领域两个关键学术问题：一是如何动态捕捉用户非结构化的自然语言偏好，并将其映射为数学约束模型；二是探索LLMs在低资源语言（如意大利语）的特定领域任务中的适应性。其意义在于建立了用户意图与能源管理系统间的语义桥梁，填补了传统静态调查方法无法实时响应用户需求的空白，同时为多语言NLP在垂直领域的应用提供了基准框架。

实际应用

在实际场景中，该数据集支撑了意大利可再生能源社区的智能对话系统开发。例如，当用户提出“需要在7:00-8:30使用热水器”的请求时，系统通过解析该语句生成时间约束变量（st=1∀7≤t≤8.5），进而指导社区级能源优化算法优先分配光伏发电盈余。这种应用显著提升了用户对节能建议的依从性，并减少了电网高峰负荷，实证数据显示可降低15%的社区整体能耗成本。

数据集最近研究