XitXatTools

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/langtech-innovation/XitXatTools

下载链接

链接失效反馈

官方服务：

资源简介：

XitXat Tools是一个包含模拟的加泰罗尼亚语呼叫中心对话的数据集。每个对话都标注有结构化的工具调用，使其适合于训练和评估具有函数调用能力的语言模型。数据集包含950个对话，分布在10个不同的领域，如住宿、银行、外卖食物、商业、租车、交通、保险、市政府、诊所和电信。每个条目包括对话的唯一标识符、对话领域、话题、会话中调用的工具列表以及对话内容。

创建时间：

2025-04-25

原始信息汇总

数据集概述：XitXat Tools

数据集基本信息

名称: XitXat Tools
语言: 加泰罗尼亚语 (ca)
模态: 文本
格式: JSON Lines (.jsonl)
许可协议: CC BY 4.0
规模: 小于1,000个示例
来源: 为研究目的生成的合成数据

数据集详情

任务类别: 文本生成
数据集类型: 模拟加泰罗尼亚语呼叫中心对话
特点: 每个对话均标注了结构化工具调用，适用于训练和评估具有函数调用能力的语言模型。

数据集结构

每个条目包含以下字段：

chat_id: 对话的唯一标识符
domain: 对话的领域（如"allotjament"）
topic: 对话的主题
tools: 对话中调用的工具列表，每个工具包含：
- name: 工具名称
- description: 工具功能描述
- parameters: 工具所需参数，包括：
  - type: 参数对象类型（通常为"object"）
  - properties: 参数字典
  - required: 必需参数名称列表
conversation: 表示人与助手之间对话轮次的JSON格式字符串

领域分布

json {"domains": { "allotjament": 90, "banca": 120, "menjar_domicili": 80, "comerc": 119, "lloguer_vehicles": 67, "transports": 95, "assegurances": 120, "ajuntament": 120, "clinica": 59, "telefonia": 80}}

示例条目

json { "chat_id": "ed3f7ae9-baaf-46ed-b51f-e3b4344d05ac", "domain": "allotjament", "topic": "Reserva duna casa rural durant el Nadal", "tools": [ { "name": "check_availability", "description": "Comprova la disponibilitat duna casa rural per unes dates concretes.", "parameters": { "type": "object", "properties": { "accommodation_type": { "type": "string", "description": "Tipus dallotjament, per exemple cases rurals." }, "from_date": { "type": "string", "format": "date", "description": "Data dinici de la reserva en format YYYY-MM-DD." }, "to_date": { "type": "string", "format": "date", "description": "Data de fi de la reserva en format YYYY-MM-DD." } }, "required": ["accommodation_type", "from_date", "to_date"] } } ], "conversation": "[{"from": "human", "value": "Hola, bones"}, {"from": "gpt", "value": "Hola, bon dia."}]" }

使用方式

使用Hugging Face datasets库加载数据集： python from datasets import load_dataset dataset = load_dataset("BSC-LT/XitXatTools", name="default")

应用场景

训练语言模型处理函数调用场景
开发能够与结构化工具交互的对话代理
多语言和领域特定对话系统的研究

数据集来源

原始数据集: XitXat

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，XitXatTools数据集通过创新的数据转换方法构建而成。该数据集基于原始的XitXat意图检测语料库，采用DeepSeek V3技术进行深度重构，将950组加泰罗尼亚语客服对话转化为带有结构化工具调用的新型语料。数据生成过程严格遵循Wizard of Oz实验范式，覆盖住宿、银行、餐饮等10个专业领域，每个对话均标注了详细的工具调用参数和对话轮次，形成标准的JSON Lines格式。

特点

作为专业领域的多轮对话数据集，XitXatTools展现出鲜明的技术特征。其加泰罗尼亚语语料填补了小众语言在工具调用研究中的空白，每个对话实例包含完整的工具调用链，涵盖工具名称、功能描述及参数规范。数据集特别设计了领域均衡分布，从市政服务到医疗保险的10个垂直领域共950个对话，确保了模型训练的多样性。结构化标注体系支持复杂场景下的函数调用建模，为对话系统研究提供精准的评估基准。

使用方法

该数据集在Hugging Face平台的开源生态中具有明确的应用路径。研究人员可通过datasets库直接加载默认配置，快速接入机器学习流程。典型应用场景包括训练具备函数调用能力的语言模型，开发支持结构化工具交互的对话代理，以及进行跨领域多语言对话系统的对比研究。数据集的JSON Lines格式天然适配现代NLP框架，其工具调用标注体系可直接转化为模型训练所需的指令微调数据，极大简化了研究复现过程。

背景与挑战

背景概述

XitXatTools数据集源于2022年开发的XitXat项目，由研究团队采用Wizard of Oz方法构建，旨在支持加泰罗尼亚语对话系统的意图识别研究。该数据集包含950个涵盖10个领域的模拟客服对话，后经DeepSeek V3技术重构为工具调用标注数据集，专注于增强语言模型的结构化函数调用能力。作为少有的加泰罗尼亚语任务型对话资源，其多领域特性为低资源语言场景下的对话系统研究提供了重要基准。

当前挑战

该数据集面临双重挑战：在领域问题上，需解决低资源语言场景下工具调用准确率低、多领域泛化能力不足等核心难题；在构建过程中，合成数据的真实性受限，且原始对话向工具调用标注的转换可能引入语义偏差。此外，不足千例的样本规模对模型训练的充分性构成挑战，而领域分布不均衡可能进一步影响模型性能的公平性评估。

常用场景

经典使用场景

在自然语言处理领域，XitXatTools数据集以其独特的加泰罗尼亚语模拟呼叫中心对话结构，成为训练和评估语言模型功能调用能力的理想选择。该数据集通过精心设计的工具调用标注，为研究者提供了丰富的多领域对话场景，特别是在处理住宿、银行、餐饮等10个不同领域的任务型对话时展现出显著优势。其JSON Lines格式的标准化结构和清晰的工具参数定义，使得模型能够学习如何准确识别用户意图并触发相应功能。

衍生相关工作

该数据集已催生多项关于工具调用机制的前沿研究，包括基于深度学习的动态工具选择算法、跨领域工具迁移框架等创新工作。其前身XitXat数据集在意图识别领域的研究成果，也为当前版本的功能扩展奠定了理论基础。部分研究者正在探索将该数据集与大型语言模型结合，开发能够自主组合工具完成复杂任务的对话系统，这些工作正在推动任务型对话技术向更高层次的智能化发展。

数据集最近研究