five

XitXatTools

收藏
Hugging Face2025-05-02 更新2025-05-03 收录
下载链接:
https://huggingface.co/datasets/langtech-innovation/XitXatTools
下载链接
链接失效反馈
官方服务:
资源简介:
XitXat Tools是一个包含模拟的加泰罗尼亚语呼叫中心对话的数据集。每个对话都标注有结构化的工具调用,使其适合于训练和评估具有函数调用能力的语言模型。数据集包含950个对话,分布在10个不同的领域,如住宿、银行、外卖食物、商业、租车、交通、保险、市政府、诊所和电信。每个条目包括对话的唯一标识符、对话领域、话题、会话中调用的工具列表以及对话内容。
创建时间:
2025-04-25
原始信息汇总

数据集概述:XitXat Tools

数据集基本信息

  • 名称: XitXat Tools
  • 语言: 加泰罗尼亚语 (ca)
  • 模态: 文本
  • 格式: JSON Lines (.jsonl)
  • 许可协议: CC BY 4.0
  • 规模: 小于1,000个示例
  • 来源: 为研究目的生成的合成数据

数据集详情

  • 任务类别: 文本生成
  • 数据集类型: 模拟加泰罗尼亚语呼叫中心对话
  • 特点: 每个对话均标注了结构化工具调用,适用于训练和评估具有函数调用能力的语言模型。

数据集结构

每个条目包含以下字段:

  • chat_id: 对话的唯一标识符
  • domain: 对话的领域(如"allotjament")
  • topic: 对话的主题
  • tools: 对话中调用的工具列表,每个工具包含:
    • name: 工具名称
    • description: 工具功能描述
    • parameters: 工具所需参数,包括:
      • type: 参数对象类型(通常为"object")
      • properties: 参数字典
      • required: 必需参数名称列表
  • conversation: 表示人与助手之间对话轮次的JSON格式字符串

领域分布

json {"domains": { "allotjament": 90, "banca": 120, "menjar_domicili": 80, "comerc": 119, "lloguer_vehicles": 67, "transports": 95, "assegurances": 120, "ajuntament": 120, "clinica": 59, "telefonia": 80}}

示例条目

json { "chat_id": "ed3f7ae9-baaf-46ed-b51f-e3b4344d05ac", "domain": "allotjament", "topic": "Reserva duna casa rural durant el Nadal", "tools": [ { "name": "check_availability", "description": "Comprova la disponibilitat duna casa rural per unes dates concretes.", "parameters": { "type": "object", "properties": { "accommodation_type": { "type": "string", "description": "Tipus dallotjament, per exemple cases rurals." }, "from_date": { "type": "string", "format": "date", "description": "Data dinici de la reserva en format YYYY-MM-DD." }, "to_date": { "type": "string", "format": "date", "description": "Data de fi de la reserva en format YYYY-MM-DD." } }, "required": ["accommodation_type", "from_date", "to_date"] } } ], "conversation": "[{"from": "human", "value": "Hola, bones"}, {"from": "gpt", "value": "Hola, bon dia."}]" }

使用方式

使用Hugging Face datasets库加载数据集: python from datasets import load_dataset dataset = load_dataset("BSC-LT/XitXatTools", name="default")

应用场景

  • 训练语言模型处理函数调用场景
  • 开发能够与结构化工具交互的对话代理
  • 多语言和领域特定对话系统的研究

数据集来源

搜集汇总
数据集介绍
main_image_url
构建方式
在对话系统研究领域,XitXatTools数据集通过创新的数据转换方法构建而成。该数据集基于原始的XitXat意图检测语料库,采用DeepSeek V3技术进行深度重构,将950组加泰罗尼亚语客服对话转化为带有结构化工具调用的新型语料。数据生成过程严格遵循Wizard of Oz实验范式,覆盖住宿、银行、餐饮等10个专业领域,每个对话均标注了详细的工具调用参数和对话轮次,形成标准的JSON Lines格式。
特点
作为专业领域的多轮对话数据集,XitXatTools展现出鲜明的技术特征。其加泰罗尼亚语语料填补了小众语言在工具调用研究中的空白,每个对话实例包含完整的工具调用链,涵盖工具名称、功能描述及参数规范。数据集特别设计了领域均衡分布,从市政服务到医疗保险的10个垂直领域共950个对话,确保了模型训练的多样性。结构化标注体系支持复杂场景下的函数调用建模,为对话系统研究提供精准的评估基准。
使用方法
该数据集在Hugging Face平台的开源生态中具有明确的应用路径。研究人员可通过datasets库直接加载默认配置,快速接入机器学习流程。典型应用场景包括训练具备函数调用能力的语言模型,开发支持结构化工具交互的对话代理,以及进行跨领域多语言对话系统的对比研究。数据集的JSON Lines格式天然适配现代NLP框架,其工具调用标注体系可直接转化为模型训练所需的指令微调数据,极大简化了研究复现过程。
背景与挑战
背景概述
XitXatTools数据集源于2022年开发的XitXat项目,由研究团队采用Wizard of Oz方法构建,旨在支持加泰罗尼亚语对话系统的意图识别研究。该数据集包含950个涵盖10个领域的模拟客服对话,后经DeepSeek V3技术重构为工具调用标注数据集,专注于增强语言模型的结构化函数调用能力。作为少有的加泰罗尼亚语任务型对话资源,其多领域特性为低资源语言场景下的对话系统研究提供了重要基准。
当前挑战
该数据集面临双重挑战:在领域问题上,需解决低资源语言场景下工具调用准确率低、多领域泛化能力不足等核心难题;在构建过程中,合成数据的真实性受限,且原始对话向工具调用标注的转换可能引入语义偏差。此外,不足千例的样本规模对模型训练的充分性构成挑战,而领域分布不均衡可能进一步影响模型性能的公平性评估。
常用场景
经典使用场景
在自然语言处理领域,XitXatTools数据集以其独特的加泰罗尼亚语模拟呼叫中心对话结构,成为训练和评估语言模型功能调用能力的理想选择。该数据集通过精心设计的工具调用标注,为研究者提供了丰富的多领域对话场景,特别是在处理住宿、银行、餐饮等10个不同领域的任务型对话时展现出显著优势。其JSON Lines格式的标准化结构和清晰的工具参数定义,使得模型能够学习如何准确识别用户意图并触发相应功能。
衍生相关工作
该数据集已催生多项关于工具调用机制的前沿研究,包括基于深度学习的动态工具选择算法、跨领域工具迁移框架等创新工作。其前身XitXat数据集在意图识别领域的研究成果,也为当前版本的功能扩展奠定了理论基础。部分研究者正在探索将该数据集与大型语言模型结合,开发能够自主组合工具完成复杂任务的对话系统,这些工作正在推动任务型对话技术向更高层次的智能化发展。
数据集最近研究
最新研究方向
在自然语言处理领域,XitXatTools数据集因其独特的加泰罗尼亚语模拟客服对话结构和丰富的工具调用标注,成为研究多语言对话系统与功能调用模型的热点资源。近年来,研究者们聚焦于如何利用该数据集提升语言模型在特定领域的工具调用能力,特别是在跨语言迁移学习和低资源语言处理方面展现出巨大潜力。随着大语言模型在商业应用中的普及,该数据集为开发能够精准理解用户意图并调用相应工具的对话系统提供了重要基准,同时也为探索多语言环境下的领域自适应问题提供了新的研究视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作