XitXatTools
收藏数据集概述:XitXat Tools
数据集基本信息
- 名称: XitXat Tools
- 语言: 加泰罗尼亚语 (ca)
- 模态: 文本
- 格式: JSON Lines (
.jsonl) - 许可协议: CC BY 4.0
- 规模: 小于1,000个示例
- 来源: 为研究目的生成的合成数据
数据集详情
- 任务类别: 文本生成
- 数据集类型: 模拟加泰罗尼亚语呼叫中心对话
- 特点: 每个对话均标注了结构化工具调用,适用于训练和评估具有函数调用能力的语言模型。
数据集结构
每个条目包含以下字段:
chat_id: 对话的唯一标识符domain: 对话的领域(如"allotjament")topic: 对话的主题tools: 对话中调用的工具列表,每个工具包含:name: 工具名称description: 工具功能描述parameters: 工具所需参数,包括:type: 参数对象类型(通常为"object")properties: 参数字典required: 必需参数名称列表
conversation: 表示人与助手之间对话轮次的JSON格式字符串
领域分布
json {"domains": { "allotjament": 90, "banca": 120, "menjar_domicili": 80, "comerc": 119, "lloguer_vehicles": 67, "transports": 95, "assegurances": 120, "ajuntament": 120, "clinica": 59, "telefonia": 80}}
示例条目
json { "chat_id": "ed3f7ae9-baaf-46ed-b51f-e3b4344d05ac", "domain": "allotjament", "topic": "Reserva duna casa rural durant el Nadal", "tools": [ { "name": "check_availability", "description": "Comprova la disponibilitat duna casa rural per unes dates concretes.", "parameters": { "type": "object", "properties": { "accommodation_type": { "type": "string", "description": "Tipus dallotjament, per exemple cases rurals." }, "from_date": { "type": "string", "format": "date", "description": "Data dinici de la reserva en format YYYY-MM-DD." }, "to_date": { "type": "string", "format": "date", "description": "Data de fi de la reserva en format YYYY-MM-DD." } }, "required": ["accommodation_type", "from_date", "to_date"] } } ], "conversation": "[{"from": "human", "value": "Hola, bones"}, {"from": "gpt", "value": "Hola, bon dia."}]" }
使用方式
使用Hugging Face datasets库加载数据集:
python
from datasets import load_dataset
dataset = load_dataset("BSC-LT/XitXatTools", name="default")
应用场景
- 训练语言模型处理函数调用场景
- 开发能够与结构化工具交互的对话代理
- 多语言和领域特定对话系统的研究
数据集来源
- 原始数据集: XitXat




