Chat2Find/Chat2Find-Instruct-Reasoning-Sample
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Chat2Find/Chat2Find-Instruct-Reasoning-Sample
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
language:
- si
- ta
- en
tags:
- instruction-finetuning
- reasoning
- tool-use
- trilingual
- singlish
- tanglish
- chat2find
pretty_name: Chat2Find Unified Reasoning & Tool Dataset (Public Sample)
size_categories:
- n<1K
---
# Chat2Find Unified Reasoning & Tool Dataset (Public Sample)
This repository contains a **5,000-record public preview** of the **Chat2Find Unified Reasoning & Tool Dataset**.
The full dataset is a premium, high-logic instruction dataset designed for training state-of-the-art conversational AI models. It contains **279,260 trilingual records** optimized for complex problem-solving, chain-of-thought reasoning, and sophisticated tool-calling interactions in **Sinhala**, **Tamil**, and **English**.
## 📂 Access the Full Dataset
The full 1.8 GB dataset is available as a **Gated Repository** for commercial and advanced research use.
👉 **[Access the Full Dataset Here](https://huggingface.co/datasets/Chat2Find/Chat2Find-Instruct-Reasoning-Dataset)**
### **How to get a license:**
1. **Purchase License:** Use our secure Stripe link to purchase a commercial/advanced research license:
👉 **[Buy Full Dataset License (Stripe)](https://buy.stripe.com/14AaEX1EjdODfblcKMawo02)**
2. **Provide Username:** During the Stripe checkout, please enter your **Hugging Face Username**.
3. **Approval:** Once payment is confirmed, we will grant your account access to the gated repository within **24 hours**.
---
## 📊 Sample Details & Composition
The 5,000 records in this preview are carefully curated to reflect the high quality of the full dataset.
**Conversation Flow:**
- **Single-turn (SFT):** 70.0% (3,500 records)
- **Multi-turn (Agentic/Chat):** 30.0% (1,500 records)
**Reasoning & Execution:**
- **Pure Chain-of-Thought Reasoning:** 72.0%
- **Tool Calling & API Interaction:** 28.0%
**Language Breakdown:**
- **Tamil:** 45.7%
- **Sinhala:** 36.3%
- **English:** 18.0%
- *Note: Singlish and Tanglish code-mixed data are aggressively embedded within these records to ensure realistic South Asian conversational abilities.*
---
## 🌟 What's in the Full Dataset?
The full 1.8 GB dataset contains **279,260 records** offering a massive scale-up of everything seen in this sample.
- Over **10,800** deep multi-turn interactions.
- Hundreds of thousands of localized, culturally aware logic puzzles, tool invocations, and code-mixed conversations not found in standard open-source datasets.
---
**Stay tuned to [chat2find.com](https://chat2find.com) for updates.**
提供机构:
Chat2Find
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,构建高质量指令数据集对于提升对话AI的推理与工具调用能力至关重要。Chat2Find Unified Reasoning & Tool Dataset的构建过程体现了严谨的数据工程方法,其核心在于通过精心设计的流程生成多语言、多模态的指令数据。该数据集以Sinhala、Tamil和英语三种语言为基础,通过人工与自动化相结合的方式,生成了包含279,260条记录的大规模样本。数据构建注重逻辑深度与真实性,不仅涵盖了链式思维推理和工具调用交互,还积极融入了Singlish和Tanglish等代码混合形式,以模拟南亚地区的实际对话场景,确保数据在语言多样性和文化语境上的丰富性。
特点
该数据集的特点在于其高度的专业性与实用性,为对话AI的复杂问题解决能力提供了坚实基础。数据集以三语言并行构建,其中Tamil占比45.7%,Sinhala占36.3%,英语占18.0%,这种分布反映了对南亚语言生态的深入覆盖。在内容结构上,数据集强调推理与工具使用的结合,72%的记录专注于纯链式思维推理,28%涉及工具调用与API交互,同时单轮对话占70%,多轮对话占30%,这种设计平衡了指令跟随与多轮交互的需求。此外,数据集通过嵌入代码混合数据,增强了模型在真实场景中的适应能力,使其能够处理更具挑战性的本地化对话任务。
使用方法
使用该数据集时,研究人员和开发者可将其应用于对话AI模型的指令微调与推理能力训练。数据集适用于多种自然语言处理任务,特别是需要复杂逻辑推理和工具调用功能的场景。用户可通过Hugging Face平台访问公开的5,000条样本进行初步评估,完整数据集则需通过授权获取。在实际应用中,建议根据任务需求选择单轮或多轮对话样本,结合链式思维推理与工具调用部分,以优化模型的端到端问题解决性能。数据集的代码混合特性还可用于提升模型在多语言环境中的鲁棒性,为构建面向南亚地区的高性能AI助手提供关键训练资源。
背景与挑战
背景概述
随着多语言对话人工智能的快速发展,针对低资源语言的高质量指令微调数据成为关键瓶颈。Chat2Find-Instruct-Reasoning-Sample数据集由Chat2Find团队于近期构建,旨在为僧伽罗语、泰米尔语及英语提供复杂的推理与工具调用能力训练数据。该数据集聚焦于解决南亚地区多语言混合场景下的逻辑推理、链式思考及工具交互问题,通过融入Singlish与Tanglish等代码混合语料,显著提升了模型在真实对话环境中的适应性与实用性,为跨语言智能助手的研究与应用奠定了重要基础。
当前挑战
该数据集致力于应对多语言复杂推理任务的挑战,尤其在低资源语言如僧伽罗语和泰米尔语中,高质量的链式思考与工具调用数据极为稀缺,模型需同时处理语言混合与文化语境理解。在构建过程中,团队面临数据收集与标注的困难,包括确保代码混合语料的自然性与逻辑一致性,以及平衡单轮与多轮对话的比例,以模拟真实交互场景。此外,大规模多语言数据的质量控制与版权合规性也是数据集开发中的关键难题。
常用场景
经典使用场景
在自然语言处理领域,多语言指令微调数据集正成为推动对话智能体发展的核心资源。Chat2Find-Instruct-Reasoning-Sample数据集以其精心设计的双语(僧伽罗语、泰米尔语)与英语混合内容,为复杂推理和工具调用任务提供了典型范例。该数据集广泛应用于训练先进对话模型,特别强调链式思维推理与多轮交互,能够模拟真实场景中用户通过自然语言指令解决逻辑难题或操作外部工具的过程,为研究者提供了高质量、结构化的训练样本。
解决学术问题
该数据集针对当前多语言人工智能研究中低资源语言推理能力不足的瓶颈,提供了系统性的解决方案。它通过融合僧伽罗语、泰米尔语及英语的三语数据,并嵌入Singlish与Tanglish等代码混合表达,有效缓解了南亚地区语言数据稀缺的问题。在学术意义上,该数据集支持对链式思维推理、工具调用机制以及跨语言迁移学习等前沿课题的探索,为构建更具逻辑性和文化适应性的对话系统奠定了数据基础,推动了多语言自然语言处理技术的均衡发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多语言指令跟随模型与具身智能体架构的优化上。研究者利用其高质量的三语推理数据,开发了能够处理代码混合指令的对话系统,并在工具学习与API交互任务上取得了显著进展。这些工作不仅扩展了开源社区对低资源语言支持的技术路线,也为后续构建更通用、更鲁棒的多模态推理模型提供了重要的数据支撑和评估基准,持续影响着对话式人工智能的技术演进方向。
以上内容由遇见数据集搜集并总结生成



