Phonsiri/Glocal-Impact-Instruct-TH-EN-1K

Name: Phonsiri/Glocal-Impact-Instruct-TH-EN-1K
Creator: Phonsiri
Published: 2026-04-18 17:14:55
License: 暂无描述

Hugging Face2026-04-18 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Phonsiri/Glocal-Impact-Instruct-TH-EN-1K

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 task_categories: - text-generation - question-answering language: - th - en tags: - impact - research - agent - bilingual - reasoning - rag size_categories: - 1K<n<10K --- # Glocal Impact Instruct TH-EN 1K [**Thai Version Below** | **ภาษาไทยอยู่ด้านล่าง**] ## English Description **Glocal Impact Instruct TH-EN 1K** is an instruction dataset containing 1,000 tasks designed for developing and evaluating Large Language Models (LLMs) in the areas of **Deep Research**, **Strategic Search Planning**, and **Socio-Economic & Environmental Impact Analysis**. It covers both local Thai contexts and global perspectives. ### Data Generation Process This dataset was synthesized through a rigorous **Grounded Research Pipeline**: 1. **Raw Data Harvesting:** Real-world data, global news, and local reports were gathered via live web searches to ensure up-to-date and relevant contexts. 2. **Instruction Synthesis:** A high-parameter language model (Gemma 4 31B) was employed to transform raw information into complex, multi-hop research tasks. 3. **Strategy Augmentation:** Each task was enriched with expert-level search strategies, verification milestones, and impact goals to guide the model's reasoning process. 4. **Bilingual Alignment:** Tasks were carefully structured to support cross-lingual intelligence (Thai-English), enabling models to bridge information gaps between local and international sources. ### Data Structure Each entry contains: - `category`: Topic category (e.g., Health & Sciences, Global Resilience, Geopolitics). - `requires_report`: Boolean indicating if an HTML report is requested. - `prompt`: Detailed instruction with context and goals. - `impact_goal`: The intended outcome or impact of the research. - `search_strategy`: Multi-step search keywords (Thai & English) and target domains. - `reference_milestones`: Expected verification phases and keywords. - `key_verification_points`: Critical points to ensure data accuracy. ### Use Cases - Fine-tuning **Research Agents**. - Testing **RAG (Retrieval-Augmented Generation)** systems with complex, multi-step queries. - Evaluating **Cross-lingual Reasoning** capabilities. --- ## รายละเอียดภาษาไทย **Glocal Impact Instruct TH-EN 1K** เป็นชุดข้อมูลคำสั่ง (Instruction Dataset) จำนวน 1,000 รายการที่ออกแบบมาเพื่อพัฒนาและทดสอบ Large Language Models (LLMs) ในด้าน **การสืบค้นข้อมูลเชิงลึก (Deep Research)**, **การวางแผนกลยุทธ์การค้นหา**, และ **การวิเคราะห์ผลกระทบทางสังคม เศรษฐกิจ และสิ่งแวดล้อม** ครอบคลุมทั้งบริบทท้องถิ่นของไทยและระดับสากล ### ขั้นตอนการสร้างข้อมูล (Data Generation Process) ชุดข้อมูลนี้ถูกสร้างขึ้นผ่านกระบวนการ **Grounded Research Pipeline** ที่เข้มงวด: 1. **การเก็บรวบรวมข้อมูลดิบ:** รวบรวมข้อมูลจากเหตุการณ์จริง ข่าวสารระดับโลก และรายงานระดับท้องถิ่นผ่านการค้นหาเว็บไซต์แบบสด (Live Web Search) เพื่อให้ได้บริบทที่ทันสมัยและเกี่ยวข้องกับสถานการณ์ปัจจุบัน 2. **การสังเคราะห์คำสั่ง:** ใช้โมเดลภาษาขนาดใหญ่ที่มีพารามิเตอร์สูง (Gemma 4 31B) ในการเปลี่ยนข้อมูลดิบให้เป็นโจทย์การวิจัยที่ซับซ้อนและต้องใช้การคิดวิเคราะห์หลายขั้นตอน 3. **การเพิ่มข้อมูลเชิงกลยุทธ์:** ทุกโจทย์จะถูกเติมเต็มด้วยกลยุทธ์การค้นหาระดับผู้เชี่ยวชาญ, ขั้นตอนการตรวจสอบ (Milestones) และเป้าหมายเชิงผลกระทบ (Impact Goals) เพื่อนำทางกระบวนการใช้เหตุผลของโมเดล 4. **การปรับจูนสองภาษา:** โครงสร้างข้อมูลถูกออกแบบมาเพื่อรองรับความฉลาดข้ามภาษา (Thai-English) เพื่อให้โมเดลสามารถเชื่อมโยงและอุดช่องว่างของข้อมูลระหว่างแหล่งข้อมูลภาษาไทยและภาษาอังกฤษ ### โครงสร้างข้อมูล ในแต่ละรายการจะประกอบด้วย: - `category`: หมวดหมู่ของเนื้อหา (เช่น Health & Sciences, Global Resilience, Geopolitics) - `requires_report`: ค่า Boolean ระบุว่าโจทย์ต้องการผลลัพธ์เป็นรายงานแบบ HTML หรือไม่ - `prompt`: คำสั่งหลักที่ให้รายละเอียดบริบทและเป้าหมายอย่างละเอียด - `impact_goal`: วัตถุประสงค์หรือผลกระทบที่คาดหวังจากการวิจัย - `search_strategy`: กลยุทธ์การค้นหา (ประกอบด้วยคีย์เวิร์ดภาษาไทย ภาษาอังกฤษ และโดเมนเป้าหมาย) - `reference_milestones`: ขั้นตอนการตรวจสอบและวิเคราะห์ข้อมูลที่โมเดลควรค้นพบ - `key_verification_points`: จุดตรวจสอบสำคัญเพื่อยืนยันความถูกต้องของข้อมูล ### แนวทางการใช้งาน - ใช้สำหรับ Fine-tuning **Research Agents** - ทดสอบระบบ **RAG (Retrieval-Augmented Generation)** ในโจทย์ที่ซับซ้อนและต้องใช้การค้นหาหลายขั้นตอน - ประเมินความสามารถในการ **ให้เหตุผลข้ามภาษา (Cross-lingual Reasoning)** ## License Creative Commons Attribution 4.0 International (CC BY 4.0)

提供机构：

Phonsiri

5,000+

优质数据集

54 个

任务类型

进入经典数据集