Phonsiri/Glocal-Impact-Instruct-TH-EN-1K
收藏Hugging Face2026-04-18 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Phonsiri/Glocal-Impact-Instruct-TH-EN-1K
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- text-generation
- question-answering
language:
- th
- en
tags:
- impact
- research
- agent
- bilingual
- reasoning
- rag
size_categories:
- 1K<n<10K
---
# Glocal Impact Instruct TH-EN 1K
[**Thai Version Below** | **ภาษาไทยอยู่ด้านล่าง**]
## English Description
**Glocal Impact Instruct TH-EN 1K** is an instruction dataset containing 1,000 tasks designed for developing and evaluating Large Language Models (LLMs) in the areas of **Deep Research**, **Strategic Search Planning**, and **Socio-Economic & Environmental Impact Analysis**. It covers both local Thai contexts and global perspectives.
### Data Generation Process
This dataset was synthesized through a rigorous **Grounded Research Pipeline**:
1. **Raw Data Harvesting:** Real-world data, global news, and local reports were gathered via live web searches to ensure up-to-date and relevant contexts.
2. **Instruction Synthesis:** A high-parameter language model (Gemma 4 31B) was employed to transform raw information into complex, multi-hop research tasks.
3. **Strategy Augmentation:** Each task was enriched with expert-level search strategies, verification milestones, and impact goals to guide the model's reasoning process.
4. **Bilingual Alignment:** Tasks were carefully structured to support cross-lingual intelligence (Thai-English), enabling models to bridge information gaps between local and international sources.
### Data Structure
Each entry contains:
- `category`: Topic category (e.g., Health & Sciences, Global Resilience, Geopolitics).
- `requires_report`: Boolean indicating if an HTML report is requested.
- `prompt`: Detailed instruction with context and goals.
- `impact_goal`: The intended outcome or impact of the research.
- `search_strategy`: Multi-step search keywords (Thai & English) and target domains.
- `reference_milestones`: Expected verification phases and keywords.
- `key_verification_points`: Critical points to ensure data accuracy.
### Use Cases
- Fine-tuning **Research Agents**.
- Testing **RAG (Retrieval-Augmented Generation)** systems with complex, multi-step queries.
- Evaluating **Cross-lingual Reasoning** capabilities.
---
## รายละเอียดภาษาไทย
**Glocal Impact Instruct TH-EN 1K** เป็นชุดข้อมูลคำสั่ง (Instruction Dataset) จำนวน 1,000 รายการที่ออกแบบมาเพื่อพัฒนาและทดสอบ Large Language Models (LLMs) ในด้าน **การสืบค้นข้อมูลเชิงลึก (Deep Research)**, **การวางแผนกลยุทธ์การค้นหา**, และ **การวิเคราะห์ผลกระทบทางสังคม เศรษฐกิจ และสิ่งแวดล้อม** ครอบคลุมทั้งบริบทท้องถิ่นของไทยและระดับสากล
### ขั้นตอนการสร้างข้อมูล (Data Generation Process)
ชุดข้อมูลนี้ถูกสร้างขึ้นผ่านกระบวนการ **Grounded Research Pipeline** ที่เข้มงวด:
1. **การเก็บรวบรวมข้อมูลดิบ:** รวบรวมข้อมูลจากเหตุการณ์จริง ข่าวสารระดับโลก และรายงานระดับท้องถิ่นผ่านการค้นหาเว็บไซต์แบบสด (Live Web Search) เพื่อให้ได้บริบทที่ทันสมัยและเกี่ยวข้องกับสถานการณ์ปัจจุบัน
2. **การสังเคราะห์คำสั่ง:** ใช้โมเดลภาษาขนาดใหญ่ที่มีพารามิเตอร์สูง (Gemma 4 31B) ในการเปลี่ยนข้อมูลดิบให้เป็นโจทย์การวิจัยที่ซับซ้อนและต้องใช้การคิดวิเคราะห์หลายขั้นตอน
3. **การเพิ่มข้อมูลเชิงกลยุทธ์:** ทุกโจทย์จะถูกเติมเต็มด้วยกลยุทธ์การค้นหาระดับผู้เชี่ยวชาญ, ขั้นตอนการตรวจสอบ (Milestones) และเป้าหมายเชิงผลกระทบ (Impact Goals) เพื่อนำทางกระบวนการใช้เหตุผลของโมเดล
4. **การปรับจูนสองภาษา:** โครงสร้างข้อมูลถูกออกแบบมาเพื่อรองรับความฉลาดข้ามภาษา (Thai-English) เพื่อให้โมเดลสามารถเชื่อมโยงและอุดช่องว่างของข้อมูลระหว่างแหล่งข้อมูลภาษาไทยและภาษาอังกฤษ
### โครงสร้างข้อมูล
ในแต่ละรายการจะประกอบด้วย:
- `category`: หมวดหมู่ของเนื้อหา (เช่น Health & Sciences, Global Resilience, Geopolitics)
- `requires_report`: ค่า Boolean ระบุว่าโจทย์ต้องการผลลัพธ์เป็นรายงานแบบ HTML หรือไม่
- `prompt`: คำสั่งหลักที่ให้รายละเอียดบริบทและเป้าหมายอย่างละเอียด
- `impact_goal`: วัตถุประสงค์หรือผลกระทบที่คาดหวังจากการวิจัย
- `search_strategy`: กลยุทธ์การค้นหา (ประกอบด้วยคีย์เวิร์ดภาษาไทย ภาษาอังกฤษ และโดเมนเป้าหมาย)
- `reference_milestones`: ขั้นตอนการตรวจสอบและวิเคราะห์ข้อมูลที่โมเดลควรค้นพบ
- `key_verification_points`: จุดตรวจสอบสำคัญเพื่อยืนยันความถูกต้องของข้อมูล
### แนวทางการใช้งาน
- ใช้สำหรับ Fine-tuning **Research Agents**
- ทดสอบระบบ **RAG (Retrieval-Augmented Generation)** ในโจทย์ที่ซับซ้อนและต้องใช้การค้นหาหลายขั้นตอน
- ประเมินความสามารถในการ **ให้เหตุผลข้ามภาษา (Cross-lingual Reasoning)**
## License
Creative Commons Attribution 4.0 International (CC BY 4.0)
提供机构:
Phonsiri



