tw-reasoning-instruct-50k

Name: tw-reasoning-instruct-50k
Creator: maas
Published: 2025-12-05 16:35:25
License: 暂无描述

魔搭社区2025-12-05 更新2025-05-24 收录

下载链接：

https://modelscope.cn/datasets/twinkle-ai/tw-reasoning-instruct-50k

下载链接

链接失效反馈

官方服务：

资源简介：

# Dataset Card for tw-reasoning-instruct-50k ![image/png](https://cdn-uploads.huggingface.co/production/uploads/618dc56cbc345ca7bf95f3cd/kL4fLBuXhnLfu-ApESCAA.png)  **tw-reasoning-instruct-50k** 是一個精選的繁體中文（台灣）推理資料集，旨在提升語言模型於逐步邏輯思考、解釋生成與語言理解等任務中的表現。資料內容涵蓋日常思辨、教育對話、法律推理等多元主題，並結合「思考步驟」與「最終答案」的結構設計，引導模型以更清晰、條理分明的方式進行推論與回應，特別強調符合台灣本地語言與文化背景的應用需求。 ## Dataset Details ### Dataset Description  本資料集專為發展具備強大推理能力的繁體中文大型語言模型（Large Reasoning Models, LRM）所設計，內容深度結合台灣的語言與文化脈絡。每筆資料通常包含使用者的提問、模型的回應，以及清楚的推理過程。資料集設計目標為培養模型具備類人邏輯的逐步思考與解釋能力。此資料集適用於訓練與評估以下任務： - 台灣社會的日常推理 - 教育性對話 - 以解釋為導向的生成任務所有內容均以繁體中文（zh-tw）撰寫或改寫，確保符合台灣社會常見用語與語境。 - **Curated by:** [Huang Liang Hsun](https://huggingface.co/lianghsun) - **Funded by:** [APMIC](https://www.apmic.ai/) - **Shared by:** [Huang Liang Hsun](https://huggingface.co/lianghsun) - **Language(s) (NLP):** Tranditional Chinese and English - **License:** MIT ### Dataset Sources  - **Repository:** [lianghsun/tw-reasoning-instruct-50k](https://huggingface.co/datasets/lianghsun/tw-reasoning-instruct-50k) ## Uses  ### Direct Use  本資料集主要用於訓練與評估繁體中文語言模型在下列任務中的表現： - 具邏輯性的步驟式推理（step-by-step reasoning） - 回答時附帶清楚說明的解釋生成任務（explanation generation） - 教育類對話與知識傳遞 - 法律、學術或通識領域的理解與分析任務特別適用於強化模型在繁體中文語境中之邏輯推論與表達能力。 ### Out-of-Scope Use  - 自動生成法律意見或做出實際法律建議 - 用於高風險決策系統，如醫療診斷、金融投資建議等 - 任何違反社會倫理之惡意用途，例如散佈錯誤資訊、操弄輿論或偽造對話內容 - 用於與繁體中文語境不相符的任務，如簡體中文、大陸用語習慣分析等，可能導致表現失準 ## Dataset Structure  ```json { "input": # 使用者提出的問題 "think": # 模型的推理思考過程（以 <think> 標記開頭） "output": # 模型對使用者問題的最終回應 "conversations": [ {"from": "human", "value": ""}, # 與 input 相同的問題 {"from": "gpt", "value": ""} # 包含推理與回答的完整對話內容 ], "seed": # 該問題的主題或原始問題意圖描述 } ``` ## Dataset Creation ### Curation Rationale  本資料集旨在補足目前繁體中文語境中缺乏高品質推理訓練資料的缺口。現有多數中文語料偏重於問答、閒聊或簡單指令回應，缺乏能培養模型「逐步思考」、「多層邏輯分析」與「具備理由的回答」能力的資料。本資料集專注於收集與製作涵蓋教育、法律、學術、哲學與社會議題的推理型資料，並強調以繁體中文表達人類邏輯思考過程。其目的如下： - 建立符合臺灣語言文化的邏輯推理標準資料。 - 提供訓練模型產出更具解釋力、邏輯性與知識性的輸出樣本。 - 支援教育應用、法律科技與邏輯理解等 AI 任務的模型開發。 ## Bias, Risks, and Limitations  本資料集以繁體中文（臺灣）為核心，可能不適用於其他語境。推理內容來自模型生成，雖強調邏輯性，仍可能出現錯誤或偏誤，使用時需謹慎驗證。不建議直接應用於法律、醫療、金融等高風險場域。教育應用中亦應搭配人類審閱，避免過度依賴模型輸出。 ### Recommendations  使用者應充分了解本資料集在語言範疇、邏輯推理與知識正確性方面的潛在偏誤與限制。建議僅將其用於研究或模型訓練階段，避免直接應用於高風險情境，如法律或醫療決策。所有輸出內容應搭配人類審查與驗證，以確保其可靠性與適切性。 ## Citation  如果您使用本資料集，請引用： ```yaml @misc{huang2025twreasoninginstruct, author = {Twinkle AI, Huang, Liang Hsun}, title = {tw-reasoning-instruct: Traditional Chinese Reasoning Instructions for Taiwan-Based NLP Tasks}, year = {2025}, publisher = {Hugging Face}, howpublished = {\url{https://huggingface.co/datasets/lianghsun/tw-reasoning-instruct}}, note = {A curated reasoning dataset in Traditional Chinese (Taiwan), designed for instruction-tuned LLM development.} } ``` ## Dataset Card Authors [Twinkle AI](https://huggingface.co/twinkle-ai) ## Dataset Card Contact [Twinkle AI](https://huggingface.co/twinkle-ai)

# tw-reasoning-instruct-50k 数据集卡片 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/618dc56cbc345ca7bf95f3cd/kL4fLBuXhnLfu-ApESCAA.png)  **tw-reasoning-instruct-50k** 是一款精选的繁体中文（中国台湾地区）推理数据集，旨在提升语言模型在逐步逻辑思考、解释生成与语言理解等任务中的表现。数据集内容涵盖日常思辨、教育对话、法律推理等多元主题，并采用「思考步骤」与「最终答案」结合的结构设计，引导模型以更清晰、条理分明的方式开展推论与回应，特别适配中国台湾本地语言与文化背景的应用需求。 ## 数据集详情 ### 数据集描述  本数据集专为研发具备强大推理能力的繁体中文大型推理模型（Large Reasoning Models, LRM）打造，内容深度贴合中国台湾的语言与文化脉络。每笔数据通常包含用户提问、模型回应与清晰的推理过程。数据集的设计目标是培养模型具备类人逻辑的逐步思考与解释能力。本数据集适用于训练与评估以下任务： - 中国台湾社会的日常推理 - 教育性对话 - 以解释为导向的生成任务所有内容均以繁体中文（zh-tw）撰写或改写，确保符合中国台湾社会的通用用语与语境。 - **整理者**：[Huang Liang Hsun](https://huggingface.co/lianghsun) - **资助方**：[APMIC](https://www.apmic.ai/) - **共享方**：[Huang Liang Hsun](https://huggingface.co/lianghsun) - **自然语言处理所用语言**：繁体中文与英语 - **许可证**：MIT ### 数据集来源  - **代码仓库**：[lianghsun/tw-reasoning-instruct-50k](https://huggingface.co/datasets/lianghsun/tw-reasoning-instruct-50k) ## 用途 ### 直接用途  本数据集主要用于训练与评估繁体中文语言模型在以下任务中的表现： - 具备逻辑性的逐步推理（step-by-step reasoning） - 回答时附带清晰说明的解释生成（explanation generation）任务 - 教育类对话与知识传递 - 法律、学术或通识领域的理解与分析任务其特别适用于强化模型在繁体中文语境中的逻辑推论与表达能力。 ### 超出范围的使用场景  - 自动生成法律意见或作出实际法律建议 - 用于高风险决策系统，如医疗诊断、金融投资建议等 - 任何违反社会伦理的恶意用途，例如散布错误信息、操弄舆论或伪造对话内容 - 用于与繁体中文语境不相符的任务，如简体中文、大陆用语习惯分析等，可能导致模型表现失准 ## 数据集结构  json { "input": # 用户提出的问题 "think": # 模型的推理思考过程（以 <think> 标记开头） "output": # 模型对用户问题的最终回应 "conversations": [ {"from": "human", "value": ""}, # 与 input 内容一致的问题 {"from": "gpt", "value": ""} # 包含推理过程与最终回答的完整对话内容 ], "seed": # 该问题的主题或原始问题意图描述 } ## 数据集构建 ### 整理依据  本数据集旨在填补当前繁体中文语境中缺乏高品质推理训练数据的缺口。当前多数中文语料偏重问答、闲聊或简单指令回应，缺少能够培养模型「逐步思考」、「多层逻辑分析」与「带理由回答」能力的资料。本数据集专注于收集与制作涵盖教育、法律、学术、哲学与社会议题的推理型数据，并强调以繁体中文呈现人类逻辑思考过程。其构建目标如下： - 建立符合中国台湾语言文化的逻辑推理标准数据集。 - 提供训练模型产出更具解释力、逻辑性与知识性的输出样本。 - 支撑教育应用、法律科技与逻辑理解等AI任务的模型开发。 ## 偏误、风险与限制  本数据集以繁体中文（中国台湾）为核心适用语境，可能无法适配其他地区的语言与文化场景。推理内容源自模型生成，尽管强调逻辑性，仍可能存在错误或偏误，使用时需谨慎验证。不建议直接应用于法律、医疗、金融等高风险领域。在教育应用中也应搭配人工审阅，避免过度依赖模型输出。 ### 建议  用户应充分了解本数据集在语言范畴、逻辑推理与知识正确性方面的潜在偏误与限制。建议仅将其用于研究或模型训练阶段，避免直接应用于法律或医疗决策等高风险场景。所有输出内容均应搭配人工审查与验证，以确保其可靠性与适切性。 ## 引用  若您使用本数据集，请引用如下文献： yaml @misc{huang2025twreasoninginstruct, author = {Twinkle AI, Huang, Liang Hsun}, title = {tw-reasoning-instruct: Traditional Chinese Reasoning Instructions for Taiwan-Based NLP Tasks}, year = {2025}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/lianghsun/tw-reasoning-instruct}}, note = {A curated reasoning dataset in Traditional Chinese (Taiwan), designed for instruction-tuned LLM development.} } ## 数据集卡片撰写者 [Twinkle AI](https://huggingface.co/twinkle-ai) ## 数据集卡片联络方 [Twinkle AI](https://huggingface.co/twinkle-ai)

提供机构：

maas

创建时间：

2025-05-20

搜集汇总

数据集介绍