MOE-RMCD

Hugging Face2024-08-13 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ytchen175/MOE-RMCD

下载链接

链接失效反馈

官方服务：

资源简介：

MOE-RMCD是一个基于教育部《重編國語辭典修訂本》构建的繁體中文指令資料集，包含詞語解釋、簡繁轉換、單句釋義、近似詞與反義詞五大類任務，共計36萬筆指令。数据集旨在最大化利用原始資料的潛在價值，並排除了過於罕見的字，只保留了中日韓統一表意文字列表內的漢字。数据集以Alpaca格式呈現，提供了详细的任务分类和示例。

创建时间：

2024-08-13

原始信息汇总

数据集概述

数据集名称

ytchen175/MOE-RMCD

数据集简介

「教育部重編國語辭典修訂本指令資料集」（Ministry of Education Revised Mandarin Chinese Dictionary Instruction Dataset，简称 MOE-RMCD），是由教育部的《重編國語辭典修訂本》为底所构建的指令资料集。

数据集内容

基于最大化利用原始资料潜在价值的想法，从中抽取出五大类任务：

詞語解釋
簡繁轉換
單句釋義
近似詞
反義詞

共計 36 万笔指令 (instructions)。

数据集范围

排除了过于罕见的字，只留下中日韩统一表意文字列表（CJK Unified Ideographs）与中日韩统一表意文字扩展区 A（CJK Unified Ideographs Extension A）内的所有汉字。

数据集格式

使用 Alpaca 格式呈现此指令跟随数据集。

数据集详细信息

任务统计

任务	数量
詞語解釋 (interpret)	171,097
簡繁轉換 (translate_from_SC)	163,692
單句釋義 (POS)	8,170
近似詞 (synonym)	13,899
反義詞 (antonym)	8,603
总笔数 (total)	365,461

示例

簡繁轉換（translate_from_SC）
- 任务描述：以字符的层级而言，从繁体转到简体并没有问题，所以我们将原始语言为繁体中文的国语辞典的文本转换为简体，再作为此 instruction 的 input。
- 来源：国语辞典内无法被特别处理的文本。
- 数据示例 - 现代中文
  
  Instruction：翻譯成中文 Input：自然数的开始。 Output：自然數的開始。
- 数据示例 - 无法被特别处理的文本
  
  Instruction：翻譯成中文 Input：1.清洁。《红楼梦》第四四回：「那市卖的胭脂都不干净，颜色也薄。」《文明小史》第五二回...。 Output：1.清潔。《紅樓夢》第四四回：「那市賣的胭脂都不乾淨，顏色也薄。」《文明小史》第五二回...。
詞語解釋（interpret）
- 任务描述：解释词或给定句子求特定字的解释。
- 来源：根据国语辞典的「释义」拆分而成。
- 数据示例 - 词义
  
  Instruction：解釋這個詞 Input：泵 Output：一種用以增加液體的壓力，用來移動液體的裝置，即是對流體作功的機械。也稱為「幫浦」。
- 数据示例 - 现代中文例句
  
  Instruction：「你是不是背著我幹了什麼壞事？」裡面的「背」是什麼意思 Input：NaN Output：動詞，躲避、瞞著
- 数据示例 - 文言文例句
  
  Instruction：「《詩經．小雅．常棣》：「妻子好合，如鼓瑟琴。」裡面的「合」是什麼意思 Input：NaN Output：形容詞，和諧、融洽
單句釋義（POS）
- 任务描述：列出给定词语与词性，要求解释使用时机。
- 来源：根据国语辞典的「释义」拆分而成。
- 数据示例 – 单句释义
  
  Instruction：「旭」什麼時候可以做為這個詞性使用 Input：名詞 Output：剛升起的太陽。如：「朝旭」、「迎旭而舞」。
近似詞（synonym）
- 任务描述：列出给定词语的近似词。
- 来源：国语辞典的「相似词」。
- 数据示例 – 近似词
  
  Instruction：舉出 1 個近似詞 Input：大都 Output：多數
反義詞（antonym）
- 任务描述：列出给定词语的反义词。
- 来源：国语辞典的「相反词」。
- 数据示例 – 反义词
  
  Instruction：舉出 4 個反義詞 Input：寬大 Output：狹小、窄小、嚴厲、苛嚴

搜集汇总

数据集介绍

构建方式

MOE-RMCD数据集基于台湾教育部《重编国语辞典修订本》构建，旨在最大化利用原始资料的潜在价值。通过从辞典中提取五大类任务——词语解释、简繁转换、单句释义、近似词与反义词，共计36万笔指令。数据处理流程详细记录在GitHub上的预处理脚本中，确保了数据的系统性和可追溯性。

特点

该数据集涵盖了丰富的繁体中文语言任务，包括词语解释、简繁转换、单句释义、近似词与反义词等五大类。数据集特别排除了过于罕见的字，仅包含中日韩统一表意文字列表及其扩展区A内的汉字，确保了数据的广泛适用性和实用性。

使用方法

MOE-RMCD数据集采用Alpaca格式呈现，适用于自然语言处理中的指令跟随任务。用户可以通过提供的指令和输入输出示例，训练和测试模型在繁体中文处理上的能力。数据集的使用不仅限于学术研究，也可应用于教育、翻译软件等领域，提升繁体中文语言处理技术的准确性和效率。

背景与挑战

背景概述

MOE-RMCD数据集是基于台湾教育部《重编国语辞典修订本》构建的繁体中文指令数据集，旨在最大化利用原始资料的潜在价值。该数据集由ytchen175等人开发，涵盖了词语解释、简繁转换、单句释义、近似词与反义词五大类任务，共计36万笔指令。数据集的核心研究问题在于如何通过自然语言处理技术，提升对繁体中文文本的理解与生成能力，进而推动中文自然语言处理领域的发展。MOE-RMCD的创建不仅为研究者提供了丰富的语料资源，也为繁体中文的语言模型训练与评估提供了重要支持。

当前挑战

MOE-RMCD数据集在构建与应用过程中面临多重挑战。首先，繁体中文与简体中文的转换涉及复杂的语言规则与语境差异，如何在保持语义一致性的同时实现高效转换是一个技术难题。其次，词语解释与单句释义任务要求模型具备深厚的语言学知识，尤其是在处理文言文与现代中文混合文本时，模型的泛化能力面临严峻考验。此外，数据集的构建过程中需排除罕见字，仅保留CJK统一表意文字及其扩展区的汉字，这对数据的完整性与代表性提出了更高要求。最后，如何将Alpaca格式的指令数据集有效应用于实际任务，仍需进一步探索与优化。

常用场景

经典使用场景

MOE-RMCD数据集在自然语言处理领域中被广泛应用于中文语言模型的训练与评估。其丰富的指令数据涵盖了词义解释、简繁转换、词性标注、近义词与反义词识别等多个任务，为研究者提供了一个全面且多样化的中文语言理解测试平台。特别是在繁体中文与简体中文之间的转换任务中，该数据集展现了其独特的价值，帮助模型更好地理解和处理两种书写系统的差异。

衍生相关工作

MOE-RMCD数据集的发布催生了一系列相关研究与应用。例如，基于该数据集的中文语言模型在多项自然语言处理任务中取得了显著进展，包括机器翻译、文本生成与语义分析等。此外，该数据集还被用于开发多模态中文语言模型，结合图像与文本信息，进一步提升模型的表现。在学术界，MOE-RMCD为研究者提供了一个标准化的评估基准，推动了中文自然语言处理领域的技术创新与理论突破。

数据集最近研究