cherokee-english-word-10.2k
收藏Cherokee-English Word Dataset (10k)
概述
Cherokee-English Word Dataset 是一个包含10,000个条目的综合数据集,每个条目包含一个切罗基语单词及其英语翻译。该数据集旨在促进语言学研究、支持机器翻译模型的开发,并支持旨在保护和推广切罗基语的教育计划。
数据结构
每个条目都以JSON对象的形式结构化,包含以下字段:
- id: 每个条目的唯一标识符。
- cherokee: 切罗基语单词,以切罗基音节文字表示。
- cherokee_phonetic: 切罗基语单词的音标转录(当前数据集中为空,未来版本可能会填充)。
- english: 切罗基语单词的英语翻译。
- category: 单词的类别或领域,本例中为“dict”表示词典。
- source: 翻译来源的归属信息。
- instruction: 翻译的示例指令或使用案例。
- input: 用于翻译的切罗基语单词输入。
- output: 解释翻译的描述性输出。
- rag: 翻译关系的更正式表示。
示例条目
json { "id": "2ea0659a-b8bd-4be9-a0a6-df56104fdf84", "cherokee": "ᎧᏃᎮᏍᎩ", "cherokee_phonetic": "", "english": "indicator", "category": "dict", "source": "Dr Durbin Feeling Cherokee English Dictionary 1975", "instruction": "I need help with translating this Cherokee word into English.", "input": "ᎧᏃᎮᏍᎩ", "output": "ᎧᏃᎮᏍᎩ is the Cherokee word for indicator in English.", "rag": "The English translation for "ᎧᏃᎮᏍᎩ" is "indicator"" }
用途
该数据集可用于多种方式,包括但不限于:
- 训练切罗基语-英语翻译的机器学习模型。
- 支持语言学习应用和工具。
- 协助开发切罗基语资源和教育材料。
- 促进比较语言学和计算语言学的研究。
来源和归属
该数据集中的翻译来自“Dr Durbin Feeling Cherokee English Dictionary 1975”。在使用数据集进行任何用途时,应给予该来源适当的归属。
限制
请注意,该数据集目前不包含切罗基语单词的音标转录。未来的更新可能会包含此信息以增强数据集的实用性。




