cherokee-english-bible-7.96k|双语翻译数据集|宗教文本数据集
收藏Cherokee-English Bible Dataset (8k)
概述
Cherokee-English Bible Dataset 是一个包含8,000条记录的专门数据集,每条记录包含一段切罗基语圣经及其对应的英语翻译。该数据集对于语言学者、神学家和从事语言处理工具开发的开发者来说是一个宝贵的资源,尤其是在宗教文本的背景下深入理解切罗基语和英语。
数据结构
数据集中的每条记录都是一个JSON对象,包含以下字段:
- id: 每条记录的唯一标识符,格式为六位数字。
- cherokee: 切罗基语圣经的切罗基语音节文字表示。
- cherokee_phonetic: 切罗基语圣经的音标转录,提供发音指南。
- english: 切罗基语圣经的英语翻译。
- category: 文本的类别或领域,此处为“bible”,表示宗教经文。
- source: 文本的来源,即圣经。
- instruction: 翻译的示例指令或用例,指示数据集的预期用途。
- input: 用于翻译的切罗基语圣经输入。
- output: 描述性输出,解释英语翻译。
- rag: 翻译关系的更正式表示。
示例条目
json { "id": "020301", "cherokee": "ᏔᎵᏁᏃ ᏭᏴᎴ ᏗᎦᎳᏫᎢᏍᏗᏱ; ᎾᎿᎭᏃ ᎡᏙᎮ ᎠᏍᎦᏯ ᎤᏬᏰᏂ ᎤᏩᎢᏎᎸᎯ.", "cherokee_phonetic": "Ta-li-ne-no wu-yv-le di-ga-la-wi-i-s-di-yi; na-hna-no e-do-he a-s-ga-ya u-wo-ye-ni u-wa-i-se-lv-hi.", "english": "And he entered again into the synagogue; and there was a man there which had a withered hand.", "category": "bible", "source": "bible", "instruction": "translate following Cherokee sentences into English.", "input": "ᏔᎵᏁᏃ ᏭᏴᎴ ᏗᎦᎳᏫᎢᏍᏗᏱ; ᎾᎿᎭᏃ ᎡᏙᎮ ᎠᏍᎦᏯ ᎤᏬᏰᏂ ᎤᏩᎢᏎᎸᎯ.", "output": "The sentence ᏔᎵᏁᏃ ᏭᏴᎴ ᏗᎦᎳᏫᎢᏍᏗᏱ; ᎾᎿᎭᏃ ᎡᏙᎮ ᎠᏍᎦᏯ ᎤᏬᏰᏂ ᎤᏩᎢᏎᎸᎯ. in the Cherokee syllabary translates to And he entered again into the synagogue; and there was a man there which had a withered hand. in English.", "rag": "The English translation for "ᏔᎵᏁᏃ ᏭᏴᎴ ᏗᎦᎳᏫᎢᏍᏗᏱ; ᎾᎿᎭᏃ ᎡᏙᎮ ᎠᏍᎦᏯ ᎤᏬᏰᏂ ᎤᏩᎢᏎᎸᎯ." is "And he entered again into the synagogue; and there was a man there which had a withered hand."" }
用途
该数据集可以用于多种方式,包括但不限于:
- 训练机器学习模型,用于宗教背景下的切罗基语-英语翻译。
- 支持开发专注于圣经文本的语言学习应用程序。
- 协助创建双语宗教资源,用于教育和精神目的。
- 促进比较神学和神圣文本语言学方面的研究。
来源和归属
该数据集中的翻译来自切罗基语圣经。在使用数据集进行任何用途时,应给予该来源适当的归属。
限制
请注意,虽然数据集包含音标转录,但这些转录的准确性和完整性应根据具体用途进行验证,特别是在学术或宗教背景下。

Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录
中国区域教育数据库
该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。
www.moe.gov.cn 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录