ryderwishart/semantic-domains-greek-lemmatized
收藏Hugging Face2023-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ryderwishart/semantic-domains-greek-lemmatized
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个与希腊新约圣经相关的语义域数据集,数据经过词形还原处理。数据集包含训练、测试和评估三个部分,每个部分都包含tokens、tags和labels三个字段。tokens字段包含分词后的文本,tags字段包含每个语义域的整数ID,labels字段包含每个tag的标签字符串。数据集的语言为希腊语,包括古希腊语、通用希腊语和新约希腊语。数据集的创建基于Nestle1904基础文本,语义域基于Louw和 Nida的希腊新约语义域。
该数据集是一个与希腊新约圣经相关的语义域数据集,数据经过词形还原处理。数据集包含训练、测试和评估三个部分,每个部分都包含tokens、tags和labels三个字段。tokens字段包含分词后的文本,tags字段包含每个语义域的整数ID,labels字段包含每个tag的标签字符串。数据集的语言为希腊语,包括古希腊语、通用希腊语和新约希腊语。数据集的创建基于Nestle1904基础文本,语义域基于Louw和 Nida的希腊新约语义域。
提供机构:
ryderwishart
原始信息汇总
数据集概述
数据集名称
Semantic Domains of the Greek New Testament (Lemmatized)
数据集类别
- 任务类别:token-classification
- 语言:el(希腊语,包括Hellenistic Greek, Koine Greek, Greek of the New Testament)
- 大小类别:1K<n<10K
数据集描述
数据集总结
该数据集包含与句子对齐的语义域,以及根据Clear-Bible/macula-greek数据进行词形还原的标记。语义域基于Louw和Nida的希腊新约语义域。
数据集结构
数据实例
- 训练集:包含6408个实例,特征包括tokens, tags, labels。
- 测试集:包含801个实例,特征包括tokens, tags, labels。
- 评估集:包含802个实例,特征包括tokens, tags, labels。
数据字段
tokens:文本单词,仅通过空格分割。tags:每个语义域的整数ID,用于模型训练。labels:每个标签的字符串,例如 89.124, 92.24 等。
数据分割
数据分为训练集(75%)、测试集(12.5%)和评估集(12.5%)。
数据集创建
希腊单词基于公共领域的Nestle1904基础文本。更多关于语义域标签含义的信息可在此处找到,或参考Louw和Nida的词典。
使用数据注意事项
数据集的社会影响
该数据可能用于进一步推广基督教义和荣耀上帝。
其他已知限制
Louw和Nida的语义域存在一些已知限制,详细讨论见此论文。



