five

ryderwishart/semantic-domains-greek-lemmatized

收藏
Hugging Face2023-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ryderwishart/semantic-domains-greek-lemmatized
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个与希腊新约圣经相关的语义域数据集,数据经过词形还原处理。数据集包含训练、测试和评估三个部分,每个部分都包含tokens、tags和labels三个字段。tokens字段包含分词后的文本,tags字段包含每个语义域的整数ID,labels字段包含每个tag的标签字符串。数据集的语言为希腊语,包括古希腊语、通用希腊语和新约希腊语。数据集的创建基于Nestle1904基础文本,语义域基于Louw和 Nida的希腊新约语义域。

该数据集是一个与希腊新约圣经相关的语义域数据集,数据经过词形还原处理。数据集包含训练、测试和评估三个部分,每个部分都包含tokens、tags和labels三个字段。tokens字段包含分词后的文本,tags字段包含每个语义域的整数ID,labels字段包含每个tag的标签字符串。数据集的语言为希腊语,包括古希腊语、通用希腊语和新约希腊语。数据集的创建基于Nestle1904基础文本,语义域基于Louw和 Nida的希腊新约语义域。
提供机构:
ryderwishart
原始信息汇总

数据集概述

数据集名称

Semantic Domains of the Greek New Testament (Lemmatized)

数据集类别

  • 任务类别:token-classification
  • 语言:el(希腊语,包括Hellenistic Greek, Koine Greek, Greek of the New Testament)
  • 大小类别:1K<n<10K

数据集描述

数据集总结

该数据集包含与句子对齐的语义域,以及根据Clear-Bible/macula-greek数据进行词形还原的标记。语义域基于Louw和Nida的希腊新约语义域。

数据集结构

数据实例

  • 训练集:包含6408个实例,特征包括tokens, tags, labels。
  • 测试集:包含801个实例,特征包括tokens, tags, labels。
  • 评估集:包含802个实例,特征包括tokens, tags, labels。

数据字段

  • tokens:文本单词,仅通过空格分割。
  • tags:每个语义域的整数ID,用于模型训练。
  • labels:每个标签的字符串,例如 89.124, 92.24 等。

数据分割

数据分为训练集(75%)、测试集(12.5%)和评估集(12.5%)。

数据集创建

希腊单词基于公共领域的Nestle1904基础文本。更多关于语义域标签含义的信息可在此处找到,或参考Louw和Nida的词典。

使用数据注意事项

数据集的社会影响

该数据可能用于进一步推广基督教义和荣耀上帝。

其他已知限制

Louw和Nida的语义域存在一些已知限制,详细讨论见此论文

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作