ryderwishart/semantic-domains-greek-lemmatized

Name: ryderwishart/semantic-domains-greek-lemmatized
Creator: ryderwishart
Published: 2023-02-28 16:42:48
License: 暂无描述

Hugging Face2023-02-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ryderwishart/semantic-domains-greek-lemmatized

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个与希腊新约圣经相关的语义域数据集，数据经过词形还原处理。数据集包含训练、测试和评估三个部分，每个部分都包含tokens、tags和labels三个字段。tokens字段包含分词后的文本，tags字段包含每个语义域的整数ID，labels字段包含每个tag的标签字符串。数据集的语言为希腊语，包括古希腊语、通用希腊语和新约希腊语。数据集的创建基于Nestle1904基础文本，语义域基于Louw和 Nida的希腊新约语义域。

提供机构：

ryderwishart

原始信息汇总

数据集概述

数据集名称

Semantic Domains of the Greek New Testament (Lemmatized)

数据集类别

任务类别：token-classification
语言：el（希腊语，包括Hellenistic Greek, Koine Greek, Greek of the New Testament）
大小类别：1K<n<10K

数据集描述

数据集总结

该数据集包含与句子对齐的语义域，以及根据Clear-Bible/macula-greek数据进行词形还原的标记。语义域基于Louw和Nida的希腊新约语义域。

数据集结构

数据实例

训练集：包含6408个实例，特征包括tokens, tags, labels。
测试集：包含801个实例，特征包括tokens, tags, labels。
评估集：包含802个实例，特征包括tokens, tags, labels。

数据字段

tokens：文本单词，仅通过空格分割。
tags：每个语义域的整数ID，用于模型训练。
labels：每个标签的字符串，例如 89.124, 92.24 等。

数据分割

数据分为训练集（75%）、测试集（12.5%）和评估集（12.5%）。

数据集创建

希腊单词基于公共领域的Nestle1904基础文本。更多关于语义域标签含义的信息可在此处找到，或参考Louw和Nida的词典。

使用数据注意事项

数据集的社会影响

该数据可能用于进一步推广基督教义和荣耀上帝。

其他已知限制

Louw和Nida的语义域存在一些已知限制，详细讨论见此论文。

5,000+

优质数据集

54 个

任务类型

进入经典数据集