Jerusalem Corpus of Emergent Modern Hebrew
收藏github2022-02-27 更新2024-05-31 收录
下载链接:
https://github.com/JEMHcorpus/corpora
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含耶路撒冷新兴现代希伯来语的注释文本,文本以多种格式提供,包括TEI-XML和relAnnis。
This dataset comprises annotated texts of emerging Modern Hebrew from Jerusalem, available in multiple formats including TEI-XML and relAnnis.
创建时间:
2018-02-12
原始信息汇总
数据集概述
数据集名称
Jerusalem Corpus of Emergent Modern Hebrew
数据集内容
包含注释文本的发布,这些文本来自Jerusalem Corpus of Emergent Modern Hebrew。
数据格式
- TEI-XML
- relAnnis
许可信息
CC-BY 4.0,要求署名。
引用信息
Rubinstein, Aynat. 2019. "Historical corpora meet the digital humanities: the Jerusalem Corpus of Emergent Modern Hebrew". Language Resources and Evaluation 53(4): 807-835.
搜集汇总
数据集介绍

构建方式
耶路撒冷现代希伯来语语料库(Jerusalem Corpus of Emergent Modern Hebrew, JEMH)的构建基于对历史文献的深度挖掘与数字化处理。该数据集通过收集和整理19世纪末至20世纪初的希伯来语文本,采用TEI-XML和relAnnis等多种格式进行标注,确保了数据的多样性和可扩展性。所有文本均经过严格的学术审查,以确保其历史准确性和语言学价值。
特点
JEMH数据集的特点在于其丰富的历史背景和语言学价值。该数据集涵盖了从19世纪末到20世纪初的希伯来语文本,反映了现代希伯来语的形成过程。数据集中的文本经过精细的标注,支持多种格式,便于研究者进行多角度的语言学分析。此外,数据集遵循CC-BY 4.0许可,确保了其开放性和可访问性。
使用方法
使用JEMH数据集时,研究者可以通过TEI-XML或relAnnis格式访问文本数据,进行语言学、历史学或数字人文领域的研究。数据集提供了详细的元数据信息,便于用户进行数据筛选和分析。引用时需遵循CC-BY 4.0许可的要求,并参考Rubinstein, Aynat在2019年发表的论文,以确保学术规范。
背景与挑战
背景概述
耶路撒冷现代希伯来语语料库(Jerusalem Corpus of Emergent Modern Hebrew, JEMH)由Aynat Rubinstein于2019年创建,旨在为研究现代希伯来语的历史演变提供丰富的文本资源。该语料库收录了多种格式的注释文本,包括TEI-XML和relAnnis,涵盖了希伯来语从19世纪末到20世纪初的早期发展阶段。通过这一语料库,研究人员能够深入探讨希伯来语在现代化进程中的语言变化、语法结构及词汇使用等问题。该语料库的发布不仅为历史语言学领域提供了宝贵的数据支持,还推动了数字人文与语言资源评估的交叉研究。
当前挑战
JEMH语料库的构建面临多重挑战。首先,现代希伯来语的早期文本资源稀缺且分散,收集和整理这些文本需要耗费大量时间和精力。其次,由于希伯来语在现代化过程中经历了显著的语法和词汇变化,如何准确标注这些历史文本的语言特征成为一大难题。此外,语料库的格式多样化(如TEI-XML和relAnnis)虽然增强了数据的可用性,但也增加了数据处理和整合的复杂性。这些挑战不仅考验了研究团队的技术能力,也对语料库的长期维护和更新提出了更高要求。
常用场景
经典使用场景
耶路撒冷现代希伯来语语料库(JEMH)是研究现代希伯来语发展历程的重要资源。该数据集广泛应用于语言学和历史语言学研究领域,特别是在探索语言演变、词汇变化以及语法结构的发展方面。研究者通过分析这些文本,能够深入理解希伯来语从古典到现代的转变过程,揭示语言与社会文化变迁之间的复杂关系。
衍生相关工作
基于JEMH数据集,研究者们开展了多项经典工作。例如,Rubinstein(2019)利用该语料库分析了现代希伯来语的语法结构变化,揭示了语言复兴过程中的创新与保守现象。此外,该数据集还催生了多篇关于希伯来语历史语言学的研究论文,为语言演变理论提供了新的视角和证据。这些工作不仅丰富了希伯来语研究的学术成果,也为其他濒危语言的复兴研究提供了借鉴。
数据集最近研究
最新研究方向
在希伯来语历史语言学领域,耶路撒冷现代希伯来语语料库(JEMH)为研究者提供了丰富的文本资源,特别是在现代希伯来语形成初期的语言演变研究方面。近年来,研究者们利用该数据集,结合数字人文技术,深入探讨了语言接触、语言标准化以及社会语言学因素对语言变化的影响。这些研究不仅揭示了现代希伯来语在19世纪末至20世纪初的复杂发展轨迹,还为语言复兴和语言规划提供了重要的历史参考。此外,随着自然语言处理技术的进步,JEMH也被应用于机器翻译和文本生成模型的训练,进一步推动了希伯来语在人工智能领域的应用。
以上内容由遇见数据集搜集并总结生成



