Penn Parsed Corpus of Historical Yiddish

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/beatrice57/penn-parsed-corpus-of-historical-yiddish

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包含约200,000个历史（及现代）意第绪语单词。其中最大的贡献来自两个20世纪的文本，分别是1910年的《绿色田野》（15,611个单词）和1947年的《红色柑橘》（67,558个单词）。数据集最初是为了收集与意第绪语从句历史变化相关的语言学相关例子的集合。尽管大多数文件已被更新为包含连续文本，但有些文件仍然只包含从句。

This corpus comprises approximately 200,000 historical (and modern) Yiddish words. The largest contributions come from two 20th-century texts: 'Green Fields' from 1910 (15,611 words) and 'Red Citrus' from 1947 (67,558 words). The dataset was initially compiled to gather linguistic examples related to the historical changes in Yiddish clauses. Although most files have been updated to include continuous text, some still contain only clauses.

创建时间：

2021-07-01

原始信息汇总

数据集概述

数据集名称

Penn Parsed Corpus of Historical Yiddish

数据集内容

包含约200,000字的历史上和现代的Yiddish文本。
主要来源为两部20世纪的文本：
- 1910e-grine-felder (15,611字)
- 1947e-royte-pomerantsn (67,558字)

数据集用途

最初作为研究Yiddish历史上从属子句语法变化的相关例子的集合。尽管多数文件已更新为包含连续文本，部分文件仍仅包含从属子句。

数据集搜索工具

可使用CorpusSearch进行搜索，相关资源包括：

下载链接：https://sourceforge.net/projects/corpussearch/
用户指南：https://www.ling.upenn.edu/~beatrice/corpus-ling/CS-users-guide/index.html

数据集版权

根据Creative Commons License Attribution-NonCommercial-ShareAlike 4.0 International CC BY-NC-SA 4.0 (https://creativecommons.org/licenses/by-nc-sa/4.0/)分发。

数据集引用

Santorini, Beatrice. 2021. Penn Parsed Corpus of Historical Yiddish, v1.0. https://github.com/beatrice57/penn-parsed-corpus-of-historical-yiddish

搜集汇总

数据集介绍

构建方式

Penn Parsed Corpus of Historical Yiddish（宾夕法尼亚历史意第绪语解析语料库）的构建基于对历史和现代意第绪语文本的深入研究。该语料库主要由两部20世纪的文本构成，分别是1910年的《绿色田野》和1947年的《红色石榴》，共计约20万字。这些文本最初是为了研究意第绪语从句语法变化而收集的，尽管大部分文件已更新为连续文本，但仍有一些保留了其原始形式，仅包含从句。

使用方法

Penn Parsed Corpus of Historical Yiddish可以通过CorpusSearch工具进行搜索和分析。用户可以下载CorpusSearch软件，并参考用户指南进行操作。此外，数据集还附带了两份未发表的研究论文，这些论文基于该语料库，为研究者提供了额外的学术资源。通过这些工具和资源，研究者可以进行深入的语言学研究，特别是关于意第绪语从句语法的历史演变。

背景与挑战

背景概述

Penn Parsed Corpus of Historical Yiddish（宾夕法尼亚大学历史意第绪语解析语料库）是由Beatrice Santorini教授于2021年创建的，旨在研究意第绪语从属子句在历史演变中的句法变化。该语料库包含了约20万词的历史和现代意第绪语文本，主要来源于20世纪的两部重要作品。Santorini教授的研究不仅丰富了意第绪语的句法分析，还为语言学研究提供了宝贵的历史数据，特别是在从属子句的演变研究方面具有重要意义。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，收集和整理历史意第绪语文本，确保其语言学相关性和准确性；其次，由于部分文件仅包含从属子句，而非完整文本，这增加了数据处理的复杂性。此外，如何有效地利用CorpusSearch工具进行语料库搜索，以提取和分析句法变化信息，也是一项技术挑战。这些挑战不仅影响了数据集的构建，也对其在语言学研究中的应用提出了更高的要求。

常用场景

经典使用场景

Penn Parsed Corpus of Historical Yiddish（宾夕法尼亚历史意第绪语解析语料库）的经典使用场景主要集中在语言学研究领域，特别是意第绪语的历史语法和句法变化分析。研究者可以利用该语料库中的大量历史和现代意第绪语文本，进行深入的句法结构分析和语法演变研究。通过CorpusSearch工具，研究者能够高效地检索和分析语料库中的数据，从而揭示意第绪语在不同历史时期的句法特征和变化规律。

解决学术问题

该数据集解决了语言学研究中关于意第绪语句法演变的关键问题，为研究者提供了丰富的历史和现代文本数据，有助于深入探讨意第绪语从古至今的句法结构变化。通过分析这些数据，学者们能够更好地理解意第绪语的语法演变机制，填补了该领域研究中的空白，推动了历史语言学和比较语言学的发展。

实际应用

在实际应用中，Penn Parsed Corpus of Historical Yiddish为语言学家、历史学家和文化研究者提供了宝贵的资源。例如，研究者可以利用该语料库分析意第绪语在不同历史时期的文学作品中的句法特征，从而揭示文化和社会背景对语言结构的影响。此外，该语料库还可用于开发和测试自然语言处理模型，特别是在处理历史文本和多语言数据方面。

数据集最近研究