PolDraCor (Polish Drama Corpus)
收藏github2024-05-11 更新2024-05-31 收录
下载链接:
https://github.com/dracor-org/poldracor
下载链接
链接失效反馈官方服务:
资源简介:
PolDraCor是一个包含10部波兰戏剧文本的数据集,这些文本被转换为TEI格式,主要来源于波兰国家图书馆的数字资源。数据集的选择基于非韵文、原生波兰作品、反映日常生活的主题等标准。目前包含10部戏剧,最终将包含50部。
PolDraCor is a dataset comprising 10 Polish drama texts, which have been converted into TEI (Text Encoding Initiative) format, primarily sourced from the digital resources of the Polish National Library. The selection of the dataset is based on criteria such as non-verse, native Polish works, and themes reflecting everyday life. Currently, it includes 10 dramas, with the final goal of encompassing 50.
创建时间:
2023-05-01
原始信息汇总
PolDraCor (Polish Drama Corpus) 概述
数据集来源与制作
- 负责人:由 Magdalena Pastuch 教授领导,Barbara Mitrenga 博士和 Kinga Wąsińska 博士协调。
- 团队:Historical Pragmalinguistic Team at the Institute of Linguistics, University of Silesia in Katowice, Poland。
- 文本来源:主要来自波兰国家图书馆 POLONA 的数字化文本。
- 技术支持:CLARIN-PL/Wrocław University of Science and Technology 的 Jan Wieczorek 博士、Tomasz Bernaś 和 Tomasz Naskręt。
数据集内容
- 戏剧数量:目前包括10部戏剧,最终计划包含50部。
- 时间范围:1772–1939年。
- 选择标准:
- 非诗歌文本。
- 原始波兰作品。
- 主题涉及日常生活、道德、家庭。
- 反映当时社会现实的生动情节。
- 角色代表不同社会阶层。
- 非官方和表达性语言。
引用信息
- 参考文献:Mitrenga B., Pastuch M., Wąsińska K., Możliwości i ograniczenia historycznych badań pragmalingwistycznych, w: W kręgu dawnej polszczyzny, T. 7, red. M. Mączyński, E. Horyń, E. Zmuda, Wydawnictwo Akademia Ignatianum, Kraków 2021, s. 163–181. ISBN 978-8376145006.
搜集汇总
数据集介绍

构建方式
PolDraCor(波兰戏剧语料库)的构建过程体现了多方协作的严谨性。该语料库由波兰卡托维兹西里西亚大学的历史语用语言学团队主导,由Magdalena Pastuch教授领导,Barbara Mitrenga博士和Kinga Wąsińska博士共同协调。戏剧文本主要来源于波兰国家图书馆的数字资源POLONA,并通过OCR技术进行初步处理,随后由研究团队进行手动校正。技术上,从HTML和txt格式到TEI格式的转换得到了CLARIN-PL(通用语言资源与技术基础设施)的技术支持,由Jan Wieczorek博士、Tomasz Bernaś和Tomasz Naskręt负责。
使用方法
PolDraCor语料库适用于多种语言学研究,尤其是历史语用学、社会语言学和戏剧文本分析。研究者可以通过TEI格式的文件进行深入的语言特征分析,包括词汇使用、语法结构和社会语境的语用分析。此外,该语料库的开放性使得研究者能够结合其他历史文本资源,进行跨时代的语言对比研究。引用时,建议使用Mitrenga等人2021年的出版物作为参考。
背景与挑战
背景概述
PolDraCor(波兰戏剧语料库)是由波兰卡托维兹西里西亚大学语言学研究所的历史语用语言学团队主导创建的。该语料库的核心研究团队包括Magdalena Pastuch教授、Barbara Mitrenga博士和Kinga Wąsińska博士,他们通过协作将10部戏剧文本转换为TEI格式。这些戏剧文本主要来源于波兰国家图书馆的数字资源POLONA,并经过OCR识别后的手动校正。PolDraCor的构建旨在收集1772年至1939年间具有代表性的波兰戏剧文本,这些文本反映了当时的社会现实,涵盖了日常、道德和家庭主题,并使用了非官方且富有表现力的语言。该语料库的最终目标是包含50部戏剧,目前正在进行更多戏剧文本的TEI格式转换工作。
当前挑战
PolDraCor的构建过程中面临多项挑战。首先,从POLONA获取的原始文本需要经过OCR识别和手动校正,这一过程耗时且容易出错。其次,将HTML和txt格式的文本转换为TEI格式需要技术支持,这涉及到复杂的文本结构和格式标准化问题。此外,选择符合特定标准的戏剧文本也是一个挑战,研究团队需要确保所选文本能够反映特定历史时期的社会现实和语言特征。最后,随着语料库规模的扩展,如何确保数据的一致性和质量也是一个持续的挑战。
常用场景
经典使用场景
PolDraCor(波兰戏剧语料库)作为一个精心构建的戏剧文本集合,主要用于语言学、历史学和社会学领域的研究。其经典使用场景包括对18世纪末至20世纪初波兰社会语言的深入分析,特别是通过戏剧文本中的人物对话和情节发展,揭示当时社会的语言使用习惯、社会阶层结构以及文化价值观。此外,该语料库还常用于历史语言学研究,通过分析不同时期的戏剧文本,探索语言随时间演变的过程。
解决学术问题
PolDraCor通过提供经过TEI标准编码的戏剧文本,解决了历史语言学和语用学研究中的多个关键问题。首先,它为研究者提供了高质量的文本数据,使得对历史语言的精确分析成为可能。其次,通过包含社会各阶层的对话,该语料库有助于揭示特定历史时期的社会语言动态和语用规则。此外,PolDraCor还为跨学科研究提供了丰富的素材,促进了语言学与社会学、历史学等学科的交叉研究。
实际应用
在实际应用中,PolDraCor为语言学家、历史学家和社会学家提供了宝贵的研究资源。例如,语言学家可以利用该语料库进行语言演变和语用分析,历史学家则可以通过分析戏剧文本中的社会背景和人物对话,重构特定历史时期的社会风貌。此外,该语料库还可用于开发自然语言处理工具,特别是在处理历史文本和多层次语义分析方面,为语言技术的进步提供了新的可能性。
数据集最近研究
最新研究方向
在语言学与戏剧研究的交叉领域,PolDraCor(波兰戏剧语料库)的最新研究方向主要集中在历史语用学与社会语言学的深度分析。该语料库通过收录1772至1939年间的波兰戏剧文本,提供了丰富的语言材料,尤其关注非官方语言和社会各阶层人物的表达方式。研究者们正利用这些文本进行跨时代的语用分析,探索语言在不同社会背景下的演变与功能。此外,PolDraCor的TEI格式转换为技术研究提供了便利,促进了语料库在自然语言处理和计算语言学中的应用,进一步推动了历史语言学与现代技术的有机结合。
以上内容由遇见数据集搜集并总结生成



