EmpiriST corpus

github2023-07-28 更新2024-05-31 收录

下载链接：

https://github.com/fau-klue/empirist-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

EmpiriST语料库是一个手动标注的语料库，包含德语网页和德语计算机中介交流（CMC），即书面话语。CMC类型包括单向和对话推文、社交和专业聊天、维基百科讨论页面的线程、WhatsApp交互和博客评论。

The EmpiriST corpus is a manually annotated corpus comprising German web texts and German computer-mediated communication (CMC), which refers to written discourse. The types of CMC include both unidirectional and conversational tweets, social and professional chats, threads from Wikipedia discussion pages, WhatsApp interactions, and blog comments.

创建时间：

2019-08-20

原始信息汇总

数据集概述

名称: EmpiriST corpus

类型: 手动标注的语料库，包含德语网页和德语计算机中介交流（CMC）文本。

内容: CMC类型包括单向和双向推文、社交和专业聊天、维基百科讨论页的线程、WhatsApp互动和博客评论。

数据集规模

	CMC	Web	Total
训练	5,109	4,944	10,053
测试	5,237	7,568	12,805
总计	10,346	12,512	22,858

数据集特点

标注: 包括词形、STTS IBK标签、UD POS标签、USAS标签、规范化形式、表面导向的词干和规范化词干。
处理: 数据经过手动分词、词性标注、句子分割、规范化、词干化和语义标注。
格式: 采用“垂直”格式，适合导入Open Corpus Workbench, CQPweb, SketchEngine等工具。

数据集历史

创建: 由Beißwenger等人于2016年创建，用于EmpiriST 2015共享任务。
更新: Rehbein等人于2018年添加了句子边界并自动映射STTS pos标签到UD pos标签。Proisl等人于2020年进行了手动规范化、词干化和语义标注。

作者

原始数据收集和标注: Michael Beißwenger, Sabine Bartsch, Stefan Evert, Kay-Michael Würzner。
句子边界和标签映射: Ines Rehbein, Josef Ruppenhofer, Victor Zimmermann。
规范化、词干化和语义标注: Thomas Proisl, Natalie Dykes, Philipp Heinrich, Besim Kabashi, Stefan Evert。

搜集汇总

数据集介绍

构建方式

EmpiriST语料库的构建过程体现了多阶段的精细处理。最初，该语料库由Beißwenger等人于2016年创建，专门用于EmpiriST 2015共享任务，涵盖了德语网页和计算机介导通信（CMC）文本。数据经过人工分词和词性标注，并由任务组织者进行最终裁决以确保标注的准确性。随后，Rehbein等人在2018年进一步整合了该数据集，添加了句子边界，并将词性标签自动映射到通用依存（UD）词性标签。2020年，Proisl等人对数据进行了手动标准化和词形还原，并将其转换为适合导入语料库工具的垂直格式。

使用方法

EmpiriST语料库的使用方法灵活多样，适用于多种自然语言处理任务。用户可以通过提取训练集和测试集来构建模型，语料库的垂直格式使其能够轻松导入Open Corpus Workbench、CQPweb、SketchEngine等语料库工具。此外，语料库的丰富标注信息为词性标注、语义分析、标准化和词形还原等任务提供了坚实的基础。用户还可以利用语料库中的USAS语义标签进行更深层次的语义分析，探索CMC文本中的语言现象。

背景与挑战

背景概述

EmpiriST语料库是一个手动标注的德语语料库，涵盖了德语网页和计算机媒介通信（CMC）的文本内容，如推文、社交媒体聊天、维基百科讨论页、WhatsApp互动和博客评论等。该语料库最初由Beißwenger等人于2016年为EmpiriST 2015共享任务创建，旨在解决德语社交媒体数据的自动语言标注问题。随后，Rehbein等人于2018年将其纳入德语社交媒体数据词性标注的统一测试套件中，并进一步扩展了其标注内容。2020年，Proisl等人对语料库进行了手动标准化、词形还原和语义标注，使其适用于多种语料库工具。该语料库在德语自然语言处理领域具有重要影响力，尤其是在社交媒体文本分析方面。

当前挑战

EmpiriST语料库在构建和应用过程中面临多重挑战。首先，德语社交媒体文本的非规范性和多样性使得手动标注过程复杂且耗时，尤其是在处理缩写、表情符号和网络用语时。其次，不同标注者之间的分歧需要通过多次讨论和裁决来解决，以确保标注的一致性。此外，将词性标注映射到通用依存关系（UD）标签时，自动化的映射过程可能导致信息丢失或错误。最后，语义标注的引入进一步增加了标注的复杂性，尤其是多词表达和惯用语的标注，需要精确的规则和人工干预。这些挑战不仅影响了语料库的构建效率，也对后续的自然语言处理任务提出了更高的要求。

常用场景

经典使用场景

EmpiriST语料库广泛应用于德语自然语言处理领域，特别是在计算机介导通信（CMC）和网页文本的自动语言标注任务中。该数据集通过手动标注的词汇切分、词性标注、句子分割、标准化和词形还原，为研究者提供了一个高质量的基准数据集，用于开发和评估德语文本处理工具和算法。

解决学术问题

EmpiriST语料库解决了德语社交媒体和网页文本的自动标注难题，尤其是在非标准语言现象的处理上。通过提供详细的标注指南和标准化的数据格式，该数据集显著提升了德语自然语言处理模型的性能，特别是在词性标注、语义标注和文本规范化等任务中，为相关研究提供了可靠的数据支持。

实际应用

在实际应用中，EmpiriST语料库被广泛用于开发德语社交媒体文本分析工具，如情感分析、信息提取和机器翻译系统。其丰富的标注信息使得研究者能够更好地理解德语非正式文本的语言特征，从而提升相关应用的准确性和鲁棒性。此外，该数据集还被用于教育和培训，帮助学习者掌握德语文本处理技术。

数据集最近研究