five

EmpiriST corpus

收藏
github2023-07-28 更新2024-05-31 收录
下载链接:
https://github.com/fau-klue/empirist-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
EmpiriST语料库是一个手动标注的语料库,包含德语网页和德语计算机中介交流(CMC),即书面话语。CMC类型包括单向和对话推文、社交和专业聊天、维基百科讨论页面的线程、WhatsApp交互和博客评论。

The EmpiriST corpus is a manually annotated corpus comprising German web texts and German computer-mediated communication (CMC), which refers to written discourse. The types of CMC include both unidirectional and conversational tweets, social and professional chats, threads from Wikipedia discussion pages, WhatsApp interactions, and blog comments.
创建时间:
2019-08-20
原始信息汇总

数据集概述

名称: EmpiriST corpus

类型: 手动标注的语料库,包含德语网页和德语计算机中介交流(CMC)文本。

内容: CMC类型包括单向和双向推文、社交和专业聊天、维基百科讨论页的线程、WhatsApp互动和博客评论。

数据集规模

CMC Web Total
训练 5,109 4,944 10,053
测试 5,237 7,568 12,805
总计 10,346 12,512 22,858

数据集特点

  • 标注: 包括词形、STTS IBK标签、UD POS标签、USAS标签、规范化形式、表面导向的词干和规范化词干。
  • 处理: 数据经过手动分词、词性标注、句子分割、规范化、词干化和语义标注。
  • 格式: 采用“垂直”格式,适合导入Open Corpus Workbench, CQPweb, SketchEngine等工具。

数据集历史

  • 创建: 由Beißwenger等人于2016年创建,用于EmpiriST 2015共享任务。
  • 更新: Rehbein等人于2018年添加了句子边界并自动映射STTS pos标签到UD pos标签。Proisl等人于2020年进行了手动规范化、词干化和语义标注。

作者

  • 原始数据收集和标注: Michael Beißwenger, Sabine Bartsch, Stefan Evert, Kay-Michael Würzner。
  • 句子边界和标签映射: Ines Rehbein, Josef Ruppenhofer, Victor Zimmermann。
  • 规范化、词干化和语义标注: Thomas Proisl, Natalie Dykes, Philipp Heinrich, Besim Kabashi, Stefan Evert。
搜集汇总
数据集介绍
main_image_url
构建方式
EmpiriST语料库的构建过程体现了多阶段的精细处理。最初,该语料库由Beißwenger等人于2016年创建,专门用于EmpiriST 2015共享任务,涵盖了德语网页和计算机介导通信(CMC)文本。数据经过人工分词和词性标注,并由任务组织者进行最终裁决以确保标注的准确性。随后,Rehbein等人在2018年进一步整合了该数据集,添加了句子边界,并将词性标签自动映射到通用依存(UD)词性标签。2020年,Proisl等人对数据进行了手动标准化和词形还原,并将其转换为适合导入语料库工具的垂直格式。
使用方法
EmpiriST语料库的使用方法灵活多样,适用于多种自然语言处理任务。用户可以通过提取训练集和测试集来构建模型,语料库的垂直格式使其能够轻松导入Open Corpus Workbench、CQPweb、SketchEngine等语料库工具。此外,语料库的丰富标注信息为词性标注、语义分析、标准化和词形还原等任务提供了坚实的基础。用户还可以利用语料库中的USAS语义标签进行更深层次的语义分析,探索CMC文本中的语言现象。
背景与挑战
背景概述
EmpiriST语料库是一个手动标注的德语语料库,涵盖了德语网页和计算机媒介通信(CMC)的文本内容,如推文、社交媒体聊天、维基百科讨论页、WhatsApp互动和博客评论等。该语料库最初由Beißwenger等人于2016年为EmpiriST 2015共享任务创建,旨在解决德语社交媒体数据的自动语言标注问题。随后,Rehbein等人于2018年将其纳入德语社交媒体数据词性标注的统一测试套件中,并进一步扩展了其标注内容。2020年,Proisl等人对语料库进行了手动标准化、词形还原和语义标注,使其适用于多种语料库工具。该语料库在德语自然语言处理领域具有重要影响力,尤其是在社交媒体文本分析方面。
当前挑战
EmpiriST语料库在构建和应用过程中面临多重挑战。首先,德语社交媒体文本的非规范性和多样性使得手动标注过程复杂且耗时,尤其是在处理缩写、表情符号和网络用语时。其次,不同标注者之间的分歧需要通过多次讨论和裁决来解决,以确保标注的一致性。此外,将词性标注映射到通用依存关系(UD)标签时,自动化的映射过程可能导致信息丢失或错误。最后,语义标注的引入进一步增加了标注的复杂性,尤其是多词表达和惯用语的标注,需要精确的规则和人工干预。这些挑战不仅影响了语料库的构建效率,也对后续的自然语言处理任务提出了更高的要求。
常用场景
经典使用场景
EmpiriST语料库广泛应用于德语自然语言处理领域,特别是在计算机介导通信(CMC)和网页文本的自动语言标注任务中。该数据集通过手动标注的词汇切分、词性标注、句子分割、标准化和词形还原,为研究者提供了一个高质量的基准数据集,用于开发和评估德语文本处理工具和算法。
解决学术问题
EmpiriST语料库解决了德语社交媒体和网页文本的自动标注难题,尤其是在非标准语言现象的处理上。通过提供详细的标注指南和标准化的数据格式,该数据集显著提升了德语自然语言处理模型的性能,特别是在词性标注、语义标注和文本规范化等任务中,为相关研究提供了可靠的数据支持。
实际应用
在实际应用中,EmpiriST语料库被广泛用于开发德语社交媒体文本分析工具,如情感分析、信息提取和机器翻译系统。其丰富的标注信息使得研究者能够更好地理解德语非正式文本的语言特征,从而提升相关应用的准确性和鲁棒性。此外,该数据集还被用于教育和培训,帮助学习者掌握德语文本处理技术。
数据集最近研究
最新研究方向
EmpiriST语料库作为德语网络文本和计算机媒介通信(CMC)的标注资源,近年来在自然语言处理领域的研究方向主要集中在语义标注和语言模型的优化上。随着深度学习技术的进步,研究者们利用该语料库进行语义角色标注、情感分析以及多模态语言处理等任务。特别是在社交媒体文本的处理中,EmpiriST语料库的丰富标注信息为模型训练提供了高质量的基准数据。此外,该语料库还被广泛应用于德语语言模型的预训练和微调,推动了德语自然语言处理技术的发展。其多层次的标注体系,包括词性标注、语义标签和规范化处理,为研究者提供了全面的语言学分析工具,进一步促进了德语文本处理的前沿研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作