GermanChatCorpus

github2024-03-16 更新2024-05-31 收录

下载链接：

https://github.com/Yli671/GermanChatCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包含德语诱导的聊天续写内容，结合了非任务导向的书面对话与全面的注释，包括有生命和无生命的指称以及连贯性关系，对于理解自然交流至关重要。

This corpus comprises German-induced chat continuations, integrating non-task-oriented written dialogues with comprehensive annotations, including references to both animate and inanimate entities as well as coherence relations, which are crucial for understanding natural communication.

创建时间：

2024-01-30

原始信息汇总

GermanChatCorpus 数据集概述

数据收集

数据来源：该数据集包含30个聊天对话项目，每个项目由30名德语母语者提供反馈，共计900条聊天延续。
收集方式：使用模拟WhatsApp界面的方法进行数据收集。
参与者招募：通过Prolific平台招募参与者。

数据标注

标注工具：使用基于Web的标注软件INCEpTION进行标注。
标注内容：包括指称表达（RE）及其共指关系、基本话语段及其类型、以及这些单元之间的连贯关系。
标注状态：当前版本（v1.0）包含黄金共指和段落标注，但连贯关系的标注仍在进行中，将持续更新。

数据存储结构

存储格式：数据集以两种格式存储在annotated_documents文件夹中：(i) WebAnno TSV格式，(ii) UIMA CAS XMI格式。
文件内容：每个文件夹包含30个文档，对应实验中的30个项目，每个文档包含该项目的所有30条聊天延续。
数据用途：这些文件可导入WebAnno或INCEpTION进行进一步标注，或导入R/Python进行分析。

搜集汇总

数据集介绍

构建方式

GermanChatCorpus的构建基于模拟WhatsApp界面的对话环境，旨在捕捉德语非任务导向的书面对话。研究团队设计了30组包含反馈语句的聊天对话，这些反馈语句用于指示前一句的接地成功或失败，随后邀请30名德语母语者撰写适当的对话延续。数据通过Prolific平台招募参与者，最终收集了900条聊天延续。数据标注工作借助INCEpTION网络标注软件完成，涵盖了指代表达、共指关系、基本话语片段及其类型，以及这些单元之间的连贯关系。

特点

GermanChatCorpus的特点在于其丰富的标注内容，不仅包括指代表达和共指关系，还涉及基本话语片段及其类型，以及连贯关系的标注。数据集以WebAnno TSV和UIMA CAS XMI两种格式存储，便于进一步标注或分析。当前版本（v1.0）提供了黄金标准的共指和片段标注，而连贯关系的标注仍在持续更新中。这一数据集为研究自然语言理解和对话连贯性提供了宝贵的资源。

使用方法

GermanChatCorpus的使用方法灵活多样，用户可以通过WebAnno或INCEpTION软件导入标注文件进行进一步标注，或利用R/Python进行数据分析。数据集中的每个文档对应实验中的一个项目，包含该项目的所有30条聊天延续。研究人员可以利用这些数据进行指代表达、共指关系、话语片段类型及连贯关系的深入研究，为自然语言处理和对话系统的开发提供理论支持和实践指导。

背景与挑战

背景概述

GermanChatCorpus数据集由研究团队于近年开发，旨在深入探讨德语非任务导向性对话中的指代与连贯关系。该数据集通过模拟WhatsApp聊天界面，收集了30名德语母语者的900条对话延续，并结合INCEpTION软件进行了详尽的标注，包括指代表达、共指关系、基本话语单元及其类型，以及这些单元之间的连贯关系。这一数据集为自然语言处理领域，特别是对话系统和语篇分析，提供了宝贵的资源，推动了德语语境下自然交流理解的研究。

当前挑战

GermanChatCorpus在构建与应用过程中面临多重挑战。首先，非任务导向性对话的多样性与复杂性使得指代与连贯关系的标注尤为困难，需要高精度的人工干预。其次，数据收集过程中，确保参与者自然表达与反馈的真实性，同时避免实验环境对对话的干扰，是一项技术难题。此外，标注的持续更新与维护，特别是连贯关系标注的完善，要求研究团队具备高度的专业知识与耐心。这些挑战不仅考验了数据集的构建质量，也对其在自然语言处理领域的应用提出了更高要求。

常用场景

经典使用场景

GermanChatCorpus数据集在自然语言处理领域中被广泛用于研究德语非任务导向型对话的连贯性和指代关系。通过模拟WhatsApp聊天界面，该数据集捕捉了真实对话中的反馈和延续，为研究者提供了丰富的语料资源，用于分析德语对话中的指代表达和语篇结构。

衍生相关工作

GermanChatCorpus数据集催生了多项经典研究工作，特别是在德语指代消解和语篇分析领域。基于该数据集，研究者开发了多种先进的算法和模型，用于自动识别和解析对话中的指代关系。这些工作不仅推动了德语自然语言处理技术的发展，还为其他语言的类似研究提供了参考。

数据集最近研究