ES-Port Corpus

github2022-04-27 更新2024-05-31 收录

下载链接：

https://github.com/Vicomtech/esport-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

ES-Port Corpus是一个自发的人与人对话语料库，包含来自西班牙电信公司企业技术客户支持服务的通话转录对话。该语料库直接从通话录音转录而来，并在多种语言和声学相关的超语言层面上进行了注释和匿名化处理，以遵守数据保护法规。

The ES-Port Corpus is a spontaneous human-to-human dialogue corpus, comprising transcribed conversations from the enterprise technical customer support services of a Spanish telecommunications company. This corpus is directly transcribed from call recordings and has been annotated and anonymized across various linguistic and acoustic-related paralinguistic levels to comply with data protection regulations.

创建时间：

2022-04-27

原始信息汇总

ES-PORT CORPUS 数据集概述

数据集简介

ES-Port Corpus 是一个自发的人与人对话语料库，包含来自西班牙电信运营商技术客户支持服务的对话。该语料库直接从通话录音中转录，并在多种语言和声学相关的超语言层面上进行了注释，并进行了匿名化处理以遵守数据保护法规。语料库包含1170个对话转录，约535,000个标记（不包括标点符号），词汇量约为11,200个单词。此外，还包含约3,000个语言切换事件和其他约11,500个与发音、噪音和沉默相关的事件。

数据结构

对话以JSON格式文件结构化。每个文件包含一个"file-id"，对应于对话的识别名称，以及一个"turns"列表，该列表包含构成给定对话的各个回合。每个回合包含以下数据：

"turn": 回合在对话中的顺序索引（整数）
"labels": 包含被匿名化的单个单词及其标签的列表（列表）
"speakers": 给定回合中的每个说话者及其话语列表（字典）
"filtered-text": 不包含事件注释的原始转录（字符串）
"text-events": 完整的语句加上事件转录，按事件发生顺序排列（字符串）
"language-events": 回合中的语言切换事件列表（列表）
"events": 回合中除语言切换外的其他事件列表（列表）

回合在以下情况下被分割成不同的语句：语言切换或其他事件发生、存在重叠，或者当暂停时间超过100毫秒但少于200毫秒时。如果暂停时间超过200毫秒，则回合结束。

注释和事件描述

语言事件

语料库中的语言事件指示说话者切换到非西班牙语的语言。只有在说话者正确发音目标语言的单词时才进行注释。其他出现在ES-Port语料库中的语言包括：巴斯克语（eu）、加泰罗尼亚语（cat）、阿斯图里亚语（ast）、法语（fr）、意大利语（it）和英语（en）。其中，英语是最频繁的语言，占语言事件的91.59%。

发音、噪音和沉默事件

语料库中的其他事件类型包括噪音、发音和沉默。这些事件在语料库转录阶段进行了注释，并遵循了用于此目的的工具（Transcriber 1.5）的约定。

其他注释

语料库中的其他注释包括：

未完成的单词和非单词：用"< ->"符号包围单词
重复和错误开始：用"< >"符号包围单词或词组
发音延长：在单词末尾用"="符号标记
典型的西班牙语发音缩短：在单词开头用"+"符号标记
某些连续词和填充词：用"<% >"符号包围项目

许可证

本仓库中的资源根据Creative Commons Attribution-ShareAlike 3.0 Spain License授权。

引用

如使用此语料库，请引用以下论文：

García-Sardiña, L., Serras, M., and del Pozo, A. (2018). ES-Port: a Spontaneous Spoken Human-Human Technical Support Corpus for Dialogue Research in Spanish. In LREC.

搜集汇总

数据集介绍

构建方式

ES-Port Corpus的构建基于西班牙电信运营商技术客户支持服务的真实通话录音。这些录音经过直接转录，并在多个语言和声学相关的超语言层面进行了详细标注。为确保数据隐私，所有对话内容均进行了匿名化处理。数据集包含1170个对话转录，共计约53.5万个词汇，词汇量约为11200个。此外，语料库中还标注了约3000次语言切换事件和11500次与噪音、发音及沉默相关的事件。

特点

ES-Port Corpus的特点在于其丰富的标注层次和多样化的语言现象。除了基础的语言转录外，语料库还详细标注了语言切换、发音错误、噪音、沉默等事件。此外，语料库还捕捉了诸如单词延长、缩短、重复、错误起始等语言现象，以及常见的填充词和延续词。这些标注为研究西班牙语口语中的复杂语言现象提供了宝贵资源。

使用方法

ES-Port Corpus以JSON格式存储，每个对话文件包含对话的唯一标识符和对话轮次的列表。每个轮次包括说话者的匿名化词汇及其标签、说话者的发言内容、未经事件标注的原始转录文本、包含事件标注的完整转录文本以及语言切换和其他事件的列表。研究者可以通过解析这些JSON文件，提取和分析对话中的语言现象和事件，进而进行口语对话系统的开发、语言模型训练等研究。

背景与挑战

背景概述

ES-Port Corpus 是由西班牙电信运营商的技术客户支持服务电话录音直接转录而成的自发口语对话语料库，发布于2018年5月。该语料库由Vicomtech的研究团队创建，主要研究人员包括L. García-Sardiña、M. Serras和A. del Pozo。该语料库包含1170个对话转录，约53.5万个词汇，词汇量约为11200个单词。其核心研究问题在于探索多语言环境下的口语对话特征，特别是语言切换、发音、噪音和沉默等非语言事件的标注与分析。ES-Port Corpus为西班牙语口语对话研究提供了丰富的资源，对语音识别、自然语言处理和多语言对话系统的开发具有重要影响。

当前挑战

ES-Port Corpus 的构建面临多重挑战。首先，语料库需要处理多语言环境下的语言切换问题，特别是在技术支持的对话中，用户和客服人员可能频繁切换语言，这对标注的准确性和一致性提出了较高要求。其次，语料库中包含大量非语言事件，如噪音、发音错误和沉默等，这些事件的标注需要精细的语音分析和人工干预，以确保数据的质量。此外，语料库的匿名化处理也是一个重要挑战，必须在保护用户隐私的同时，保留对话的完整性和研究价值。最后，语料库的结构化处理和JSON格式的存储要求对数据处理工具和流程提出了较高的技术要求。

常用场景

经典使用场景

ES-Port Corpus 数据集在自然语言处理领域中被广泛应用于研究西班牙语技术支持的对话系统。其丰富的语言切换和事件标注为研究多语言环境下的对话管理、语音识别和情感分析提供了宝贵的资源。特别是在处理技术支持的对话中，该数据集能够帮助研究者理解复杂的语言现象，如语言切换、发音错误和背景噪音等。

衍生相关工作

基于 ES-Port Corpus，研究者们已经开展了多项经典工作。例如，García-Sardiña 等人利用该数据集开发了多语言对话管理系统，显著提升了技术支持对话的效率和准确性。此外，该数据集还被用于研究多语言环境下的情感分析，帮助系统更好地理解客户情绪并作出相应调整。这些研究不仅推动了多语言对话系统的发展，也为相关领域的学术研究提供了重要参考。

数据集最近研究