ES-Port Corpus
收藏ES-PORT CORPUS 数据集概述
数据集简介
ES-Port Corpus 是一个自发的人与人对话语料库,包含来自西班牙电信运营商技术客户支持服务的对话。该语料库直接从通话录音中转录,并在多种语言和声学相关的超语言层面上进行了注释,并进行了匿名化处理以遵守数据保护法规。语料库包含1170个对话转录,约535,000个标记(不包括标点符号),词汇量约为11,200个单词。此外,还包含约3,000个语言切换事件和其他约11,500个与发音、噪音和沉默相关的事件。
数据结构
对话以JSON格式文件结构化。每个文件包含一个"file-id",对应于对话的识别名称,以及一个"turns"列表,该列表包含构成给定对话的各个回合。每个回合包含以下数据:
- "turn": 回合在对话中的顺序索引(整数)
- "labels": 包含被匿名化的单个单词及其标签的列表(列表)
- "speakers": 给定回合中的每个说话者及其话语列表(字典)
- "filtered-text": 不包含事件注释的原始转录(字符串)
- "text-events": 完整的语句加上事件转录,按事件发生顺序排列(字符串)
- "language-events": 回合中的语言切换事件列表(列表)
- "events": 回合中除语言切换外的其他事件列表(列表)
回合在以下情况下被分割成不同的语句:语言切换或其他事件发生、存在重叠,或者当暂停时间超过100毫秒但少于200毫秒时。如果暂停时间超过200毫秒,则回合结束。
注释和事件描述
语言事件
语料库中的语言事件指示说话者切换到非西班牙语的语言。只有在说话者正确发音目标语言的单词时才进行注释。其他出现在ES-Port语料库中的语言包括:巴斯克语(eu)、加泰罗尼亚语(cat)、阿斯图里亚语(ast)、法语(fr)、意大利语(it)和英语(en)。其中,英语是最频繁的语言,占语言事件的91.59%。
发音、噪音和沉默事件
语料库中的其他事件类型包括噪音、发音和沉默。这些事件在语料库转录阶段进行了注释,并遵循了用于此目的的工具(Transcriber 1.5)的约定。
其他注释
语料库中的其他注释包括:
- 未完成的单词和非单词:用"< ->"符号包围单词
- 重复和错误开始:用"< >"符号包围单词或词组
- 发音延长:在单词末尾用"="符号标记
- 典型的西班牙语发音缩短:在单词开头用"+"符号标记
- 某些连续词和填充词:用"<% >"符号包围项目
许可证
本仓库中的资源根据Creative Commons Attribution-ShareAlike 3.0 Spain License授权。
引用
如使用此语料库,请引用以下论文:
García-Sardiña, L., Serras, M., and del Pozo, A. (2018). ES-Port: a Spontaneous Spoken Human-Human Technical Support Corpus for Dialogue Research in Spanish. In LREC.




