five

cladsu/COSER-2024

收藏
Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cladsu/COSER-2024
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是西班牙农村口语和声音语料库(COSER)的一部分,包含了230份经过专家手动注释和分段的访谈转录。这些访谈来自西班牙农村地区,参与者平均年龄为74岁,通常接受过较少的教育且地理流动性较低。访谈内容涵盖了各种方言和口语表达,转录中包含了多种标记,如笑声、哭泣、其他语言的使用等。数据集还详细描述了转录中的各种注释方法,如语音标记、同时说话、交叉对话等。

该数据集是西班牙农村口语和声音语料库(COSER)的一部分,包含了230份经过专家手动注释和分段的访谈转录。这些访谈来自西班牙农村地区,参与者平均年龄为74岁,通常接受过较少的教育且地理流动性较低。访谈内容涵盖了各种方言和口语表达,转录中包含了多种标记,如笑声、哭泣、其他语言的使用等。数据集还详细描述了转录中的各种注释方法,如语音标记、同时说话、交叉对话等。
提供机构:
cladsu
原始信息汇总

数据集卡片 for Dataset Name

数据集详情

数据集描述

El Corpus Oral y Sonoro del Español Rural - COSER (http://www.corpusrural.es/) 包含1,772次半结构化访谈(共1,910小时录音),时间跨度从1990年到2022年。受访者来自农村地区,平均年龄为74岁,通常接受的教育较少且地理流动性较低。受访者中男女比例均衡,其中47.8%为男性,52.2%为女性。目前,该语料库已记录了西班牙领土(半岛和两个群岛)的1,415个飞地。

在此语料库中,我们收集了230次半结构化访谈,这些访谈经过手动注释、审查和分段。

数据集结构

语音发射

  • Risa ([RISA]): 用于标记单个人的笑声,无论是采访者还是受访者。
  • Risas ([RISAS]): 用于标记多人的笑声。
  • Risa en habla ([Rndo: ]): 受访者在讲述时笑。可以先标记,然后写入相应片段,或先选择片段再点击此工具。
  • Llanto en habla ([Llndo: ]): 受访者在讲述时哭泣。使用方法与“risa en habla”相同。
  • Otra lengua ([L-Otra: ]): 用于标记受访者使用非西班牙语语言的片段。选择标记后,写入原始语言片段,或选择片段后点击该标记。在这种情况下,不应进行西班牙语的等效转换。
  • Exclamaciones ([EXCL]): 建议不使用此标记。例如,如果受访者说“ay”或“ah”等感叹词,最好用感叹号转录:“¡Ay!”,“¡Ah!”。
  • Asentimiento ([Asent]): 用于表示口头语言中用于同意的任何发射。如果受访者或采访者说“uhum”,“aham”,“hum”等,不转录,而是使用此标记。如果说是“sí”,则不使用此标记,而是转录。每次使用此标记时,都应加上句点(“.”),因为它算作任何干预:“I1: Mi hijo no vive aquí, por eso ya no hago matanza” / “E1: [Asent]. ¿Y desde cuándo?”。
  • Tos ([TOS]).
  • Carraspeo ([CARRASP]).
  • Chasquido ([CHASQ]).
  • Onomatopeya ([ONOMAT]): 用于标记拟声词。在这种情况下,拟声词不包含在标记内:转录拟声词,然后在其后加上此标记。例如:“[…] y de repente, el libro hizo pum, [ONOMAT] y se cayó”。
  • Respiración ([RESPIR]).
  • Otras ([OTRAS-EM]): 用于表示受访者用于思考接下来要说什么的任何发射。在口头语言中,我们经常这样做:“Y mi hijo, pues, e…/a…/mm, estudió medicina”等。这不转录,而是使用此标记:“Y mi hijo, pues [OTRAS-EM] estudió medicina”。不要将“e”或“a”延长与感叹词“eh”和“ah”混淆,因为后者确实需要转录,而不需要标记:“Mi hijo estudió medicina, eh”。

同时说话 (HS:E/I:)

通常情况下,受访者和采访者会“重叠”,同时说话。对于这些情况,我们使用此标记。它指示谁打断了主要话语(无论是受访者还是采访者)。

交叉对话 (HCruz)

有时,新的成员会出现在对话中。例如,一次采访有一个受访者和两个采访者。他们正在交谈,突然,受访者的亲属出现,受访者不再与采访者交谈,而是与他交谈。这就是交叉对话。为了标记这一点,我们需要选择构成交叉对话的每个干预,并点击该图标。我们也可以插入“交叉对话”标记,并在其中写入每个片段。

去歧义

任何可能因方言发音而混淆的单词都应去歧义。方言变体首先转录,然后是标准形式,根据约定(x=y),(方言形式=标准形式)。当方言形式涉及缩减时,可以使用(0=y)。例如,canta(0=r)lo,但应注意,如果缩减形式涉及重音变化,则不正确。例如,cárce(0=l) o cantá(0=r)lo,不是正确的等效,因为编辑后的结果将是cárce o cantálo。

数据集来源

230次审查的访谈可以从COSER网站(https://corpusrural.fe.uam.es/coser/descargas.php)下载,点击2022年5月版本的链接。文件为XML格式,区分两个父节点:头部和访谈。在头部,我们有关于访谈的数据:省、飞地、访谈日期、访谈持续时间、受访者数据(无姓名)、采访者姓名、进行转录的人员以及访谈中讨论的主题。

在访谈部分,我们有轮次,其属性为id(标记轮次编号)和mp3(轮次持续时间)。轮次的第一个子节点始终是该轮次说话人的引用,可以是受访者(I)或采访者(E)。轮次的其余子节点是单词(w)、标点符号(punct)、专有名词(NP - 匿名)、语言标记,如发射、不可理解或“lit”(可能是谚语、流行语、诗句等的再现)。

数据收集和处理

为了生成可操作和可访问的数据库以进行NLP任务,从XML格式的文件中转换为csv格式,以收集所有信息。为此,使用了xml.etree、pandas、BeautifulSoup4和RegEx库。使用xml.etree访问文件路径并解析以访问数据。然后,使用BeautifulSoup读取xml文件内容以提取轮次属性和每个轮次中的文本。使用pandas生成一个数据框,在其中添加数据。

由于文本显示特殊字符和换行符、制表符或不适当的空间;已清理文件,访问csv并应用相应的正则表达式以获得可访问的数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作