five

transformersegmentation/CHILDES

收藏
Hugging Face2024-07-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/transformersegmentation/CHILDES
下载链接
链接失效反馈
官方服务:
资源简介:
Phonemized Child Directed Speech数据集包含从CHILDES下载的语音数据,这些数据经过预处理并转换为音素转录。数据集保留了CHILDES中的许多列,并添加了新的列,如`is_child`、`processed_gloss`、`phonemized_utterance`、`language_code`和`character_split_utterance`。数据集按`target_child_age`列排序,并分为训练集和验证集。数据集涵盖了多种语言,每种语言的数据量、说话者数量、话语数量、单词数量和音素数量都有详细说明。

Phonemized Child Directed Speech数据集包含从CHILDES下载的语音数据,这些数据经过预处理并转换为音素转录。数据集保留了CHILDES中的许多列,并添加了新的列,如`is_child`、`processed_gloss`、`phonemized_utterance`、`language_code`和`character_split_utterance`。数据集按`target_child_age`列排序,并分为训练集和验证集。数据集涵盖了多种语言,每种语言的数据量、说话者数量、话语数量、单词数量和音素数量都有详细说明。
提供机构:
transformersegmentation
原始信息汇总

Phonemized Child Directed Speech Dataset

数据集概述

该数据集包含从CHILDES下载的经过预处理并转换为音素转录的语句。许多来自CHILDES的列被保留,以备实验使用(例如,词素数量、词性标签等)。处理脚本添加的关键列如下:

描述
is_child 语句是否由儿童说出。注意,此数据集中所有语句的此列均设置为False,但处理脚本有能力保留儿童语句。
processed_gloss 预处理的正字法语句。包括小写、修正英语拼写和添加标点符号。基于AOChildes预处理。
phonemized_utterance 语句的音素转录,空格分隔,单词边界用WORD_BOUNDARY标记。
language_code 用于生成音素转录的语言代码。可能与CHILDES提供的language列不匹配(例如,Eng-NA和Eng-UK通常用eng-us和eng-gb转录)。
character_split_utterance 通过简单地将处理过的正字法按字符分割而生成的语句转录,空格分隔。旨在与phonemized_utterance格式非常相似,用于比较语音转录和正字法转录的研究。

最后两列设计用于训练基于字符(音素)的语言模型,使用简单的空格分隔的标记器。processed_gloss列适用于基于单词(或子词)的语言模型,使用标准标记器。

数据已按target_child_age列排序,该列存储儿童年龄(以月为单位)。可以根据需要使用此列限制训练数据的最大儿童年龄。

每个数据子集分为包含大部分语句的训练集和包含10,000个语句的分布内验证集。以下语言包含在内(按音素数量排序):

语言 描述 说话者 语句 单词 音素
英语 (US) 从CHILDES的Eng-NA集合中的44个语料库提取,使用语言代码en-us进行音素化。 2,692 1,646,954 7,090,066 21,932,139
英语 (UK) 从CHILDES的Eng-NA集合中的14个语料库提取,使用语言代码en-gb进行音素化。 588 1,246,828 5,166,197 15,727,550
德语 从CHILDES的德语集合中的10个语料库提取,使用语言代码ge进行音素化。 627 850,888 3,893,168 14,058,836
印度尼西亚语 从CHILDES的EastAsian/Indonesian集合中的1个语料库提取,使用语言代码id进行音素化。 389 534,469 1,587,526 6,367,721
普通话 从CHILDES的Chinese/Mandarin集合中的15个语料库提取,使用拼音到IPA转换器进行音素化。 15 883 326,759 1,511,851
法语 从CHILDES的法语集合中的11个语料库提取,使用语言代码fr-fr进行音素化。 722 432,133 1,995,063 5,510,523
西班牙语 从CHILDES的西班牙语集合中的18个语料库提取,使用语言代码es进行音素化。 562 286,462 1,266,366 4,511,261
日语 从CHILDES的日语集合中的9个语料库提取,使用japanese语言进行音素化。 320 412,079 1,113,194 4,346,638
荷兰语 从CHILDES的DutchAfricaans/Dutch集合中的5个语料库提取,使用语言代码nl进行音素化。 86 297,497 1,246,006 4,034,742
爱沙尼亚语 从CHILDES的Other/Estonian集合中的9个语料库提取,使用语言代码et进行音素化。 118 103,343 544,680 2,347,066
粤语 从CHILDES的Chinese/Cantonese集合中的2个语料库提取,使用pingyam数据库将粤拼转换为IPA进行音素化。 80 136,727 591,314 2,118,731
瑞典语 从CHILDES的Scandinavian/Swedish集合中的3个语料库提取,使用语言代码sv进行音素化。 32 85,299 396,800 1,241,459
葡萄牙语 (葡萄牙) 从CHILDES的Romance/Portuguese集合中的3个语料库提取,使用语言代码pt进行音素化。 33 81,444 368,032 1,175,413
韩语 从CHILDES的EastAsian/Korean集合中的3个语料库提取,使用语言代码ko进行音素化。 95 66,576 201,078 1,076,296
意大利语 从CHILDES的Romance/Italian集合中的5个语料库提取,使用语言代码it进行音素化。 92 57,542 264,479 996,295
加泰罗尼亚语 从CHILDES的Romance/Catalan集合中的5个语料库提取,使用语言代码ca进行音素化。 159 56,588 248,999 839,462
克罗地亚语 从CHILDES的Slavic/Croatian集合中的1个语料库提取,使用语言代码hr进行音素化。 51 55,284 214,921 813,619
威尔士语 从CHILDES的Celtic/Welsh集合中的2个语料库提取,使用语言代码cy进行音素化。 65 55,871 269,295 785,569
冰岛语 从CHILDES的Scandinavian/Icelandic集合中的2个语料库提取,使用语言代码is进行音素化。 15 50,657 197,519 772,952
丹麦语 从CHILDES的Scandinavian/Danish集合中的1个语料库提取,使用语言代码da进行音素化。 25 48,976 192,527 579,375
挪威语 从CHILDES的Scandinavian/Norwegian集合中的2个语料库提取,使用语言代码nb进行音素化。 27 35,547 175,952 559,489
巴斯克语 从CHILDES的Other/Basque集合中的2个语料库提取,使用语言代码eu进行音素化。 150 36,614 135,866 565,633
匈牙利语 从CHILDES的Other/Hungarian集合中的3个语料库提取,使用语言代码hu进行音素化。 65 31,633 116,917 478,444
罗马尼亚语 从CHILDES的Romance/Romanian集合中的2个语料库提取,使用语言代码ro进行音素化。 21 31,550 110,067 380,828
葡萄牙语 (巴西) 从CHILDES的Romance/Portuguese集合中的2个语料库提取,使用语言代码pt-br进行音素化。 163 12,471 91,484 323,043
爱尔兰语 从CHILDES的Celtic/Irish集合中的2个语料库提取,使用语言代码ga进行音素化。 20 18,256 88,388 279,045
土耳其语 从CHILDES的Other/Turkish集合中的2个语料库提取,使用语言代码tr进行音素化。 35 14,487 43,823 230,737
克丘亚语 从CHILDES的Other/Quechua集合中的2个语料库提取,使用语言代码qu进行音素化。 7 13,425 33,102 204,692
波斯语 从CHILDES的Other/Farsi集合中的2个语料库提取,使用语言代码fa-latn进行音素化。 23 13,467 28,080 116,081
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作