transformersegmentation/CHILDES
收藏Hugging Face2024-07-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/transformersegmentation/CHILDES
下载链接
链接失效反馈官方服务:
资源简介:
Phonemized Child Directed Speech数据集包含从CHILDES下载的语音数据,这些数据经过预处理并转换为音素转录。数据集保留了CHILDES中的许多列,并添加了新的列,如`is_child`、`processed_gloss`、`phonemized_utterance`、`language_code`和`character_split_utterance`。数据集按`target_child_age`列排序,并分为训练集和验证集。数据集涵盖了多种语言,每种语言的数据量、说话者数量、话语数量、单词数量和音素数量都有详细说明。
Phonemized Child Directed Speech数据集包含从CHILDES下载的语音数据,这些数据经过预处理并转换为音素转录。数据集保留了CHILDES中的许多列,并添加了新的列,如`is_child`、`processed_gloss`、`phonemized_utterance`、`language_code`和`character_split_utterance`。数据集按`target_child_age`列排序,并分为训练集和验证集。数据集涵盖了多种语言,每种语言的数据量、说话者数量、话语数量、单词数量和音素数量都有详细说明。
提供机构:
transformersegmentation
原始信息汇总
Phonemized Child Directed Speech Dataset
数据集概述
该数据集包含从CHILDES下载的经过预处理并转换为音素转录的语句。许多来自CHILDES的列被保留,以备实验使用(例如,词素数量、词性标签等)。处理脚本添加的关键列如下:
| 列 | 描述 |
|---|---|
is_child |
语句是否由儿童说出。注意,此数据集中所有语句的此列均设置为False,但处理脚本有能力保留儿童语句。 |
processed_gloss |
预处理的正字法语句。包括小写、修正英语拼写和添加标点符号。基于AOChildes预处理。 |
phonemized_utterance |
语句的音素转录,空格分隔,单词边界用WORD_BOUNDARY标记。 |
language_code |
用于生成音素转录的语言代码。可能与CHILDES提供的language列不匹配(例如,Eng-NA和Eng-UK通常用eng-us和eng-gb转录)。 |
character_split_utterance |
通过简单地将处理过的正字法按字符分割而生成的语句转录,空格分隔。旨在与phonemized_utterance格式非常相似,用于比较语音转录和正字法转录的研究。 |
最后两列设计用于训练基于字符(音素)的语言模型,使用简单的空格分隔的标记器。processed_gloss列适用于基于单词(或子词)的语言模型,使用标准标记器。
数据已按target_child_age列排序,该列存储儿童年龄(以月为单位)。可以根据需要使用此列限制训练数据的最大儿童年龄。
每个数据子集分为包含大部分语句的训练集和包含10,000个语句的分布内验证集。以下语言包含在内(按音素数量排序):
| 语言 | 描述 | 说话者 | 语句 | 单词 | 音素 |
|---|---|---|---|---|---|
| 英语 (US) | 从CHILDES的Eng-NA集合中的44个语料库提取,使用语言代码en-us进行音素化。 |
2,692 | 1,646,954 | 7,090,066 | 21,932,139 |
| 英语 (UK) | 从CHILDES的Eng-NA集合中的14个语料库提取,使用语言代码en-gb进行音素化。 |
588 | 1,246,828 | 5,166,197 | 15,727,550 |
| 德语 | 从CHILDES的德语集合中的10个语料库提取,使用语言代码ge进行音素化。 |
627 | 850,888 | 3,893,168 | 14,058,836 |
| 印度尼西亚语 | 从CHILDES的EastAsian/Indonesian集合中的1个语料库提取,使用语言代码id进行音素化。 |
389 | 534,469 | 1,587,526 | 6,367,721 |
| 普通话 | 从CHILDES的Chinese/Mandarin集合中的15个语料库提取,使用拼音到IPA转换器进行音素化。 | 15 | 883 | 326,759 | 1,511,851 |
| 法语 | 从CHILDES的法语集合中的11个语料库提取,使用语言代码fr-fr进行音素化。 |
722 | 432,133 | 1,995,063 | 5,510,523 |
| 西班牙语 | 从CHILDES的西班牙语集合中的18个语料库提取,使用语言代码es进行音素化。 |
562 | 286,462 | 1,266,366 | 4,511,261 |
| 日语 | 从CHILDES的日语集合中的9个语料库提取,使用japanese语言进行音素化。 |
320 | 412,079 | 1,113,194 | 4,346,638 |
| 荷兰语 | 从CHILDES的DutchAfricaans/Dutch集合中的5个语料库提取,使用语言代码nl进行音素化。 |
86 | 297,497 | 1,246,006 | 4,034,742 |
| 爱沙尼亚语 | 从CHILDES的Other/Estonian集合中的9个语料库提取,使用语言代码et进行音素化。 |
118 | 103,343 | 544,680 | 2,347,066 |
| 粤语 | 从CHILDES的Chinese/Cantonese集合中的2个语料库提取,使用pingyam数据库将粤拼转换为IPA进行音素化。 | 80 | 136,727 | 591,314 | 2,118,731 |
| 瑞典语 | 从CHILDES的Scandinavian/Swedish集合中的3个语料库提取,使用语言代码sv进行音素化。 |
32 | 85,299 | 396,800 | 1,241,459 |
| 葡萄牙语 (葡萄牙) | 从CHILDES的Romance/Portuguese集合中的3个语料库提取,使用语言代码pt进行音素化。 |
33 | 81,444 | 368,032 | 1,175,413 |
| 韩语 | 从CHILDES的EastAsian/Korean集合中的3个语料库提取,使用语言代码ko进行音素化。 |
95 | 66,576 | 201,078 | 1,076,296 |
| 意大利语 | 从CHILDES的Romance/Italian集合中的5个语料库提取,使用语言代码it进行音素化。 |
92 | 57,542 | 264,479 | 996,295 |
| 加泰罗尼亚语 | 从CHILDES的Romance/Catalan集合中的5个语料库提取,使用语言代码ca进行音素化。 |
159 | 56,588 | 248,999 | 839,462 |
| 克罗地亚语 | 从CHILDES的Slavic/Croatian集合中的1个语料库提取,使用语言代码hr进行音素化。 |
51 | 55,284 | 214,921 | 813,619 |
| 威尔士语 | 从CHILDES的Celtic/Welsh集合中的2个语料库提取,使用语言代码cy进行音素化。 |
65 | 55,871 | 269,295 | 785,569 |
| 冰岛语 | 从CHILDES的Scandinavian/Icelandic集合中的2个语料库提取,使用语言代码is进行音素化。 |
15 | 50,657 | 197,519 | 772,952 |
| 丹麦语 | 从CHILDES的Scandinavian/Danish集合中的1个语料库提取,使用语言代码da进行音素化。 |
25 | 48,976 | 192,527 | 579,375 |
| 挪威语 | 从CHILDES的Scandinavian/Norwegian集合中的2个语料库提取,使用语言代码nb进行音素化。 |
27 | 35,547 | 175,952 | 559,489 |
| 巴斯克语 | 从CHILDES的Other/Basque集合中的2个语料库提取,使用语言代码eu进行音素化。 |
150 | 36,614 | 135,866 | 565,633 |
| 匈牙利语 | 从CHILDES的Other/Hungarian集合中的3个语料库提取,使用语言代码hu进行音素化。 |
65 | 31,633 | 116,917 | 478,444 |
| 罗马尼亚语 | 从CHILDES的Romance/Romanian集合中的2个语料库提取,使用语言代码ro进行音素化。 |
21 | 31,550 | 110,067 | 380,828 |
| 葡萄牙语 (巴西) | 从CHILDES的Romance/Portuguese集合中的2个语料库提取,使用语言代码pt-br进行音素化。 |
163 | 12,471 | 91,484 | 323,043 |
| 爱尔兰语 | 从CHILDES的Celtic/Irish集合中的2个语料库提取,使用语言代码ga进行音素化。 |
20 | 18,256 | 88,388 | 279,045 |
| 土耳其语 | 从CHILDES的Other/Turkish集合中的2个语料库提取,使用语言代码tr进行音素化。 |
35 | 14,487 | 43,823 | 230,737 |
| 克丘亚语 | 从CHILDES的Other/Quechua集合中的2个语料库提取,使用语言代码qu进行音素化。 |
7 | 13,425 | 33,102 | 204,692 |
| 波斯语 | 从CHILDES的Other/Farsi集合中的2个语料库提取,使用语言代码fa-latn进行音素化。 |
23 | 13,467 | 28,080 | 116,081 |



