IPA CHILDES & G2P+

Name: IPA CHILDES & G2P+
Creator: 剑桥大学计算机科学与技术系
Published: 2025-04-04 05:22:19
License: 暂无描述

arXiv2025-04-04 更新2025-04-08 收录

下载链接：

https://huggingface.co/collections/phonemetransformers/ipa-childes-67ee8533eb464db96ceb25b6

下载链接

链接失效反馈

官方服务：

资源简介：

IPA CHILDES是由剑桥大学开发的一个包含31种语言儿童中心言语的音素数据集，通过G2P+工具将CHILDES数据库中的大部分数据进行音素转录得到。该数据集解决了现有音素数据集中缺少多语言覆盖、自发言语以及针对儿童导向语言的问题，为音系学研究提供了新的资源。

The IPA CHILDES is a phonemic dataset containing child-centered speech across 31 languages, developed by the University of Cambridge. It is generated by performing phonemic transcription on most of the data from the CHILDES database using the G2P+ tool. This dataset resolves the shortcomings of existing phonemic datasets, which lack multilingual coverage, spontaneous speech, and child-directed speech resources, thus offering a novel resource for phonological research.

提供机构：

剑桥大学计算机科学与技术系

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

IPA CHILDES & G2P+数据集的构建采用了先进的G2P+工具，将CHILDES数据库中的正字法转录转换为音位表示。G2P+通过利用Phoible数据库中的音位清单，确保了音位词汇与已建立的音位清单的一致性。这一过程不仅解决了传统G2P工具在音位转换中的不一致性问题，还通过精心设计的折叠映射（folding maps）进一步优化了音位输出的准确性。最终生成的IPA CHILDES数据集涵盖了31种语言的儿童中心语音，总计4500万词，填补了现有音位数据集在多语言覆盖、自发语音和儿童导向语言方面的空白。

特点

IPA CHILDES数据集具有多语言、大规模和儿童中心语音的特点。其音位转录基于国际音标（IPA），确保了音位表示的准确性和一致性。数据集中的语音数据按儿童年龄排序，支持课程学习实验，并提供了‘is_child’特征以过滤儿童或成人话语。此外，G2P+工具的输出与Phoible数据库的音位清单保持一致，便于进行精细的音位学分析。数据集的语言覆盖广泛，但以欧洲和亚洲语言为主，英语数据占据主导地位。

使用方法

IPA CHILDES数据集可用于音位语言模型的训练和音位学研究。用户可以通过G2P+工具将正字法文本转换为音位表示，支持多种后端选择和语言代码配置。数据集中的音位流采用统一的表示方式，每个音位以IPA符号表示，并由空格分隔，便于后续处理。此外，数据集还支持信息论研究和儿童语言发展的跨语言分析，例如通过计算儿童导向语音的平均信息内容来探究‘父母语’的复杂性调整。

背景与挑战

背景概述

IPA CHILDES & G2P+是由剑桥大学计算机科学与技术系的Zébulon Goriely和Paula Buttery于2025年提出的两项重要资源，旨在促进跨语言音系学和音素语言建模的研究。IPA CHILDES是一个包含31种语言的儿童中心语音的音素数据集，而G2P+是一个将正字法数据集转换为一致音素表示的工具。这两个资源的开发填补了现有音素数据集在多语言覆盖、自发语音和儿童导向语言方面的空白。IPA CHILDES基于CHILDES（Child Language Data Exchange System）数据库，通过G2P+工具将其正字法转录转换为音素表示，从而为音系学研究提供了丰富的多语言数据。

当前挑战

IPA CHILDES & G2P+面临的挑战主要包括两方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，该数据集旨在解决音素数据在多语言覆盖和儿童导向语音方面的稀缺性，以及现有G2P工具生成的音素词汇与既定音素库存不一致的问题。在构建过程中，挑战包括如何确保音素转换的准确性，尤其是在处理多语言数据时；如何选择最合适的G2P后端工具以匹配不同语言的音素库存；以及如何处理音素转录中的错误和变异，例如音素合并或分割的问题。此外，数据集中语言的分布不均，如英语数据占主导地位，而某些语言（如波斯语）数据量较少，也是构建过程中需要克服的挑战。

常用场景

经典使用场景

IPA CHILDES & G2P+数据集在跨语言音系学和音位语言建模领域具有广泛的应用。该数据集通过将CHILDES中的正字法转录转换为音位表示，填补了现有音位数据集在多语言覆盖、自发语音和儿童导向语言方面的空白。研究者可以利用这一数据集进行音位分布分析、音系特征学习以及跨语言音位模型的训练。

实际应用

在实际应用中，IPA CHILDES & G2P+数据集可用于语音合成、歌词生成和低资源语言建模等自然语言处理任务。此外，该数据集还为临床语言学研究和儿童语言发展研究提供了宝贵资源，帮助研究者更好地理解儿童语言习得的过程。

衍生相关工作

该数据集衍生了许多相关研究，包括跨语言音位模型的训练、音系特征的线性探测以及儿童导向语音的信息密度分析。例如，研究者利用IPA CHILDES训练了11种语言的音位语言模型，并通过线性探测分析了音位上下文嵌入中的音系特征。这些工作为音系学和语言建模领域提供了新的研究方向和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集