Nettalk语料库数据集 包括20008个带重音的对齐字母和语音表示法
收藏帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-26007.html
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由Terry Sejnowski,现在在索尔克研究所和加利福尼亚大学圣地亚哥的基准集合。该数据集是与普林斯顿大学的查尔斯·罗森伯格合作开发的。创建和测试该数据库的时间约为250人小时。 Data Set Information: 这是Sejnowski和Rosenberg在使用神经网络进行语音生成的有影响力的研究中使用的数据集的更新和修正版本[1]。文件“nettalk.data”包含20008个英语单词的列表,以及每个单词的拼音。任务是训练一个网络,在给定一串字母作为输入的情况下,产生正确的音素。这是一个输入/输出映射任务的示例,它显示了强大的全局规则,但也有大量更专门的规则和例外情况。 Please see original readme file for more information. Attribute Information: 《发音词典》的创建是为了研究书面英语(以字母或字母为单位)和口语(以音素为单位)之间的翻译过程。该词典包括20008个带重音的对齐字母和语音表示法。 字典包含每个单词的四个选项卡分隔的信息字段。这些字段是: 1) a letter representation 2) a phonemic representation 3) stress and syllabic structure 4) an integer indicating foreign and irregular words Please see original readme file for more information. Relevant Papers: Sejnowski, T.J., and Rosenberg, C.R. (1987). "Parallel networks that learn to pronounce English text" in Complex Systems, 1, 145-168. [Web link] Papers That Cite This Data Set1: Kai Ming Ting and Ian H. Witten. Issues in Stacked Generalization. J. Artif. Intell. Res. (JAIR, 10. 1999. [View Context]. Kai Ming Ting and Boon Toh Low. Model Combination in the Multiple-Data-Batches Scenario. ECML. 1997. [View Context]. Steven Salzberg. On Comparing Classifiers: Pitfalls to Avoid and a Recommended Approach. Data Min. Knowl. Discov, 1. 1997. [View Context]. Dietrich Wettschereck and David W. Aha. Weighting Features. ICCBR. 1995. [View Context]. Thomas G. Dietterich and Ghulum Bakiri. Solving Multiclass Learning Problems via Error-Correcting Output Codes. CoRR, csAI/9501101. 1995. [View Context]. Steve Whittaker and Loren G. Terveen and Bonnie A. Nardi. Let's stop pushing the envelope and start addressing it: a reference task agenda for HCI. a Senior Research Scientist in the Human Computer Interaction Department of AT&T LabsResearch. [<a href="../support/Connectionist+Bench+(Nettalk+Corpus)#86b2d2adbc4692e9aeafc750d7e02ef
提供机构:
帕依提提



