five

CSJ

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CSJ
下载链接
链接失效反馈
官方服务:
资源简介:
关于自发日语语料库: 自发日语语料库(CSJ)是 由日本国家优先领域研究 项目“自发语音:语料库和处理技术”开发的日语口语数据库。 它包含约 650 小时的演讲,由 1,400 多名演讲者提供的 约 750 万个单词组成。 有关语料库的更多详细信息,请访问 国立日本语研究所(NINJAL)的网站。它可以 从研究所获得。http://www.ninjal.ac.jp/english/products/csj/ http://pj.ninjal.ac.jp/corpus_center/csj/ 基于进化策略的元参数调整: conf/config_opt 中包含的系统元参数是 使用进化策略自动调整的。详情请 参阅以下论文: Takafumi Moriya、Tomohiro Tanaka、Takahiro Shinozaki、Shinji Watanabe 和 Kevin Duh,“Automation of System Building for State-of-the-art Large Vocabulary Speech Recognition using Evolution Strategy”,Proc. IEEE 2015 自动语音识别和理解研讨会 (ASRU),2015。 此目录的每个子目录都包含 一系列实验的脚本。 s5:这是当前推荐的食谱。 该配方支持CSJ第三版和第四版。

About the Corpus of Spontaneous Japanese: The Corpus of Spontaneous Japanese (CSJ) is a Japanese spoken language database developed by the Japanese National Priority Area Research Project "Spontaneous Speech: Corpus and Processing Technologies". It contains approximately 650 hours of speech, consisting of around 7.5 million words provided by over 1,400 speakers. For more details about this corpus, please visit the website of the National Institute for Japanese Language and Linguistics (NINJAL). It is available from the institute: http://www.ninjal.ac.jp/english/products/csj/ http://pj.ninjal.ac.jp/corpus_center/csj/ Meta-parameter Tuning Based on Evolution Strategy: The system meta-parameters included in conf/config_opt are automatically tuned using an evolution strategy. For details, please refer to the following paper: Takafumi Moriya, Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe and Kevin Duh, "Automation of System Building for State-of-the-art Large Vocabulary Speech Recognition using Evolution Strategy", Proc. IEEE 2015 Automatic Speech Recognition and Understanding Workshop (ASRU), 2015. Each subdirectory of this directory contains scripts for a series of experiments. s5: This is the currently recommended recipe. This recipe supports the 3rd and 4th editions of CSJ.
提供机构:
OpenDataLab
创建时间:
2023-06-25
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CSJ(自发日语语料库)是一个日语口语数据库,包含约650小时的演讲,由1,400多名演讲者提供的约750万个单词组成,主要用于语音识别研究。该数据集由日本研究机构于2015年发布,支持CSJ第三版和第四版,并提供了基于进化策略的元参数调整方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作