Corpus of Everyday Japanese Conversation
收藏github2023-06-23 更新2024-05-31 收录
下载链接:
https://github.com/forsakeninfinity/CEJC_yomichan_freq_dict
下载链接
链接失效反馈官方服务:
资源简介:
此仓库包含可导入Yomichan的日语词汇频率字典。词汇根据不同上下文/领域进行排名,用户可以选择感兴趣的领域。虽然整体字典可能对大多数人最有用。
This repository contains a Japanese vocabulary frequency dictionary that can be imported into Yomichan. The vocabulary is ranked according to different contexts/domains, allowing users to select the fields of interest. While the overall dictionary may be the most useful for the majority of users.
创建时间:
2023-06-22
原始信息汇总
数据集概述
数据集名称
Corpus of Everyday Japanese Conversation Yomichan Frequency Dictionary
数据集内容
该数据集包含多个频率字典,用于支持Yomichan或其他兼容软件。字典中的词汇根据不同的上下文或领域进行排名,用户可以根据兴趣选择不同的字典。
数据集生成
通过运行Python脚本make_cejc_freq_dicts_from_tsv.py生成字典。需要Python 3.10及以上版本,以及pandas和jaconv库。
数据集结构
- 字典文件: 位于
dicts/目录下,每个领域一个文件夹。 - 安装文件: 位于
releases/目录下,提供可直接安装到Yomichan的zip文件。
数据集领域
数据集根据不同领域和说话者年龄/性别等因素,生成多种字典。推荐至少使用总体字典,然后根据兴趣选择特定领域字典。
领域列表
| 领域 | 描述 | 下载链接 |
|---|---|---|
| Combined / Overall | 不考虑领域和其他条件的频率 | Corpus of Everyday Japanese Conversation.zip |
| 男性 | 不考虑年龄的男性对话 | Corpus of Everyday Japanese Conversation (男性).zip |
| 女性 | 不考虑年龄的女性对话 | Corpus of Everyday Japanese Conversation (女性).zip |
| 交通機関 | 交通相关对话 | Corpus of Everyday Japanese Conversation (交通機関).zip |
| 会議・会合 | 会议和会议相关对话 | Corpus of Everyday Japanese Conversation (会議・会合).zip |
| 公共商業施設 | 公共商业设施相关对话 | Corpus of Everyday Japanese Conversation (公共商業施設).zip |
| 学校 | 学校相关对话 | Corpus of Everyday Japanese Conversation (学校).zip |
| 室内 | 室内对话 | Corpus of Everyday Japanese Conversation (室内).zip |
| 屋外 | 室外对话 | Corpus of Everyday Japanese Conversation (屋外).zip |
| 授業・レッスン | 课程和课程相关对话 | Corpus of Everyday Japanese Conversation (授業・レッスン).zip |
| 用談・相談 | 聊天和咨询相关对话 | Corpus of Everyday Japanese Conversation (用談・相談).zip |
| 職場 | 工作场所相关对话 | Corpus of Everyday Japanese Conversation (職場).zip |
| 自宅 | 家庭内部对话 | Corpus of Everyday Japanese Conversation (自宅).zip |
| 雑談 | 闲聊对话 | Corpus of Everyday Japanese Conversation (雑談).zip |
数据集来源
- 项目网站: https://www.ninjal.ac.jp/english/research/cr-project/project-3/institute/spoken-language/
- 数据下载URL: https://www2.ninjal.ac.jp/conversation/cejc/cejc-wc.html
数据集文件
- 源文件:
2_cejc_frequencylist_suw_token.tsv,位于数据下载URL提供的zip文件中。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于日本日常会话语料库(CEJC),该语料库包含了从2016年4月至2020年间约200小时的录音数据。通过Python脚本处理原始TSV文件,生成了适用于Yomichan的频率词典。脚本运行需要Python 3.10及以上版本,并依赖pandas和jaconv库。生成的词典文件以JSON格式存储,并按不同领域和说话者特征进行分类。
使用方法
用户可以通过运行提供的Python脚本,从原始TSV文件重新生成频率词典。生成的JSON文件可以直接导入Yomichan或其他支持Yomichan格式的软件中。用户还可以从GitHub的releases页面下载预先生成的词典文件,按需选择不同领域的词典进行使用。对于希望深入研究日语会话频率的用户,该数据集提供了丰富的分类选项和详细的原始数据来源链接。
背景与挑战
背景概述
《Corpus of Everyday Japanese Conversation》(CEJC)数据集由日本国立国语研究所(NINJAL)于2016年至2020年间创建,旨在构建一个大规模的日常日语对话语料库。该数据集基于约200小时的录音数据,涵盖了多种日常生活场景,如交通、学校、职场等,并通过调查约250名成年人的日常对话行为,确保了数据的自然性和代表性。CEJC的核心研究问题在于如何通过自然发生的对话数据,为日语语言学研究提供实证基础,尤其是在词汇使用频率和语境分析方面。该数据集对日语教学、自然语言处理以及社会语言学等领域产生了深远影响,为研究者提供了丰富的语言资源。
当前挑战
CEJC数据集在构建过程中面临多重挑战。首先,数据收集的广泛性和多样性要求研究人员在多个生活场景中捕捉自然对话,这对录音设备的隐蔽性和参与者的配合度提出了较高要求。其次,数据标注和分类的复杂性也是一个显著挑战,尤其是在区分不同语境(如性别、年龄、场景)下的词汇使用频率时,需要精细的算法支持。此外,数据集的再利用性受到限制,尽管其格式较为统一,但针对其他语言或领域的适应性较差。最后,数据集的更新和维护需要持续的资源投入,以确保其时效性和准确性。这些挑战不仅影响了数据集的构建过程,也对其在更广泛研究中的应用提出了更高的技术要求。
常用场景
经典使用场景
Corpus of Everyday Japanese Conversation(CEJC)数据集广泛应用于日语语言学研究,特别是在自然语言处理和语音识别领域。该数据集通过记录日常对话,提供了丰富的语料库,帮助研究者分析日语口语中的词汇使用频率和语境变化。经典的使用场景包括构建日语词汇频率词典,支持Yomichan等日语学习工具的开发,以及为机器翻译和语音合成系统提供训练数据。
解决学术问题
CEJC数据集解决了日语语言学研究中关于口语词汇使用频率和语境分布的难题。通过提供基于不同领域、性别和年龄的词汇频率数据,研究者能够更精确地分析日语口语中的词汇选择模式。此外,该数据集还为语言模型训练提供了高质量的语料,推动了自然语言处理技术的发展,特别是在日语语音识别和机器翻译领域。
实际应用
在实际应用中,CEJC数据集被广泛用于开发日语学习工具和语言处理软件。例如,Yomichan等日语学习工具利用该数据集生成的频率词典,帮助用户更高效地掌握常用词汇。此外,该数据集还为语音识别系统和机器翻译引擎提供了重要的训练数据,提升了这些系统在处理日语口语时的准确性和流畅性。
数据集最近研究
最新研究方向
在自然语言处理领域,Corpus of Everyday Japanese Conversation(CEJC)数据集为日语日常对话的研究提供了丰富的语料资源。近年来,研究者们利用该数据集深入探讨了日语会话中的词汇频率分布及其在不同语境下的变化。特别是在性别、年龄、场景等维度上,CEJC为分析日语会话的多样性和复杂性提供了重要支持。当前的研究热点包括基于CEJC的日语自然语言生成模型优化、跨领域对话系统的开发,以及日语学习辅助工具的设计。这些研究不仅推动了日语自然语言处理技术的发展,也为跨文化交际和语言教育提供了新的视角。
以上内容由遇见数据集搜集并总结生成



