JESC (Japanese-English Subtitle Corpus)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/JESC
下载链接
链接失效反馈官方服务:
资源简介:
日英字幕语料库是一个大型的日英平行语料库,涵盖了代表性不足的对话对话领域。它包含超过 320 万个示例,使其成为同类中最大的免费数据集。该语料库是通过抓取和对齐网络上的字幕来组装的。
The Japanese-English Parallel Subtitle Corpus is a large-scale parallel corpus covering underrepresented conversational domains. It contains over 3.2 million instances, making it the largest free dataset of its kind. This corpus was assembled by scraping and aligning subtitles sourced from the web.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
JESC是一个大型日英平行语料库,专注于对话领域,包含超过320万个示例,通过抓取和网络字幕对齐构建。该数据集由Google、斯坦福大学和乐天工业大学于2018年发布,是同类中最大的免费资源。
以上内容由遇见数据集搜集并总结生成



