Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus
收藏Hugging Face2024-03-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从ntt的JParaCrawl v3大型英日平行语料库中提取的前100万行数据,经过LLM(大型语言模型)过滤。原始JParaCrawl语料库是通过自动化手段构建的,即将日语文本与在互联网上找到的明显英语翻译对齐。然而,原始数据中存在明显的质量问题,如翻译不对齐、翻译不完整等。该数据集的目标是将原始数据集分为高质量和低质量部分,以促进进一步研究、提供高质量数据集,并研究不同LLM在评估数据集时的表现。数据集还包括通过另一个LLM(mistral-japanese-stabalelm-merge)进行过滤的结果,该模型仅接受了260,058行数据。
该数据集是从ntt的JParaCrawl v3大型英日平行语料库中提取的前100万行数据,经过LLM(大型语言模型)过滤。原始JParaCrawl语料库是通过自动化手段构建的,即将日语文本与在互联网上找到的明显英语翻译对齐。然而,原始数据中存在明显的质量问题,如翻译不对齐、翻译不完整等。该数据集的目标是将原始数据集分为高质量和低质量部分,以促进进一步研究、提供高质量数据集,并研究不同LLM在评估数据集时的表现。数据集还包括通过另一个LLM(mistral-japanese-stabalelm-merge)进行过滤的结果,该模型仅接受了260,058行数据。
提供机构:
Verah
原始信息汇总
数据集概述
数据集介绍
- 数据集名称:LLM-filtered set of the first 1M rows from ntts JParaCrawl v3 large English-Japanese parallel corpus
- 数据集来源:ntts JParaCrawl v3
- 数据集类型:英语-日语平行语料库
- 数据集大小:1M<n<10M
- 数据集处理:通过LLM(大型语言模型)过滤,新模型仅接受260,058行数据,而之前的模型接受的数据量约为两倍。
数据集目标
- 将原始数据集分为高质量和低质量部分
- 促进进一步研究
- 提供高质量数据集
- 研究不同LLM在评估数据集性能方面的表现
数据集使用提示
- 模型评估标准:
- 缺失部分的翻译应被拒绝
- 不完整的翻译应被拒绝
- 不准确的翻译应被拒绝
- 语法错误应被拒绝
- 任何类型的错误应被拒绝
- 拼写错误应被拒绝
- 低质量的英语应被拒绝
- 低质量的日语应被拒绝
- 高质量的翻译应被接受
- 仅响应“ACCEPT”或“REJECT”
数据集许可证
- 许可证名称:ntt-research
- 许可证链接:https://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/
- 许可证条款:
- 仅限用于信息分析相关的研究目的
- 不可用于商业用途,包括使用该数据训练的翻译器的销售
- 提供方不保证数据的质量、性能或其他方面
- 提供方不对因使用数据而造成的任何直接或间接损害负责
- 提供方可能随时更改、中断或停止数据的提供,无需事先通知



