Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus

Name: Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus
Creator: Verah
Published: 2024-03-07 21:20:21
License: 暂无描述

Hugging Face2024-03-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从ntt的JParaCrawl v3大型英日平行语料库中提取的前100万行数据，经过LLM（大型语言模型）过滤。原始JParaCrawl语料库是通过自动化手段构建的，即将日语文本与在互联网上找到的明显英语翻译对齐。然而，原始数据中存在明显的质量问题，如翻译不对齐、翻译不完整等。该数据集的目标是将原始数据集分为高质量和低质量部分，以促进进一步研究、提供高质量数据集，并研究不同LLM在评估数据集时的表现。数据集还包括通过另一个LLM（mistral-japanese-stabalelm-merge）进行过滤的结果，该模型仅接受了260,058行数据。

提供机构：

Verah

原始信息汇总

数据集概述

数据集介绍

数据集名称：LLM-filtered set of the first 1M rows from ntts JParaCrawl v3 large English-Japanese parallel corpus
数据集来源：ntts JParaCrawl v3
数据集类型：英语-日语平行语料库
数据集大小：1M<n<10M
数据集处理：通过LLM（大型语言模型）过滤，新模型仅接受260,058行数据，而之前的模型接受的数据量约为两倍。

数据集目标

将原始数据集分为高质量和低质量部分
促进进一步研究
提供高质量数据集
研究不同LLM在评估数据集性能方面的表现

数据集使用提示

模型评估标准：
- 缺失部分的翻译应被拒绝
- 不完整的翻译应被拒绝
- 不准确的翻译应被拒绝
- 语法错误应被拒绝
- 任何类型的错误应被拒绝
- 拼写错误应被拒绝
- 低质量的英语应被拒绝
- 低质量的日语应被拒绝
- 高质量的翻译应被接受
- 仅响应“ACCEPT”或“REJECT”

数据集许可证

许可证名称：ntt-research
许可证链接：https://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/
许可证条款：
- 仅限用于信息分析相关的研究目的
- 不可用于商业用途，包括使用该数据训练的翻译器的销售
- 提供方不保证数据的质量、性能或其他方面
- 提供方不对因使用数据而造成的任何直接或间接损害负责
- 提供方可能随时更改、中断或停止数据的提供，无需事先通知

5,000+

优质数据集

54 个

任务类型

进入经典数据集