five

Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus

收藏
Hugging Face2024-03-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从ntt的JParaCrawl v3大型英日平行语料库中提取的前100万行数据,经过LLM(大型语言模型)过滤。原始JParaCrawl语料库是通过自动化手段构建的,即将日语文本与在互联网上找到的明显英语翻译对齐。然而,原始数据中存在明显的质量问题,如翻译不对齐、翻译不完整等。该数据集的目标是将原始数据集分为高质量和低质量部分,以促进进一步研究、提供高质量数据集,并研究不同LLM在评估数据集时的表现。数据集还包括通过另一个LLM(mistral-japanese-stabalelm-merge)进行过滤的结果,该模型仅接受了260,058行数据。

该数据集是从ntt的JParaCrawl v3大型英日平行语料库中提取的前100万行数据,经过LLM(大型语言模型)过滤。原始JParaCrawl语料库是通过自动化手段构建的,即将日语文本与在互联网上找到的明显英语翻译对齐。然而,原始数据中存在明显的质量问题,如翻译不对齐、翻译不完整等。该数据集的目标是将原始数据集分为高质量和低质量部分,以促进进一步研究、提供高质量数据集,并研究不同LLM在评估数据集时的表现。数据集还包括通过另一个LLM(mistral-japanese-stabalelm-merge)进行过滤的结果,该模型仅接受了260,058行数据。
提供机构:
Verah
原始信息汇总

数据集概述

数据集介绍

  • 数据集名称:LLM-filtered set of the first 1M rows from ntts JParaCrawl v3 large English-Japanese parallel corpus
  • 数据集来源:ntts JParaCrawl v3
  • 数据集类型:英语-日语平行语料库
  • 数据集大小:1M<n<10M
  • 数据集处理:通过LLM(大型语言模型)过滤,新模型仅接受260,058行数据,而之前的模型接受的数据量约为两倍。

数据集目标

  • 将原始数据集分为高质量和低质量部分
  • 促进进一步研究
  • 提供高质量数据集
  • 研究不同LLM在评估数据集性能方面的表现

数据集使用提示

  • 模型评估标准
    • 缺失部分的翻译应被拒绝
    • 不完整的翻译应被拒绝
    • 不准确的翻译应被拒绝
    • 语法错误应被拒绝
    • 任何类型的错误应被拒绝
    • 拼写错误应被拒绝
    • 低质量的英语应被拒绝
    • 低质量的日语应被拒绝
    • 高质量的翻译应被接受
    • 仅响应“ACCEPT”或“REJECT”

数据集许可证

  • 许可证名称:ntt-research
  • 许可证链接https://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/
  • 许可证条款
    • 仅限用于信息分析相关的研究目的
    • 不可用于商业用途,包括使用该数据训练的翻译器的销售
    • 提供方不保证数据的质量、性能或其他方面
    • 提供方不对因使用数据而造成的任何直接或间接损害负责
    • 提供方可能随时更改、中断或停止数据的提供,无需事先通知
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作