five

NilanE/SmallParallelDocs-Ja_En-6k

收藏
Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NilanE/SmallParallelDocs-Ja_En-6k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自不同来源的日英平行文本,主要用于翻译任务。数据集整体遵循apache 2.0许可证,但不同来源可能有不同的许可证,如果有冲突,应以更严格的条款为准。数据集中特定于手动收集的粉丝小说部分的元数据包括missed_lines、inserted_lines_src等,用于指示翻译质量或源文本与翻译文本之间的匹配情况。数据集的来源包括news_commentary、iwslt2017、NICT的网站以及手动收集的粉丝小说和翻译。

该数据集包含来自不同来源的日英平行文本,主要用于翻译任务。数据集整体遵循apache 2.0许可证,但不同来源可能有不同的许可证,如果有冲突,应以更严格的条款为准。数据集中特定于手动收集的粉丝小说部分的元数据包括missed_lines、inserted_lines_src等,用于指示翻译质量或源文本与翻译文本之间的匹配情况。数据集的来源包括news_commentary、iwslt2017、NICT的网站以及手动收集的粉丝小说和翻译。
提供机构:
NilanE
原始信息汇总

数据集概述

该数据集包含来自多个来源的日英双语平行文本,适用于翻译任务。数据集整体采用Apache 2.0许可证,但各来源的许可证可能不同,如有冲突,以更严格的条款为准。

语言

  • 日语 (ja)
  • 英语 (en)

任务类别

  • 翻译

数据集来源

  • news_commentary (许可证未知)
  • iwslt2017 (CC-BY-NC-ND-4.0)
  • https://www2.nict.go.jp/astrec-att/member/mutiyama/ (GPL v1.2)
  • 手动抓取的同人小说及其翻译 (Apache 2.0)

元数据含义

  • missed_lines: 文档中索引匹配但在内容上未达到匹配阈值的行数。此数值相对于文档总行数较高时,可能表示翻译质量差或其他因素导致源文档和翻译文档差异过大。
  • inserted_lines_src: 仅在源文档中出现的行数,且周围有匹配行,表明该行可能是某种插入内容(如注释、后记、标题等)。除非与正确对齐的句子数量相比显著,否则通常可以忽略,这可能表示源文档和翻译文档之间存在匹配问题。
  • inserted_lines_src: 同上,但针对目标文档。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作