NilanE/SmallParallelDocs-Ja_En-6k
收藏Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NilanE/SmallParallelDocs-Ja_En-6k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自不同来源的日英平行文本,主要用于翻译任务。数据集整体遵循apache 2.0许可证,但不同来源可能有不同的许可证,如果有冲突,应以更严格的条款为准。数据集中特定于手动收集的粉丝小说部分的元数据包括missed_lines、inserted_lines_src等,用于指示翻译质量或源文本与翻译文本之间的匹配情况。数据集的来源包括news_commentary、iwslt2017、NICT的网站以及手动收集的粉丝小说和翻译。
该数据集包含来自不同来源的日英平行文本,主要用于翻译任务。数据集整体遵循apache 2.0许可证,但不同来源可能有不同的许可证,如果有冲突,应以更严格的条款为准。数据集中特定于手动收集的粉丝小说部分的元数据包括missed_lines、inserted_lines_src等,用于指示翻译质量或源文本与翻译文本之间的匹配情况。数据集的来源包括news_commentary、iwslt2017、NICT的网站以及手动收集的粉丝小说和翻译。
提供机构:
NilanE
原始信息汇总
数据集概述
该数据集包含来自多个来源的日英双语平行文本,适用于翻译任务。数据集整体采用Apache 2.0许可证,但各来源的许可证可能不同,如有冲突,以更严格的条款为准。
语言
- 日语 (ja)
- 英语 (en)
任务类别
- 翻译
数据集来源
- news_commentary (许可证未知)
- iwslt2017 (CC-BY-NC-ND-4.0)
- https://www2.nict.go.jp/astrec-att/member/mutiyama/ (GPL v1.2)
- 手动抓取的同人小说及其翻译 (Apache 2.0)
元数据含义
- missed_lines: 文档中索引匹配但在内容上未达到匹配阈值的行数。此数值相对于文档总行数较高时,可能表示翻译质量差或其他因素导致源文档和翻译文档差异过大。
- inserted_lines_src: 仅在源文档中出现的行数,且周围有匹配行,表明该行可能是某种插入内容(如注释、后记、标题等)。除非与正确对齐的句子数量相比显著,否则通常可以忽略,这可能表示源文档和翻译文档之间存在匹配问题。
- inserted_lines_src: 同上,但针对目标文档。



