MaCoCu/parallel_data
收藏Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MaCoCu/parallel_data
下载链接
链接失效反馈官方服务:
资源简介:
MaCoCu平行语料库是一个多语言平行语料库,包含了多种语言的翻译对。该数据集的主要用途是机器翻译任务,包含了源语言和目标语言的文本对以及丰富的元数据信息。元数据包括URL、文本内容、对齐分数、段落ID、文档标题、爬取日期、文件类型、是否为样板文本、哈希标识、语言正确性分数、平行性分数、是否包含个人信息、DSI类别、翻译方向、英语语言变体等信息。数据集的大小在10M到100M之间,支持多种语言对,如英语与冰岛语、英语与保加利亚语等。
MaCoCu平行语料库是一个多语言平行语料库,包含了多种语言的翻译对。该数据集的主要用途是机器翻译任务,包含了源语言和目标语言的文本对以及丰富的元数据信息。元数据包括URL、文本内容、对齐分数、段落ID、文档标题、爬取日期、文件类型、是否为样板文本、哈希标识、语言正确性分数、平行性分数、是否包含个人信息、DSI类别、翻译方向、英语语言变体等信息。数据集的大小在10M到100M之间,支持多种语言对,如英语与冰岛语、英语与保加利亚语等。
提供机构:
MaCoCu
原始信息汇总
数据集概述
- 名称: MaCoCu_parallel
- 多语言性: 支持翻译,涵盖以下语言:bs, bg, en, is, hr, cnr, mk, mt, sl, sr, sq, tr
- 许可: cc0-1.0
- 大小: 10M<n<100M
- 来源: 原始数据
- 任务类别: 翻译
数据集配置
-
配置名称: enis
- 特征:
- 名称: translation
- 数据类型:
- 语言: is, en
- 分割:
- 名称: train
- 字节数: 133883139
- 示例数: 546172
- 下载大小: 133883139
- 数据集大小: 133883139
- 特征:
-
配置名称: enbg
- 特征:
- 名称: translation
- 数据类型:
- 语言: bg, en
- 分割:
- 名称: train
- 字节数: 133883139
- 示例数: 546172
- 下载大小: 133883139
- 数据集大小: 133883139
- 特征:
元数据
- 包含的元数据:
- "src_url" 和 "trg_url": 源和目标文档URL
- "src_text" 和 "trg_text": 非英语语言和英语语言的文本
- "bleualign_score": 由句子对齐工具Bleualign提供的相似度分数(值介于0和1之间)
- "src_deferred_hash" 和 "trg_deferred_hash": 对应段的哈希标识符
- "src_paragraph_id" 和 "trg_paragraph_id": 段在原始文档中出现的段落标识符
- "src_doc_title" 和 "trg_doc_title": 获取段的文档标题
- "src_crawl_date" 和 "trg_crawl_date": 源和目标文档下载的日期和时间
- "src_file_type" 和 "trg_file_type": 原始文档的类型(通常是HTML格式)
- "src_boilerplate" 和 "trg_boilerplate": 源或目标段是否为样板
- "bifixer_hash": 段对的哈希标识符
- "bifixer_score": 指示段在其对应语言中正确性的分数
- "bicleaner_ai_score": 指示段对是否为平行的分数
- "biroamer_entities_detected": 段中是否包含个人信息
- "dsi": 与数字服务基础设施(DSI)类别的连接信息
- "translation_direction": 翻译方向和机器翻译识别
- "en_document_level_variant": 英语的语言变体(英式或美式)
- "domain_en": 英语文档的网站域名
- "en_domain_level_variant": 英语在网站域名级别的语言变体
搜集汇总
数据集介绍

背景与挑战
背景概述
MaCoCu/parallel_data是一个用于机器翻译任务的平行语料数据集,包含多种语言对,当前展示的英语-冰岛语子集拥有约54.6万行文本对。数据集提供丰富的元数据,如对齐分数、文档来源和质量评分,支持高质量翻译模型的训练和评估。
以上内容由遇见数据集搜集并总结生成



