Proyag/paracrawl_context
收藏Hugging Face2025-10-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Proyag/paracrawl_context
下载链接
链接失效反馈官方服务:
资源简介:
ParaCrawl_Context 数据集是为文档级机器翻译设计的,包含了来自 ParaCrawl 数据集的平行句子对,并增加了从原始网页中提取的前文上下文。这些上下文旨在帮助训练上下文感知的机器翻译模型。数据集涵盖多种语言对,并根据源语言、目标语言或两者的上下文存在不同配置。README 文件还讨论了数据集的结构、预期用途和局限性。
The dataset includes multiple configurations, each involving translation tasks for different language pairs, including English to Czech, German, French, Polish, and Russian. Each configuration has different context settings, such as both_contexts, src_contexts, and trg_contexts, representing the contexts of the source and target languages. The dataset features include source language text, source language context, target language context, and target language text. Each configuration has training data and provides the size and number of examples of the data.
提供机构:
Proyag
原始信息汇总
数据集概述
数据集配置
配置名称:eng-ces.both_contexts
- 特征:
- eng: string
- eng_context: string
- ces_context: string
- ces: string
- 分割:
- train:
- num_bytes: 99249281542
- num_examples: 16312023
- train:
- 下载大小:50311612769
- 数据集大小:99249281542
- 数据文件路径:both_contexts/eng-ces/train-*
配置名称:eng-ces.src_contexts
- 特征:
- eng: string
- eng_context: string
- ces: string
- 分割:
- train:
- num_bytes: 55783391633
- num_examples: 18718104
- train:
- 下载大小:27949833416
- 数据集大小:55783391633
- 数据文件路径:src_contexts/eng-ces/train-*
配置名称:eng-ces.trg_contexts
- 特征:
- eng: string
- ces_context: string
- ces: string
- 分割:
- train:
- num_bytes: 67790203254
- num_examples: 21000099
- train:
- 下载大小:35682681930
- 数据集大小:67790203254
- 数据文件路径:trg_contexts/eng-ces/train-*
配置名称:eng-deu.both_contexts
- 特征:
- eng: string
- eng_context: string
- deu_context: string
- deu: string
- 分割:
- train:
- num_bytes: 544626482766
- num_examples: 92066559
- train:
- 下载大小:287393903524
- 数据集大小:544626482766
- 数据文件路径:both_contexts/eng-deu/train-*
配置名称:eng-deu.src_contexts
- 特征:
- eng: string
- eng_context: string
- deu: string
- 分割:
- train:
- num_bytes: 305555617347
- num_examples: 105641972
- train:
- 下载大小:163549986986
- 数据集大小:305555617347
- 数据文件路径:src_contexts/eng-deu/train-*
配置名称:eng-deu.trg_contexts
- 特征:
- eng: string
- deu_context: string
- deu: string
- 分割:
- train:
- num_bytes: 355001902675
- num_examples: 110317948
- train:
- 下载大小:189296787255
- 数据集大小:355001902675
- 数据文件路径:trg_contexts/eng-deu/train-*
配置名称:eng-fra.both_contexts
- 特征:
- eng: string
- eng_context: string
- fra_context: string
- fra: string
- 分割:
- train:
- num_bytes: 426893899212
- num_examples: 72236079
- train:
- 下载大小:230871109132
- 数据集大小:426893899212
- 数据文件路径:both_contexts/eng-fra/train-*
配置名称:eng-fra.src_contexts
- 特征:
- eng: string
- eng_context: string
- fra: string
- 分割:
- train:
- num_bytes: 249628324881
- num_examples: 83450135
- train:
- 下载大小:137168157896
- 数据集大小:249628324881
- 数据文件路径:src_contexts/eng-fra/train-*
配置名称:eng-fra.trg_contexts
- 特征:
- eng: string
- fra_context: string
- fra: string
- 分割:
- train:
- num_bytes: 270469945796
- num_examples: 86300028
- train:
- 下载大小:146946754213
- 数据集大小:270469945796
- 数据文件路径:trg_contexts/eng-fra/train-*
配置名称:eng-pol.both_contexts
- 特征:
- eng: string
- eng_context: string
- pol_context: string
- pol: string
- 分割:
- train:
- num_bytes: 89716407201
- num_examples: 14889498
- train:
- 下载大小:46321869504
- 数据集大小:89716407201
- 数据文件路径:both_contexts/eng-pol/train-*
配置名称:eng-pol.src_contexts
- 特征:
- eng: string
- eng_context: string
- pol: string
- 分割:
- train:
- num_bytes: 49301775564
- num_examples: 16803950
- train:
- 下载大小:25270022217
- 数据集大小:49301775564
- 数据文件路径:src_contexts/eng-pol/train-*
配置名称:eng-pol.trg_contexts
- 特征:
- eng: string
- pol_context: string
- pol: string
- 分割:
- train:
- num_bytes: 59562532908
- num_examples: 18395174
- train:
- 下载大小:31681850576
- 数据集大小:59562532908
- 数据文件路径:trg_contexts/eng-pol/train-*
配置名称:eng-rus.both_contexts
- 特征:
- eng: string
- eng_context: string
- rus_context: string
- rus: string
- 分割:
- train:
- num_bytes: 18867292434
- num_examples: 2433874
- train:
- 下载大小:9061303586
- 数据集大小:18867292434
- 数据文件路径:both_contexts/eng-rus/train-*
配置名称:eng-rus.src_contexts
- 特征:
- eng: string
- eng_context: string
- rus: string
- 分割:
- train:
- num_bytes: 9242442932
- num_examples: 3104195
- train:
- 下载大小:4903481579
- 数据集大小:9242442932
- 数据文件路径:src_contexts/eng-rus/train-*
配置名称:eng-rus.trg_contexts
- 特征:
- eng: string
- rus_context: string
- rus: string
- 分割:
- train:
- num_bytes: 14244166125
- num_examples: 2813181
- train:
- 下载大小:6539469805
- 数据集大小:14244166125
- 数据文件路径:trg_contexts/eng-rus/train-*



