five

sardinelab/DocBlocks

收藏
Hugging Face2025-08-04 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/sardinelab/DocBlocks
下载链接
链接失效反馈
官方服务:
资源简介:
DocBlocks是一个高质量的多语种文档级机器翻译数据集,旨在用于长上下文翻译任务的大型语言模型(LLM)微调。与传统基于句子的数据集不同,它包含完整的文档,具有自然的语篇结构和上下文对齐,帮助模型在较长的文本中保持连贯性、一致性和高翻译质量。

DocBlocks is a high-quality, multilingual document-level machine translation (MT) dataset designed to fine-tune large language models (LLMs) on long-context translation tasks. Unlike traditional sentence-level datasets, it contains full documents with natural discourse structures and contextual alignment, helping models maintain coherence, consistency, and high translation quality across longer texts.
提供机构:
sardinelab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作