Unbabel/TowerEval-Data-v0.1

Name: Unbabel/TowerEval-Data-v0.1
Creator: Unbabel
Published: 2024-03-05 12:52:44
License: 暂无描述

Hugging Face2024-03-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Unbabel/TowerEval-Data-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

TowerEval-Data是一套用于评估专门用于翻译任务的语言模型的数据集，包括机器翻译（如通用、文档、术语感知或上下文感知翻译）、自动后编辑、命名实体识别、语法错误纠正和释义生成等任务。数据集由Unbabel、Instituto Superior Técnico、CentraleSupélec、University of Paris-Saclay等机构策划，支持英语、葡萄牙语、西班牙语、法语、德语、荷兰语、意大利语、韩语、中文和俄语等多种语言。数据集包含来自Flores、WMT23、TICO-19等多个公开数据源的0-shot和few-shot指令及其对应的原始数据。

提供机构：

Unbabel

原始信息汇总

数据集卡片：TowerEval-Data

概述

TowerEval-Data 是一套用于评估 Tower 语言模型的数据集，这些模型专门用于翻译任务，如机器翻译（例如通用、文档、术语感知或上下文感知翻译）、自动后期编辑、命名实体识别、语法错误校正和释义生成。

数据集详情

TowerEval 包含从以下来源创建的0-shot和few-shot指令及其相应的原始数据：

数据来源	任务
Flores	通用翻译
WMT23	通用翻译
TICO-19	领域特定翻译
WMT23	自动后期编辑（NLLB 3B 在 WMT23 测试数据上的翻译）
MultiCoNER II	命名实体识别（随机选择的1000个测试实例）
CoNLL-2014	语法错误校正
COWS-L2H	语法错误校正
mlconvgec2018	语法错误校正

预期用途和限制

TowerEval-Data 旨在用于评估大型语言模型在翻译及相关任务上的表现。

引用

bibtex @misc{tower_llm_2024, title={Tower: An Open Multilingual Large Language Model for Translation-Related Tasks}, author={Duarte M. Alves and José Pombal and Nuno M. Guerreiro and Pedro H. Martins and João Alves and Amin Farajian and Ben Peters and Ricardo Rei and Patrick Fernandes and Sweta Agrawal and Pierre Colombo and José G. C. de Souza and André F. T. Martins}, year={2024}, eprint={2402.17733}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集