five

Unbabel/TowerEval-Data-v0.1

收藏
Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Unbabel/TowerEval-Data-v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
TowerEval-Data是一套用于评估专门用于翻译任务的语言模型的数据集,包括机器翻译(如通用、文档、术语感知或上下文感知翻译)、自动后编辑、命名实体识别、语法错误纠正和释义生成等任务。数据集由Unbabel、Instituto Superior Técnico、CentraleSupélec、University of Paris-Saclay等机构策划,支持英语、葡萄牙语、西班牙语、法语、德语、荷兰语、意大利语、韩语、中文和俄语等多种语言。数据集包含来自Flores、WMT23、TICO-19等多个公开数据源的0-shot和few-shot指令及其对应的原始数据。

TowerEval-Data是一套用于评估专门用于翻译任务的语言模型的数据集,包括机器翻译(如通用、文档、术语感知或上下文感知翻译)、自动后编辑、命名实体识别、语法错误纠正和释义生成等任务。数据集由Unbabel、Instituto Superior Técnico、CentraleSupélec、University of Paris-Saclay等机构策划,支持英语、葡萄牙语、西班牙语、法语、德语、荷兰语、意大利语、韩语、中文和俄语等多种语言。数据集包含来自Flores、WMT23、TICO-19等多个公开数据源的0-shot和few-shot指令及其对应的原始数据。
提供机构:
Unbabel
原始信息汇总

数据集卡片:TowerEval-Data

概述

TowerEval-Data 是一套用于评估 Tower 语言模型的数据集,这些模型专门用于翻译任务,如机器翻译(例如通用、文档、术语感知或上下文感知翻译)、自动后期编辑、命名实体识别、语法错误校正和释义生成。

数据集详情

TowerEval 包含从以下来源创建的0-shot和few-shot指令及其相应的原始数据:

数据来源 任务
Flores 通用翻译
WMT23 通用翻译
TICO-19 领域特定翻译
WMT23 自动后期编辑(NLLB 3B 在 WMT23 测试数据上的翻译)
MultiCoNER II 命名实体识别(随机选择的1000个测试实例)
CoNLL-2014 语法错误校正
COWS-L2H 语法错误校正
mlconvgec2018 语法错误校正

预期用途和限制

TowerEval-Data 旨在用于评估大型语言模型在翻译及相关任务上的表现。

引用

bibtex @misc{tower_llm_2024, title={Tower: An Open Multilingual Large Language Model for Translation-Related Tasks}, author={Duarte M. Alves and José Pombal and Nuno M. Guerreiro and Pedro H. Martins and João Alves and Amin Farajian and Ben Peters and Ricardo Rei and Patrick Fernandes and Sweta Agrawal and Pierre Colombo and José G. C. de Souza and André F. T. Martins}, year={2024}, eprint={2402.17733}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作