five

BWB

收藏
arXiv2023-05-19 更新2024-06-21 收录
下载链接:
https://github.com/EleanorJiang/BlonDe/tree/main/BWB
下载链接
链接失效反馈
官方服务:
资源简介:
BWB数据集是由苏黎世联邦理工学院和微软亚洲研究院合作创建的,专注于文档级机器翻译评估。该数据集基于大规模平行语料库,特别标注了实体、术语、指代和引用等四个方面,总计包含15,095个实体提及。BWB数据集的创建旨在通过系统地分析源语言和目标语言的语篇结构相似性和差异性,揭示机器翻译面临的挑战。此外,该数据集的应用领域广泛,不仅限于机器翻译,还包括跨语言的命名实体识别和指代消解研究,以及多语言结构预测模型的开发。

The BWB dataset was co-created by ETH Zurich and Microsoft Research Asia, focusing on document-level machine translation evaluation. Built upon large-scale parallel corpora, this dataset has four specially annotated aspects: entities, terms, coreferences, and citations, with a total of 15,095 entity mentions. The BWB dataset was developed to reveal the challenges faced by machine translation by systematically analyzing the similarities and differences in discourse structure between source and target languages. Furthermore, this dataset has a wide range of applications, not limited to machine translation, but also covering cross-lingual named entity recognition (NER), coreference resolution research, and the development of multilingual structure prediction models.
提供机构:
苏黎世联邦理工学院
创建时间:
2023-05-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作