five

gsarti/flores_101|机器翻译数据集|低资源语言数据集

收藏
hugging_face2022-10-27 更新2024-03-04 收录
机器翻译
低资源语言
下载链接:
https://hf-mirror.com/datasets/gsarti/flores_101
下载链接
链接失效反馈
资源简介:
FLORES是一个用于机器翻译的基准数据集,特别是针对英语与低资源语言之间的翻译。该数据集包含从英文维基百科中提取的3001个句子,并由专业翻译人员翻译成101种语言。这些句子涵盖了各种不同的主题和领域,并且所有翻译都是多语言对齐的。该数据集旨在更好地评估低资源语言的模型质量,包括多对多多语言翻译系统的评估。数据集的结构包括数据实例、数据字段和数据分割,所有句子在配置和分割之间都是对齐的。数据集的创建过程在原始论文中有详细描述,数据集遵循Creative Commons Attribution-ShareAlike 4.0 International License许可。
提供机构:
gsarti
原始信息汇总

数据集概述

数据集名称

  • 名称: Flores 101
  • 别名: FLORES

数据集描述

  • 目的: 用于机器翻译,特别是针对低资源语言的评估和研究。
  • 内容: 包含从英文维基百科提取的3001个句子,这些句子由专业翻译者翻译成101种语言。
  • 特点: 所有翻译都是多语言对齐的,支持多对多的多语言翻译系统评估。

语言支持

  • 语言数量: 101种
  • 语言列表: 包括但不限于英语(en)、法语(fr)、俄语(rus)等,具体列表请参考原始数据集文档。

数据集结构

  • 数据实例: 每个实例包含ID、句子、URL、领域、主题、是否包含图像、是否包含超链接等信息。
  • 数据字段:
    • id: 数据条目编号,从1开始。
    • sentence: 特定语言的完整句子。
    • URL: 英文文章的URL。
    • domain: 句子所属领域。
    • topic: 句子主题。
    • has_image: 原始文章是否包含图像。
    • has_hyperlink: 句子是否包含超链接。

数据集创建

许可信息

  • 许可类型: Creative Commons Attribution Share Alike 4.0 (CC-BY-SA-4.0)
  • 许可详情: 可访问 Creative Commons 获取。

引用信息

  • 引用格式: bibtex @inproceedings{flores101, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, MarcAurelio and Guzm{a}n, Francisco and Fan, Angela}, journal={arXiv preprint arXiv:2106.03193}, year={2021} }
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

TCGA (The Cancer Genome Atlas)

TCGA数据集包含了多种癌症类型的基因组、转录组和表观遗传学数据,旨在通过大规模的基因组分析来理解癌症的发生和发展机制。

portal.gdc.cancer.gov 收录