gsarti/flores_101|机器翻译数据集|低资源语言数据集
收藏数据集概述
数据集名称
- 名称: Flores 101
- 别名: FLORES
数据集描述
- 目的: 用于机器翻译,特别是针对低资源语言的评估和研究。
- 内容: 包含从英文维基百科提取的3001个句子,这些句子由专业翻译者翻译成101种语言。
- 特点: 所有翻译都是多语言对齐的,支持多对多的多语言翻译系统评估。
语言支持
- 语言数量: 101种
- 语言列表: 包括但不限于英语(en)、法语(fr)、俄语(rus)等,具体列表请参考原始数据集文档。
数据集结构
- 数据实例: 每个实例包含ID、句子、URL、领域、主题、是否包含图像、是否包含超链接等信息。
- 数据字段:
id
: 数据条目编号,从1开始。sentence
: 特定语言的完整句子。URL
: 英文文章的URL。domain
: 句子所属领域。topic
: 句子主题。has_image
: 原始文章是否包含图像。has_hyperlink
: 句子是否包含超链接。
数据集创建
- 创建方法: 由专业翻译者对英文维基百科的句子进行翻译。
- 详细信息: 请参阅原始论文 The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation。
许可信息
- 许可类型: Creative Commons Attribution Share Alike 4.0 (CC-BY-SA-4.0)
- 许可详情: 可访问 Creative Commons 获取。
引用信息
- 引用格式: bibtex @inproceedings{flores101, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, MarcAurelio and Guzm{a}n, Francisco and Fan, Angela}, journal={arXiv preprint arXiv:2106.03193}, year={2021} }
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
HyperGlobal-450K - 全球最大规模高光谱图像数据集
HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
TCGA (The Cancer Genome Atlas)
TCGA数据集包含了多种癌症类型的基因组、转录组和表观遗传学数据,旨在通过大规模的基因组分析来理解癌症的发生和发展机制。
portal.gdc.cancer.gov 收录