facebook/mlqa|跨语言问答数据集|多语言数据集数据集
收藏MLQA (MultiLingual Question Answering) 数据集概述
基本信息
- 名称: MLQA (MultiLingual Question Answering)
- 语言:
- 英语 (en)
- 德语 (de)
- 西班牙语 (es)
- 阿拉伯语 (ar)
- 中文 (zh)
- 越南语 (vi)
- 印地语 (hi)
- 许可证: CC-BY-SA-3.0
- 数据来源: 原始数据
- 数据规模: 10K<n<100K
- 数据创建者: 众包
- 标注创建者: 众包
- 多语言性: 多语言
- 任务类别: 问答
- 任务ID: 抽取式问答 (extractive-qa)
- Papers with Code ID: mlqa
数据集配置信息
配置: mlqa-translate-train.ar
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 101227245
- 样本数: 78058
- validation:
- 字节数: 13144332
- 样本数: 9512
- train:
- 下载大小: 63364123
- 数据集大小: 114371577
配置: mlqa-translate-train.de
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 77996825
- 样本数: 80069
- validation:
- 字节数: 10322113
- 样本数: 9927
- train:
- 下载大小: 63364123
- 数据集大小: 88318938
配置: mlqa-translate-train.vi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 97387431
- 样本数: 84816
- validation:
- 字节数: 12731112
- 样本数: 10356
- train:
- 下载大小: 63364123
- 数据集大小: 110118543
配置: mlqa-translate-train.zh
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 55143547
- 样本数: 76285
- validation:
- 字节数: 7418070
- 样本数: 9568
- train:
- 下载大小: 63364123
- 数据集大小: 62561617
配置: mlqa-translate-train.es
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 80789653
- 样本数: 81810
- validation:
- 字节数: 10718376
- 样本数: 10123
- train:
- 下载大小: 63364123
- 数据集大小: 91508029
配置: mlqa-translate-train.hi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- train:
- 字节数: 168117671
- 样本数: 82451
- validation:
- 字节数: 22422152
- 样本数: 10253
- train:
- 下载大小: 63364123
- 数据集大小: 190539823
配置: mlqa-translate-test.ar
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 5484467
- 样本数: 5335
- test:
- 下载大小: 10075488
- 数据集大小: 5484467
配置: mlqa-translate-test.de
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 3884332
- 样本数: 4517
- test:
- 下载大小: 10075488
- 数据集大小: 3884332
配置: mlqa-translate-test.vi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 5998327
- 样本数: 5495
- test:
- 下载大小: 10075488
- 数据集大小: 5998327
配置: mlqa-translate-test.zh
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 4831704
- 样本数: 5137
- test:
- 下载大小: 10075488
- 数据集大小: 4831704
配置: mlqa-translate-test.es
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 3916758
- 样本数: 5253
- test:
- 下载大小: 10075488
- 数据集大小: 3916758
配置: mlqa-translate-test.hi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 4608811
- 样本数: 4918
- test:
- 下载大小: 10075488
- 数据集大小: 4608811
配置: mlqa.ar.ar
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 8216837
- 样本数: 5335
- validation:
- 字节数: 808830
- 样本数: 517
- test:
- 下载大小: 75719050
- 数据集大小: 9025667
配置: mlqa.ar.de
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 2132247
- 样本数: 1649
- validation:
- 字节数: 358554
- 样本数: 207
- test:
- 下载大小: 75719050
- 数据集大小: 2490801
配置: mlqa.ar.vi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 3235363
- 样本数: 2047
- validation:
- 字节数: 283834
- 样本数: 163
- test:
- 下载大小: 75719050
- 数据集大小: 3519197
配置: mlqa.ar.zh
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 3175660
- 样本数: 1912
- validation:
- 字节数: 334016
- 样本数: 188
- test:
- 下载大小: 75719050
- 数据集大小: 3509676
配置: mlqa.ar.en
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 8074057
- 样本数: 5335
- validation:
- 字节数: 794775
- 样本数: 517
- test:
- 下载大小: 75719050
- 数据集大小: 8868832
配置: mlqa.ar.es
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 2981237
- 样本数: 1978
- validation:
- 字节数: 223188
- 样本数: 161
- test:
- 下载大小: 75719050
- 数据集大小: 3204425
配置: mlqa.ar.hi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 2993225
- 样本数: 1831
- validation:
- 字节数: 276727
- 样本数: 186
- test:
- 下载大小: 75719050
- 数据集大小: 3269952
配置: mlqa.de.ar
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1587005
- 样本数: 1649
- validation:
- 字节数: 195822
- 样本数: 207
- test:
- 下载大小: 75719050
- 数据集大小: 1782827
配置: mlqa.de.de
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 4274496
- 样本数: 4517
- validation:
- 字节数: 477366
- 样本数: 512
- test:
- 下载大小: 75719050
- 数据集大小: 4751862
配置: mlqa.de.vi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1654540
- 样本数: 1675
- validation:
- 字节数: 211985
- 样本数: 182
- test:
- 下载大小: 75719050
- 数据集大小: 1866525
配置: mlqa.de.zh
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1645937
- 样本数: 1621
- validation:
- 字节数: 180114
- 样本数: 190
- test:
- 下载大小: 75719050
- 数据集大小: 1826051
配置: mlqa.de.en
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 4251153
- 样本数: 4517
- validation:
- 字节数: 474863
- 样本数: 512
- test:
- 下载大小: 75719050
- 数据集大小: 4726016
配置: mlqa.de.es
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1678176
- 样本数: 1776
- validation:
- 字节数: 166193
- 样本数: 196
- test:
- 下载大小: 75719050
- 数据集大小: 1844369
配置: mlqa.de.hi
- 特征:
- context: string
- question: string
- answers:
- answer_start: int32
- text: string
- id: string
- 分割:
- test:
- 字节数: 1343983
- 样本数: 1430
- validation:
- 字节数: 15067
- test:
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
马达加斯加岛 – 世界地理数据大百科辞条
马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。
国家对地观测科学数据中心 收录
中国区域地面气象要素驱动数据集 v2.0(1951-2020)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。
国家青藏高原科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录