five

google/xtreme

收藏
hugging_face2024-02-22 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/google/xtreme
下载链接
链接失效反馈
资源简介:
XTREME数据集是一个多语言数据集,支持多种语言,包括非洲语、阿拉伯语、保加利亚语、孟加拉语、德语、希腊语、英语、西班牙语、爱沙尼亚语、巴斯克语、波斯语、芬兰语、法语、希伯来语、印地语、匈牙利语、印尼语、意大利语、日语、爪哇语、格鲁吉亚语、哈萨克语、韩语、马拉雅拉姆语、马拉地语、马来语、缅甸语、荷兰语、葡萄牙语、俄语、斯瓦希里语、泰米尔语、泰卢固语、泰语、他加禄语、土耳其语、乌尔都语、越南语、约鲁巴语和中文。该数据集适用于多种NLP任务,如多项选择问答、抽取式问答、开放域问答、自然语言推理、命名实体识别和词性标注。XTREME数据集基于多个扩展的源数据集,如XNLI、PAWS-X、WikiAnn、XQuAD、MLQA、TyDiQA、Tatoeba和SQuAD,并提供了多种配置,涵盖了不同语言和任务的组合。

XTREME数据集是一个多语言数据集,支持多种语言,包括非洲语、阿拉伯语、保加利亚语、孟加拉语、德语、希腊语、英语、西班牙语、爱沙尼亚语、巴斯克语、波斯语、芬兰语、法语、希伯来语、印地语、匈牙利语、印尼语、意大利语、日语、爪哇语、格鲁吉亚语、哈萨克语、韩语、马拉雅拉姆语、马拉地语、马来语、缅甸语、荷兰语、葡萄牙语、俄语、斯瓦希里语、泰米尔语、泰卢固语、泰语、他加禄语、土耳其语、乌尔都语、越南语、约鲁巴语和中文。该数据集适用于多种NLP任务,如多项选择问答、抽取式问答、开放域问答、自然语言推理、命名实体识别和词性标注。XTREME数据集基于多个扩展的源数据集,如XNLI、PAWS-X、WikiAnn、XQuAD、MLQA、TyDiQA、Tatoeba和SQuAD,并提供了多种配置,涵盖了不同语言和任务的组合。
提供机构:
google
原始信息汇总

数据集概述

基本信息

  • 名称: XTREME
  • 语言: 支持多种语言,包括但不限于英语、中文、阿拉伯语、德语、西班牙语等。
  • 许可证: 包含多种许可证,如Apache-2.0、CC-BY-4.0、CC-BY-2.0、CC-BY-SA-4.0、其他、CC-BY-NC-4.0。
  • 多语言性: 多语言和翻译支持。

数据集大小

  • 规模: 分为多个级别,包括小于1K、1K到10K、10K到100K、100K到1M。

数据来源

  • 源数据集: 包括但不限于MLQA、PAWS-X、WikiANN、XQuAD、MLQA、Tydiqa、Tatoeba、SQuAD等。

任务类型

  • 任务类别: 包括多项选择、问答、令牌分类、文本分类、文本检索、令牌分类。
  • 具体任务: 包括多项选择QA、抽取式QA、开放领域QA、自然语言推理、命名实体识别、词性标注等。

配置名称

  • 配置详情: 包括多种语言对的配置,如MLQA.ar.ar、MLQA.ar.de、MLQA.ar.en等,涵盖了多种语言之间的互译和QA任务。

数据集结构

  • 特征: 每个数据集配置包含ID、标题、上下文、问题和答案等特征。
  • 分割: 数据集通常分为测试集和验证集,每个分割包含不同数量的示例和字节数。

示例数据量

  • 测试集: 示例数量从几百到几千不等。
  • 验证集: 示例数量通常较少,从几十到几百不等。

下载和数据集大小

  • 下载大小: 每个配置的下载大小从几十万字节到几百万字节不等。
  • 数据集大小: 每个配置的数据集大小从几百万字节到几千万字节不等。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录