five

GEM/gem

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/GEM/gem
下载链接
链接失效反馈
官方服务:
资源简介:
GEM数据集是一个多语言数据集,涵盖捷克语、德语、英语、西班牙语、俄语、土耳其语和越南语等多种语言。它支持多种任务,如填空、摘要生成和文本生成。数据集来源于扩展的视觉数据集和原始数据源,包含单语和多语内容。数据集按大小分类,范围从1K到1M个示例。注释和语言内容通过众包、现有资源和机器生成创建。

GEM数据集是一个多语言数据集,涵盖捷克语、德语、英语、西班牙语、俄语、土耳其语和越南语等多种语言。它支持多种任务,如填空、摘要生成和文本生成。数据集来源于扩展的视觉数据集和原始数据源,包含单语和多语内容。数据集按大小分类,范围从1K到1M个示例。注释和语言内容通过众包、现有资源和机器生成创建。
提供机构:
GEM
原始信息汇总

数据集概述

数据集名称

  • 名称: GEM
  • 别名: 无

数据集创建者

  • 标注创建者: 众包, 发现
  • 语言创建者: 众包, 发现, 机器生成

数据集语言

  • 支持语言: 捷克语, 德语, 英语, 西班牙语, 俄语, 土耳其语, 越南语

数据集许可证

  • 许可证类型: 其他

多语言性

  • 类型: 单语, 多语

数据集大小

  • 大小范围: 1K<n<10K, 10K<n<100K, 100K<n<1M

数据集来源

  • 来源类型: 扩展自其他视觉数据集, 原始

任务类别

  • 任务类型: 填充掩码, 摘要, 表格到文本, 表格到文本, 文本生成, 文本到文本生成

任务ID

  • 具体任务: 对话建模, RDF到文本, 新闻文章摘要, 文本简化

数据集信息

  • 配置名称: mlsum_de, mlsum_es, wiki_lingua_es_en_v0, wiki_lingua_ru_en_v0, wiki_lingua_tr_en_v0, wiki_lingua_vi_en_v0, wiki_lingua_arabic_ar, wiki_lingua_chinese_zh, wiki_lingua_czech_cs, wiki_lingua_dutch_nl, wiki_lingua_english_en, wiki_lingua_french_fr, wiki_lingua_german_de, wiki_lingua_hindi_hi, wiki_lingua_indonesian_id, wiki_lingua_italian_it, wiki_lingua_japanese_ja, wiki_lingua_korean_ko, wiki_lingua_portuguese_pt, wiki_lingua_russian_ru, wiki_lingua_spanish_es, wiki_lingua_thai_th, wiki_lingua_turkish_tr, wiki_lingua_vietnamese_vi, xsum, common_gen, cs_restaurants, dart

数据集特征

  • 特征: gem_id, gem_parent_id, text, topic, url, title, date, target, references
  • 数据类型: 字符串, 整数, 布尔值

数据集分割

  • 分割类型: 训练, 验证, 测试, 挑战训练样本, 挑战验证样本, 挑战测试Covid
  • 示例数量: 根据不同配置变化
  • 字节数: 根据不同配置变化

数据集下载和大小

  • 下载大小: 根据不同配置变化
  • 数据集大小: 根据不同配置变化

结论

GEM数据集是一个多语言、多任务的数据集,涵盖了从文本生成到摘要等多种自然语言处理任务,适用于多种语言和不同的数据规模。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作