GEM/gem
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/GEM/gem
下载链接
链接失效反馈官方服务:
资源简介:
GEM数据集是一个多语言数据集,涵盖捷克语、德语、英语、西班牙语、俄语、土耳其语和越南语等多种语言。它支持多种任务,如填空、摘要生成和文本生成。数据集来源于扩展的视觉数据集和原始数据源,包含单语和多语内容。数据集按大小分类,范围从1K到1M个示例。注释和语言内容通过众包、现有资源和机器生成创建。
GEM数据集是一个多语言数据集,涵盖捷克语、德语、英语、西班牙语、俄语、土耳其语和越南语等多种语言。它支持多种任务,如填空、摘要生成和文本生成。数据集来源于扩展的视觉数据集和原始数据源,包含单语和多语内容。数据集按大小分类,范围从1K到1M个示例。注释和语言内容通过众包、现有资源和机器生成创建。
提供机构:
GEM
原始信息汇总
数据集概述
数据集名称
- 名称: GEM
- 别名: 无
数据集创建者
- 标注创建者: 众包, 发现
- 语言创建者: 众包, 发现, 机器生成
数据集语言
- 支持语言: 捷克语, 德语, 英语, 西班牙语, 俄语, 土耳其语, 越南语
数据集许可证
- 许可证类型: 其他
多语言性
- 类型: 单语, 多语
数据集大小
- 大小范围: 1K<n<10K, 10K<n<100K, 100K<n<1M
数据集来源
- 来源类型: 扩展自其他视觉数据集, 原始
任务类别
- 任务类型: 填充掩码, 摘要, 表格到文本, 表格到文本, 文本生成, 文本到文本生成
任务ID
- 具体任务: 对话建模, RDF到文本, 新闻文章摘要, 文本简化
数据集信息
- 配置名称: mlsum_de, mlsum_es, wiki_lingua_es_en_v0, wiki_lingua_ru_en_v0, wiki_lingua_tr_en_v0, wiki_lingua_vi_en_v0, wiki_lingua_arabic_ar, wiki_lingua_chinese_zh, wiki_lingua_czech_cs, wiki_lingua_dutch_nl, wiki_lingua_english_en, wiki_lingua_french_fr, wiki_lingua_german_de, wiki_lingua_hindi_hi, wiki_lingua_indonesian_id, wiki_lingua_italian_it, wiki_lingua_japanese_ja, wiki_lingua_korean_ko, wiki_lingua_portuguese_pt, wiki_lingua_russian_ru, wiki_lingua_spanish_es, wiki_lingua_thai_th, wiki_lingua_turkish_tr, wiki_lingua_vietnamese_vi, xsum, common_gen, cs_restaurants, dart
数据集特征
- 特征: gem_id, gem_parent_id, text, topic, url, title, date, target, references
- 数据类型: 字符串, 整数, 布尔值
数据集分割
- 分割类型: 训练, 验证, 测试, 挑战训练样本, 挑战验证样本, 挑战测试Covid
- 示例数量: 根据不同配置变化
- 字节数: 根据不同配置变化
数据集下载和大小
- 下载大小: 根据不同配置变化
- 数据集大小: 根据不同配置变化
结论
GEM数据集是一个多语言、多任务的数据集,涵盖了从文本生成到摘要等多种自然语言处理任务,适用于多种语言和不同的数据规模。



