five

google-research-datasets/wiki_atomic_edits

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/wiki_atomic_edits
下载链接
链接失效反馈
官方服务:
资源简介:
WikiAtomicEdits数据集是一个多语言数据集,包含德语、英语、西班牙语、法语、意大利语、日语、俄语和中文等多种语言。数据集的主要任务是文本摘要,数据集的规模在100K到100M之间。数据集的结构包括插入和删除两种操作,每种操作对应不同的语言配置。数据集的字段包括id、base_sentence、phrase和edited_sentence。

The WikiAtomicEdits dataset is a multilingual dataset covering languages including German, English, Spanish, French, Italian, Japanese, Russian, and Chinese. Its primary task is text summarization, with a scale ranging from 100K to 100M. The dataset structure includes two types of operations: insertion and deletion, each corresponding to different language configurations. The dataset fields consist of id, base_sentence, phrase, and edited_sentence.
提供机构:
google-research-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: WikiAtomicEdits
  • 语言:
    • 德语 (de)
    • 英语 (en)
    • 西班牙语 (es)
    • 法语 (fr)
    • 意大利语 (it)
    • 日语 (ja)
    • 俄语 (ru)
    • 中文 (zh)
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 多语言
  • 数据集大小分类:
    • 100K<n<1M
    • 10M<n<100M
    • 1M<n<10M
  • 源数据集: 原始数据
  • 任务类别: 摘要生成

数据集结构

配置信息

  • german_insertions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 1072443082
        • 样本数: 3343403
    • 下载大小: 274280387
    • 数据集大小: 1072443082
  • german_deletions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 624070402
        • 样本数: 1994329
    • 下载大小: 160133549
    • 数据集大小: 624070402
  • english_insertions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 4258411914
        • 样本数: 13737796
    • 下载大小: 1090652177
    • 数据集大小: 4258411914
  • english_deletions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 2865754626
        • 样本数: 9352389
    • 下载大小: 736560902
    • 数据集大小: 2865754626
  • spanish_insertions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 481145004
        • 样本数: 1380934
    • 下载大小: 118837934
    • 数据集大小: 481145004
  • spanish_deletions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 317253196
        • 样本数: 908276
    • 下载大小: 78485695
    • 数据集大小: 317253196
  • french_insertions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 651525210
        • 样本数: 2038305
    • 下载大小: 160442894
    • 数据集大小: 651525210
  • french_deletions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 626323354
        • 样本数: 2060242
    • 下载大小: 155263358
    • 数据集大小: 626323354
  • italian_insertions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 372950256
        • 样本数: 1078814
    • 下载大小: 92302006
    • 数据集大小: 372950256
  • italian_deletions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 198598618
        • 样本数: 583316
    • 下载大小: 49048596
    • 数据集大小: 198598618
  • japanese_insertions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 765754162
        • 样本数: 2249527
    • 下载大小: 185766012
    • 数据集大小: 765754162
  • japanese_deletions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 459683880
        • 样本数: 1352162
    • 下载大小: 110513593
    • 数据集大小: 459683880
  • russian_insertions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 790822192
        • 样本数: 1471638
    • 下载大小: 152985812
    • 数据集大小: 790822192
  • russian_deletions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 514750186
        • 样本数: 960976
    • 下载大小: 100033230
    • 数据集大小: 514750186
  • chinese_insertions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 233367646
        • 样本数: 746509
    • 下载大小: 66124094
    • 数据集大小: 233367646
  • chinese_deletions

    • 特征:
      • id: int32
      • base_sentence: string
      • phrase: string
      • edited_sentence: string
    • 分割:
      • train:
        • 字节数: 144269112
        • 样本数: 467271
    • 下载大小: 40898651
    • 数据集大小: 144269112
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作