google-research-datasets/wiki_atomic_edits
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/wiki_atomic_edits
下载链接
链接失效反馈官方服务:
资源简介:
WikiAtomicEdits数据集是一个多语言数据集,包含德语、英语、西班牙语、法语、意大利语、日语、俄语和中文等多种语言。数据集的主要任务是文本摘要,数据集的规模在100K到100M之间。数据集的结构包括插入和删除两种操作,每种操作对应不同的语言配置。数据集的字段包括id、base_sentence、phrase和edited_sentence。
The WikiAtomicEdits dataset is a multilingual dataset covering languages including German, English, Spanish, French, Italian, Japanese, Russian, and Chinese. Its primary task is text summarization, with a scale ranging from 100K to 100M. The dataset structure includes two types of operations: insertion and deletion, each corresponding to different language configurations. The dataset fields consist of id, base_sentence, phrase, and edited_sentence.
提供机构:
google-research-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: WikiAtomicEdits
- 语言:
- 德语 (de)
- 英语 (en)
- 西班牙语 (es)
- 法语 (fr)
- 意大利语 (it)
- 日语 (ja)
- 俄语 (ru)
- 中文 (zh)
- 许可证: CC-BY-SA-4.0
- 多语言性: 多语言
- 数据集大小分类:
- 100K<n<1M
- 10M<n<100M
- 1M<n<10M
- 源数据集: 原始数据
- 任务类别: 摘要生成
数据集结构
配置信息
-
german_insertions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 1072443082
- 样本数: 3343403
- train:
- 下载大小: 274280387
- 数据集大小: 1072443082
- 特征:
-
german_deletions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 624070402
- 样本数: 1994329
- train:
- 下载大小: 160133549
- 数据集大小: 624070402
- 特征:
-
english_insertions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 4258411914
- 样本数: 13737796
- train:
- 下载大小: 1090652177
- 数据集大小: 4258411914
- 特征:
-
english_deletions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 2865754626
- 样本数: 9352389
- train:
- 下载大小: 736560902
- 数据集大小: 2865754626
- 特征:
-
spanish_insertions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 481145004
- 样本数: 1380934
- train:
- 下载大小: 118837934
- 数据集大小: 481145004
- 特征:
-
spanish_deletions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 317253196
- 样本数: 908276
- train:
- 下载大小: 78485695
- 数据集大小: 317253196
- 特征:
-
french_insertions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 651525210
- 样本数: 2038305
- train:
- 下载大小: 160442894
- 数据集大小: 651525210
- 特征:
-
french_deletions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 626323354
- 样本数: 2060242
- train:
- 下载大小: 155263358
- 数据集大小: 626323354
- 特征:
-
italian_insertions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 372950256
- 样本数: 1078814
- train:
- 下载大小: 92302006
- 数据集大小: 372950256
- 特征:
-
italian_deletions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 198598618
- 样本数: 583316
- train:
- 下载大小: 49048596
- 数据集大小: 198598618
- 特征:
-
japanese_insertions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 765754162
- 样本数: 2249527
- train:
- 下载大小: 185766012
- 数据集大小: 765754162
- 特征:
-
japanese_deletions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 459683880
- 样本数: 1352162
- train:
- 下载大小: 110513593
- 数据集大小: 459683880
- 特征:
-
russian_insertions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 790822192
- 样本数: 1471638
- train:
- 下载大小: 152985812
- 数据集大小: 790822192
- 特征:
-
russian_deletions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 514750186
- 样本数: 960976
- train:
- 下载大小: 100033230
- 数据集大小: 514750186
- 特征:
-
chinese_insertions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 233367646
- 样本数: 746509
- train:
- 下载大小: 66124094
- 数据集大小: 233367646
- 特征:
-
chinese_deletions
- 特征:
- id: int32
- base_sentence: string
- phrase: string
- edited_sentence: string
- 分割:
- train:
- 字节数: 144269112
- 样本数: 467271
- train:
- 下载大小: 40898651
- 数据集大小: 144269112
- 特征:



