five

malteos/wikinews-tmp3

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/malteos/wikinews-tmp3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置(如en和es),每个配置下有不同的特征(如语言、维基页面ID、维基修订ID等)和多个分割(如2004_q4_11、2005_q1_01等)。数据集的特征包括文本数据(如原始文本、清理后的文本)、时间戳、类别和来源等信息。数据集的分割按时间和日期进行划分,每个分割包含一定数量的字节和示例。

该数据集包含多个配置(如en和es),每个配置下有不同的特征(如语言、维基页面ID、维基修订ID等)和多个分割(如2004_q4_11、2005_q1_01等)。数据集的特征包括文本数据(如原始文本、清理后的文本)、时间戳、类别和来源等信息。数据集的分割按时间和日期进行划分,每个分割包含一定数量的字节和示例。
提供机构:
malteos
原始信息汇总

数据集概述

配置信息

  • config_name: en, es

特征信息

  • language: 数据类型为字符串。
  • wiki_page_id: 数据类型为字符串。
  • wiki_revision_id: 数据类型为字符串。
  • revision_timestamp: 数据类型为时间戳,单位微秒,时区为UTC。
  • revision_year: 数据类型为无符号16位整数。
  • revision_month: 数据类型为无符号16位整数。
  • article_timestamp: 数据类型为时间戳,单位微秒,时区为UTC。
  • article_year: 数据类型为无符号16位整数。
  • article_month: 数据类型为无符号16位整数。
  • url: 数据类型为字符串。
  • title: 数据类型为字符串。
  • raw_text: 数据类型为字符串。
  • cleaned_text: 数据类型为字符串。
  • categories: 数据类型为字符串序列。
  • sources: 数据类型为字符串序列。
  • dump: 数据类型为字符串。

分割信息

  • 2004_q4_11: 字节数为355384,样本数为73。
  • 2004: 字节数为867820,样本数为170。
  • 2004_q4: 字节数为867820,样本数为170。
  • no_date: 字节数为432792,样本数为173。
  • 2004_q4_12: 字节数为512436,样本数为97。
  • 2005_q1_01: 字节数为923286,样本数为220。
  • 2005: 字节数为17844730,样本数为3547。
  • 2005_q1: 字节数为3923859,样本数为827。
  • 2007_q1_01: 字节数为1331150,样本数为268。
  • 2007: 字节数为13771952,样本数为2481。
  • 2007_q1: 字节数为4199595,样本数为786。
  • 2005_q1_02: 字节数为1117537,样本数为244。
  • 2005_q2_04: 字节数为2350702,样本数为422。
  • 2005_q2: 字节数为5263396,样本数为958。
  • 2015_q3_08: 字节数为2329,样本数为1。
  • 2015: 字节数为2329,样本数为1。
  • 2015_q3: 字节数为2329,样本数为1。
  • 2005_q1_03: 字节数为1883036,样本数为363。
  • 2024_q1_03: 字节数为4108,样本数为1。
  • 2024: 字节数为12841,样本数为2。
  • 2024_q1: 字节数为4108,样本数为1。
  • 2024_q2_04: 字节数为8733,样本数为1。
  • 2024_q2: 字节数为8733,样本数为1。
  • 2005_q2_05: 字节数为1686948,样本数为288。
  • 2005_q3_09: 字节数为1807812,样本数为357。
  • 2005_q3: 字节数为4957002,样本数为1024。
  • 2005_q2_06: 字节数为1225746,样本数为248。
  • 2005_q3_07: 字节数为1840766,样本数为397。
  • 2005_q3_08: 字节数为1308424,样本数为270。
  • 2006_q4_12: 字节数为1138354,样本数为210。
  • 2006: 字节数为19900247,样本数为3623。
  • 2006_q4: 字节数为5027607,样本数为843。
  • 2005_q4_10: 字节数为1251164,样本数为256。
  • 2005_q4: 字节数为3700473,样本数为738。
  • 2005_q4_11: 字节数为1126641,样本数为204。
  • 2005_q4_12: 字节数为1322668,样本数为278。
  • 2006_q1_01: 字节数为1918408,样本数为351。
  • 2006_q1: 字节数为5012610,样本数为918。
  • 2006_q1_03: 字节数为1646980,样本数为316。
  • 2006_q1_02: 字节数为1447222,样本数为251。
  • 2009_q1_03: 字节数为5448,样本数为1。
  • 2009: 字节数为13506,样本数为2。
  • 2009_q1: 字节数为5448,样本数为1。
  • 2006_q2_04: 字节数为1198789,样本数为229。
  • 2006_q2: 字节数为5249482,样本数为951。
  • 2006_q2_05: 字节数为1919629,样本数为338。
  • 2006_q2_06: 字节数为2131064,样本数为384。
  • 2006_q3_07: 字节数为1467690,样本数为263。
  • 2006_q3: 字节数为4610548,样本数为911。
  • 2006_q3_08: 字节数为1773696,样本数为361。
  • 2006_q4_10: 字节数为1559210,样本数为278。
  • 2006_q3_09: 字节数为1369162,样本数为287。
  • 2006_q4_11: 字节数为2330043,样本数为355。
  • 2007_q1_02: 字节数为1064677,样本数为213。
  • 2007_q1_03: 字节数为1803768,样本数为305。
  • 2007_q2_05: 字节数为1616371,样本数为286。
  • 2007_q2: 字节数为5080138,样本数为870。
  • 2007_q2_04: 字节数为1717390,样本数为292。
  • 2007_q3_08: 字节数为1550665,样本数为308。
  • 2007_q3: 字节数为4473956,样本数为823。
  • 2011_q4_10: 字节数为2245,样本数为1。
  • 2011: 字节数为2245,样本数为1。
  • 2011_q4: 字节数为2245,样本数为1。
  • 2008_q2_06: 字节数为4049,样本数为1。
  • 2008: 字节数为4049,样本数为1。
  • 2008_q2: 字节数为4049,样本数为1。
  • 2009_q4_11: 字节数为8058,样本数为1。
  • 2009_q4: 字节数为8058,样本数为1。
  • 2007_q4_10: 字节数为14818,样本数为1。
  • 2007_q4: 字节数为18263,样本数为2。
  • 2007_q2_06: 字节数为1746377,样本数为292。
  • 2007_q4_11: 字节数为3445,样本数为1。
  • 2007_q3_07: 字节数为1727844,样本数为319。
  • 2007_q3_09: 字节数为1195447,样本数为196。
  • 2007_q4_10: 字节数为870495,样本数为176。
  • 2007_q4: 字节数为1996353,样本数为414。
  • 2007_q4_11: 字节数为764502,样本数为150。
  • 2007_q4_12: 字节数为361356,样本数为88。
  • 2008_q1_01: 字节数为401702,样本数为93。
  • 2008: 字节数为5529418,样本数为1109。
  • 2008_q1: 字节数为1001044,样本数为222。
  • 2008_q1_02: 字节数为273081,样本数为63。
  • 2008_q1_03: 字节数为326261,样本数为66。
  • 2008_q2_04: 字节数为192046,样本数为42。
  • 2008_q2: 字节数为397744,样本数为87。
  • 2008_q2_05: 字节数为95568,样本数为23。
  • 2008_q2_06: 字节数为110130,样本数为22。
  • 2008_q3_07: 字节数为254800,样本数为57。
  • 2008_q3: 字节数为1135101,样本数为231。
  • 2008_q3_08: 字节数为247018,样本数为53。
  • 2008_q3_09: 字节数为633283,样本数为121。
  • 2008_q4_10: 字节数为1436212,样本数为263。
  • 2008_q4: 字节数为2995529,样本数为569。
  • 2008_q4_11: 字节数为1144816,样本数为223。
  • 2008_q4_12: 字节数为414501,样本数为83。
  • 2009_q1_01: 字节数为286225,样本数为53。
  • 2009: 字节数为5055738,样本数为1009。
  • 2009_q1: 字节数为710394,样本数为140。
  • 2009_q1_02: 字节数为99781,样本数为23。
  • 2009_q1_03: 字节数为324388,样本数为64。
  • 2009_q2_04: 字节数为211490,样本数为40。
  • 2009_q2: 字节数为1426421,样本数为266。
  • 2009_q2_05: 字节数为542402,样本数为88。
  • 2009_q2_06: 字节数为672529,样本数为138。
  • 2009_q3_07: 字节数为344957,样本数为71。
  • 2009_q3: 字节数为1194673,样本数为253。
  • 2009_q3_08: 字节数为436349,样本数为91。
  • 2009_q3_09: 字节数为413367,样本数为91。
  • 2009_q4_10: 字节数为872489,样本数为177。
  • 2009_q4: 字节数为1724250,样本数为350。
  • 2009_q4_11: 字节数为531836,样本数为107。
  • 2009_q4_12: 字节数为319925,样本数为66。
  • 2010_q1_01: 字节数为403994,样本数为86。
  • 2010: 字节数为4887562,样本数为971。
  • 2010_q1: 字节数为1331805,样本数为275。
  • 2010_q1_02: 字节数为544627,样本数为107。
  • 2010_q1_03: 字节数为383184,样本数为82。
  • 2011_q1_02: 字节数为432905,样本数为92。
  • 2011: 字节数为5339426,样本数为1064。
  • 2011_q1: 字节数为1350570,样本数为291。
  • 2010_q2_04: 字节数为303778,样本数为60。
  • 2010_q2: 字节数为1326
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作