malteos/wikinews-tmp3
收藏Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/malteos/wikinews-tmp3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置(如en和es),每个配置下有不同的特征(如语言、维基页面ID、维基修订ID等)和多个分割(如2004_q4_11、2005_q1_01等)。数据集的特征包括文本数据(如原始文本、清理后的文本)、时间戳、类别和来源等信息。数据集的分割按时间和日期进行划分,每个分割包含一定数量的字节和示例。
该数据集包含多个配置(如en和es),每个配置下有不同的特征(如语言、维基页面ID、维基修订ID等)和多个分割(如2004_q4_11、2005_q1_01等)。数据集的特征包括文本数据(如原始文本、清理后的文本)、时间戳、类别和来源等信息。数据集的分割按时间和日期进行划分,每个分割包含一定数量的字节和示例。
提供机构:
malteos
原始信息汇总
数据集概述
配置信息
- config_name: en, es
特征信息
- language: 数据类型为字符串。
- wiki_page_id: 数据类型为字符串。
- wiki_revision_id: 数据类型为字符串。
- revision_timestamp: 数据类型为时间戳,单位微秒,时区为UTC。
- revision_year: 数据类型为无符号16位整数。
- revision_month: 数据类型为无符号16位整数。
- article_timestamp: 数据类型为时间戳,单位微秒,时区为UTC。
- article_year: 数据类型为无符号16位整数。
- article_month: 数据类型为无符号16位整数。
- url: 数据类型为字符串。
- title: 数据类型为字符串。
- raw_text: 数据类型为字符串。
- cleaned_text: 数据类型为字符串。
- categories: 数据类型为字符串序列。
- sources: 数据类型为字符串序列。
- dump: 数据类型为字符串。
分割信息
- 2004_q4_11: 字节数为355384,样本数为73。
- 2004: 字节数为867820,样本数为170。
- 2004_q4: 字节数为867820,样本数为170。
- no_date: 字节数为432792,样本数为173。
- 2004_q4_12: 字节数为512436,样本数为97。
- 2005_q1_01: 字节数为923286,样本数为220。
- 2005: 字节数为17844730,样本数为3547。
- 2005_q1: 字节数为3923859,样本数为827。
- 2007_q1_01: 字节数为1331150,样本数为268。
- 2007: 字节数为13771952,样本数为2481。
- 2007_q1: 字节数为4199595,样本数为786。
- 2005_q1_02: 字节数为1117537,样本数为244。
- 2005_q2_04: 字节数为2350702,样本数为422。
- 2005_q2: 字节数为5263396,样本数为958。
- 2015_q3_08: 字节数为2329,样本数为1。
- 2015: 字节数为2329,样本数为1。
- 2015_q3: 字节数为2329,样本数为1。
- 2005_q1_03: 字节数为1883036,样本数为363。
- 2024_q1_03: 字节数为4108,样本数为1。
- 2024: 字节数为12841,样本数为2。
- 2024_q1: 字节数为4108,样本数为1。
- 2024_q2_04: 字节数为8733,样本数为1。
- 2024_q2: 字节数为8733,样本数为1。
- 2005_q2_05: 字节数为1686948,样本数为288。
- 2005_q3_09: 字节数为1807812,样本数为357。
- 2005_q3: 字节数为4957002,样本数为1024。
- 2005_q2_06: 字节数为1225746,样本数为248。
- 2005_q3_07: 字节数为1840766,样本数为397。
- 2005_q3_08: 字节数为1308424,样本数为270。
- 2006_q4_12: 字节数为1138354,样本数为210。
- 2006: 字节数为19900247,样本数为3623。
- 2006_q4: 字节数为5027607,样本数为843。
- 2005_q4_10: 字节数为1251164,样本数为256。
- 2005_q4: 字节数为3700473,样本数为738。
- 2005_q4_11: 字节数为1126641,样本数为204。
- 2005_q4_12: 字节数为1322668,样本数为278。
- 2006_q1_01: 字节数为1918408,样本数为351。
- 2006_q1: 字节数为5012610,样本数为918。
- 2006_q1_03: 字节数为1646980,样本数为316。
- 2006_q1_02: 字节数为1447222,样本数为251。
- 2009_q1_03: 字节数为5448,样本数为1。
- 2009: 字节数为13506,样本数为2。
- 2009_q1: 字节数为5448,样本数为1。
- 2006_q2_04: 字节数为1198789,样本数为229。
- 2006_q2: 字节数为5249482,样本数为951。
- 2006_q2_05: 字节数为1919629,样本数为338。
- 2006_q2_06: 字节数为2131064,样本数为384。
- 2006_q3_07: 字节数为1467690,样本数为263。
- 2006_q3: 字节数为4610548,样本数为911。
- 2006_q3_08: 字节数为1773696,样本数为361。
- 2006_q4_10: 字节数为1559210,样本数为278。
- 2006_q3_09: 字节数为1369162,样本数为287。
- 2006_q4_11: 字节数为2330043,样本数为355。
- 2007_q1_02: 字节数为1064677,样本数为213。
- 2007_q1_03: 字节数为1803768,样本数为305。
- 2007_q2_05: 字节数为1616371,样本数为286。
- 2007_q2: 字节数为5080138,样本数为870。
- 2007_q2_04: 字节数为1717390,样本数为292。
- 2007_q3_08: 字节数为1550665,样本数为308。
- 2007_q3: 字节数为4473956,样本数为823。
- 2011_q4_10: 字节数为2245,样本数为1。
- 2011: 字节数为2245,样本数为1。
- 2011_q4: 字节数为2245,样本数为1。
- 2008_q2_06: 字节数为4049,样本数为1。
- 2008: 字节数为4049,样本数为1。
- 2008_q2: 字节数为4049,样本数为1。
- 2009_q4_11: 字节数为8058,样本数为1。
- 2009_q4: 字节数为8058,样本数为1。
- 2007_q4_10: 字节数为14818,样本数为1。
- 2007_q4: 字节数为18263,样本数为2。
- 2007_q2_06: 字节数为1746377,样本数为292。
- 2007_q4_11: 字节数为3445,样本数为1。
- 2007_q3_07: 字节数为1727844,样本数为319。
- 2007_q3_09: 字节数为1195447,样本数为196。
- 2007_q4_10: 字节数为870495,样本数为176。
- 2007_q4: 字节数为1996353,样本数为414。
- 2007_q4_11: 字节数为764502,样本数为150。
- 2007_q4_12: 字节数为361356,样本数为88。
- 2008_q1_01: 字节数为401702,样本数为93。
- 2008: 字节数为5529418,样本数为1109。
- 2008_q1: 字节数为1001044,样本数为222。
- 2008_q1_02: 字节数为273081,样本数为63。
- 2008_q1_03: 字节数为326261,样本数为66。
- 2008_q2_04: 字节数为192046,样本数为42。
- 2008_q2: 字节数为397744,样本数为87。
- 2008_q2_05: 字节数为95568,样本数为23。
- 2008_q2_06: 字节数为110130,样本数为22。
- 2008_q3_07: 字节数为254800,样本数为57。
- 2008_q3: 字节数为1135101,样本数为231。
- 2008_q3_08: 字节数为247018,样本数为53。
- 2008_q3_09: 字节数为633283,样本数为121。
- 2008_q4_10: 字节数为1436212,样本数为263。
- 2008_q4: 字节数为2995529,样本数为569。
- 2008_q4_11: 字节数为1144816,样本数为223。
- 2008_q4_12: 字节数为414501,样本数为83。
- 2009_q1_01: 字节数为286225,样本数为53。
- 2009: 字节数为5055738,样本数为1009。
- 2009_q1: 字节数为710394,样本数为140。
- 2009_q1_02: 字节数为99781,样本数为23。
- 2009_q1_03: 字节数为324388,样本数为64。
- 2009_q2_04: 字节数为211490,样本数为40。
- 2009_q2: 字节数为1426421,样本数为266。
- 2009_q2_05: 字节数为542402,样本数为88。
- 2009_q2_06: 字节数为672529,样本数为138。
- 2009_q3_07: 字节数为344957,样本数为71。
- 2009_q3: 字节数为1194673,样本数为253。
- 2009_q3_08: 字节数为436349,样本数为91。
- 2009_q3_09: 字节数为413367,样本数为91。
- 2009_q4_10: 字节数为872489,样本数为177。
- 2009_q4: 字节数为1724250,样本数为350。
- 2009_q4_11: 字节数为531836,样本数为107。
- 2009_q4_12: 字节数为319925,样本数为66。
- 2010_q1_01: 字节数为403994,样本数为86。
- 2010: 字节数为4887562,样本数为971。
- 2010_q1: 字节数为1331805,样本数为275。
- 2010_q1_02: 字节数为544627,样本数为107。
- 2010_q1_03: 字节数为383184,样本数为82。
- 2011_q1_02: 字节数为432905,样本数为92。
- 2011: 字节数为5339426,样本数为1064。
- 2011_q1: 字节数为1350570,样本数为291。
- 2010_q2_04: 字节数为303778,样本数为60。
- 2010_q2: 字节数为1326



