five

c3po-ai/edgar-corpus

收藏
Hugging Face2023-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/c3po-ai/edgar-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置包含诸如filename、cik、year以及多个部分(例如section_1、section_1A等)的特征。每个配置有不同的划分(训练集、验证集、测试集),并对应有不同的大小和示例数量。数据集似乎与财务或法律文件相关,因为存在cik(中央索引键)和year字段,以及可能代表文档不同部分的多个部分。

该数据集包含多个配置,每个配置包含诸如filename、cik、year以及多个部分(例如section_1、section_1A等)的特征。每个配置有不同的划分(训练集、验证集、测试集),并对应有不同的大小和示例数量。数据集似乎与财务或法律文件相关,因为存在cik(中央索引键)和year字段,以及可能代表文档不同部分的多个部分。
提供机构:
c3po-ai
原始信息汇总

数据集概述

数据集配置

该数据集包含多个配置,每个配置对应不同年份的数据,具体包括:

  • config_name: .
  • config_name: full
  • config_name: year_1993
  • config_name: year_1994
  • config_name: year_1995
  • config_name: year_1996
  • config_name: year_1997
  • config_name: year_1998
  • config_name: year_1999
  • config_name: year_2000
  • config_name: year_2001
  • config_name: year_2002
  • config_name: year_2003
  • config_name: year_2004
  • config_name: year_2005
  • config_name: year_2006
  • config_name: year_2007
  • config_name: year_2008

数据特征

每个配置包含以下特征:

  • filename: 文件名,数据类型为字符串。
  • cik: CIK代码,数据类型为字符串。
  • year: 年份,数据类型为字符串。
  • section_1section_15: 各部分内容,数据类型均为字符串。

数据分割

每个配置包含以下数据分割:

  • train: 训练集
  • validation: 验证集
  • test: 测试集

数据大小

每个配置的训练集、验证集和测试集的大小(字节数和样本数)如下:

config_name: .

  • train: 40,306,320,885 字节,220,375 样本

config_name: full

  • train: 32,237,457,024 字节,176,289 样本
  • validation: 4,023,129,683 字节,22,050 样本
  • test: 4,045,734,178 字节,22,036 样本

config_name: year_1993

  • train: 112,714,537 字节,1,060 样本
  • validation: 13,584,432 字节,133 样本
  • test: 14,520,566 字节,133 样本

config_name: year_1994

  • train: 198,955,093 字节,2,083 样本
  • validation: 23,432,307 字节,261 样本
  • test: 26,115,768 字节,260 样本

config_name: year_1995

  • train: 356,959,049 字节,4,110 样本
  • validation: 42,781,161 字节,514 样本
  • test: 45,275,568 字节,514 样本

config_name: year_1996

  • train: 738,506,135 字节,7,589 样本
  • validation: 89,873,905 字节,949 样本
  • test: 91,248,882 字节,949 样本

config_name: year_1997

  • train: 854,201,733 字节,8,084 样本
  • validation: 103,167,272 字节,1,011 样本
  • test: 106,843,950 字节,1,011 样本

config_name: year_1998

  • train: 904,075,497 字节,8,040 样本
  • validation: 112,630,658 字节,1,006 样本
  • test: 113,308,750 字节,1,005 样本

config_name: year_1999

  • train: 911,374,885 字节,7,864 样本
  • validation: 118,614,261 字节,984 样本
  • test: 116,706,581 字节,983 样本

config_name: year_2000

  • train: 926,444,625 字节,7,589 样本
  • validation: 113,264,749 字节,949 样本
  • test: 114,605,470 字节,949 样本

config_name: year_2001

  • train: 964,631,161 字节,7,181 样本
  • validation: 117,509,010 字节,898 样本
  • test: 116,141,097 字节,898 样本

config_name: year_2002

  • train: 1,049,271,720 字节,6,636 样本
  • validation: 128,339,491 字节,830 样本
  • test: 128,444,184 字节,829 样本

config_name: year_2003

  • train: 1,027,557,690 字节,6,672 样本
  • validation: 126,684,704 字节,834 样本
  • test: 130,672,979 字节,834 样本

config_name: year_2004

  • train: 1,129,657,843 字节,7,111 样本
  • validation: 147,499,772 字节,889 样本
  • test: 147,890,092 字节,889 样本

config_name: year_2005

  • train: 1,200,714,441 字节,7,113 样本
  • validation: 161,003,977 字节,890 样本
  • test: 160,727,195 字节,889 样本

config_name: year_2006

  • train: 1,286,566,049 字节,7,064 样本
  • validation: 160,843,494 字节,883 样本
  • test: 163,270,601 字节,883 样本

config_name: year_2007

  • train: 1,296,737,173 字节,6,683 样本
  • validation: 166,735,560 字节,836 样本
  • test: 156,399,535 字节,835 样本

config_name: year_2008

  • train: 1,296,737,173 字节,6,683 样本
  • validation: 166,735,560 字节,836 样本
  • test: 156,399,535 字节,835 样本

下载和数据集大小

每个配置的下载大小和数据集大小如下:

config_name: .

  • 下载大小: 10,734,208,660 字节
  • 数据集大小: 40,306,320,885 字节

config_name: full

  • 下载大小: 40,699,852,536 字节
  • 数据集大小: 40,306,320,885 字节

config_name: year_1993

  • 下载大小: 141,862,572 字节
  • 数据集大小: 140,819,535 字节

config_name: year_1994

  • 下载大小: 250,411,041 字节
  • 数据集大小: 248,503,168 字节

config_name: year_1995

  • 下载大小: 448,617,549 字节
  • 数据集大小: 445,015,778 字节

config_name: year_1996

  • 下载大小: 926,536,700 字节
  • 数据集大小: 919,628,922 字节

config_name: year_1997

  • 下载大小: 1,071,898,139 字节
  • 数据集大小: 1,064,212,955 字节

config_name: year_1998

  • 下载大小: 1,137,887,615 字节
  • 数据集大小: 1,130,014,905 字节

config_name: year_1999

  • 下载大小: 1,154,736,765 字节
  • 数据集大小: 1,146,695,727 字节

config_name: year_2000

  • 下载大小: 1,162,526,814 字节
  • 数据集大小: 1,154,314,844 字节

config_name: year_2001

  • 下载大小: 1,207,790,205 字节
  • 数据集大小: 1,198,281,268 字节

config_name: year_2002

  • 下载大小: 1,317,817,728 字节
  • 数据集大小: 1,306,055,395 字节

config_name: year_2003

  • 下载大小: 1,297,227,566 字节
  • 数据集大小: 1,284,915,373 字节

config_name: year_2004

  • 下载大小: 1,439,663,100 字节
  • 数据集大小: 1,425,047,707 字节

config_name: year_2005

  • 下载大小: 1,538,876,195 字节
  • 数据集大小: 1,522,445,613 字节

config_name: year_2006

  • 下载大小: 1,628,452,618 字节
  • 数据集大小: 1,610,680,144 字节

config_name: year_2007

  • 下载大小: 1,637,502,176 字节
  • 数据集大小: 1,619,872,268 字节

config_name: year_2008

  • 下载大小: 1,637,502,176 字节
  • 数据集大小: 1,619,872,268 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作