pszemraj/edgar-corpus-htm2020
收藏Hugging Face2024-05-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/edgar-corpus-htm2020
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置有不同的特征和分割。数据集的特征包括文件名、CIK、文本、关键词、显示文本、嵌入、摘要等。数据集的分割包括训练集、测试集和验证集。数据集的许可证为Apache-2.0,任务类别包括文本生成、特征提取和填充掩码,语言为英语,标签为金融和货币,大小类别为1K<n<10K。
该数据集包含多个配置,每个配置有不同的特征和分割。数据集的特征包括文件名、CIK、文本、关键词、显示文本、嵌入、摘要等。数据集的分割包括训练集、测试集和验证集。数据集的许可证为Apache-2.0,任务类别包括文本生成、特征提取和填充掩码,语言为英语,标签为金融和货币,大小类别为1K<n<10K。
提供机构:
pszemraj
原始信息汇总
数据集概述
数据集配置信息
-
default
- 特征:
- filename: 字符串
- cik: 字符串
- text: 字符串
- keywords_body: 字符串序列
- display_text: 字符串
- 分割:
- train: 6505个样本,1837806290字节
- test: 172个样本,47046619字节
- validation: 170个样本,46270068字节
- 下载大小: 852716360字节
- 数据集大小: 1931122977字节
- 特征:
-
embedding-all-distilroberta-v1
- 特征:
- filename: 字符串
- cik: 字符串
- text: 字符串
- embedding: 浮点64序列
- keywords_body: 字符串序列
- display_text: 字符串
- summary_first_25k: 字符串
- index_level_0: 整数64
- 分割:
- train: 6505个样本,1882340051字节
- test: 172个样本,48219826字节
- validation: 170个样本,47432390字节
- 下载大小: 890577255字节
- 数据集大小: 1977992267字节
- 特征:
-
embeddings
- 特征:
- filename: 字符串
- cik: 字符串
- text: 字符串
- embedding: 浮点64序列
- 分割:
- train: 6505个样本,1875085710字节
- test: 172个样本,48033032字节
- validation: 170个样本,47243881字节
- 下载大小: 886227116字节
- 数据集大小: 1970362623字节
- 特征:
-
embeddings-mega16k
- 特征:
- filename: 字符串
- cik: 字符串
- text: 字符串
- embedding: 浮点64序列
- summary_first_25k: 字符串
- index_level_0: 整数64
- 分割:
- train: 6505个样本,1879626731字节
- test: 172个样本,48148783字节
- validation: 170个样本,47361043字节
- 下载大小: 888854738字节
- 数据集大小: 1975136557字节
- 特征:
-
summarized
- 特征:
- filename: 字符串
- cik: 字符串
- text: 字符串
- keywords_body: 字符串序列
- display_text: 字符串
- summary_first_25k: 字符串
- 分割:
- train: 6505个样本,1842295271字节
- test: 172个样本,47160994字节
- validation: 170个样本,46385870字节
- 下载大小: 855352905字节
- 数据集大小: 1935842135字节
- 特征:
数据集文件路径
-
default
- train: data/train-*
- test: data/test-*
- validation: data/validation-*
-
embedding-all-distilroberta-v1
- train: embedding-all-distilroberta-v1/train-*
- test: embedding-all-distilroberta-v1/test-*
- validation: embedding-all-distilroberta-v1/validation-*
-
embeddings
- train: embeddings/train-*
- test: embeddings/test-*
- validation: embeddings/validation-*
-
embeddings-mega16k
- train: embeddings-mega16k/train-*
- test: embeddings-mega16k/test-*
- validation: embeddings-mega16k/validation-*
-
summarized
- train: summarized/train-*
- test: summarized/test-*
- validation: summarized/validation-*
许可
- 许可证: Apache-2.0



