five

pszemraj/edgar-corpus-htm2020

收藏
Hugging Face2024-05-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/edgar-corpus-htm2020
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置有不同的特征和分割。数据集的特征包括文件名、CIK、文本、关键词、显示文本、嵌入、摘要等。数据集的分割包括训练集、测试集和验证集。数据集的许可证为Apache-2.0,任务类别包括文本生成、特征提取和填充掩码,语言为英语,标签为金融和货币,大小类别为1K<n<10K。

该数据集包含多个配置,每个配置有不同的特征和分割。数据集的特征包括文件名、CIK、文本、关键词、显示文本、嵌入、摘要等。数据集的分割包括训练集、测试集和验证集。数据集的许可证为Apache-2.0,任务类别包括文本生成、特征提取和填充掩码,语言为英语,标签为金融和货币,大小类别为1K<n<10K。
提供机构:
pszemraj
原始信息汇总

数据集概述

数据集配置信息

  1. default

    • 特征:
      • filename: 字符串
      • cik: 字符串
      • text: 字符串
      • keywords_body: 字符串序列
      • display_text: 字符串
    • 分割:
      • train: 6505个样本,1837806290字节
      • test: 172个样本,47046619字节
      • validation: 170个样本,46270068字节
    • 下载大小: 852716360字节
    • 数据集大小: 1931122977字节
  2. embedding-all-distilroberta-v1

    • 特征:
      • filename: 字符串
      • cik: 字符串
      • text: 字符串
      • embedding: 浮点64序列
      • keywords_body: 字符串序列
      • display_text: 字符串
      • summary_first_25k: 字符串
      • index_level_0: 整数64
    • 分割:
      • train: 6505个样本,1882340051字节
      • test: 172个样本,48219826字节
      • validation: 170个样本,47432390字节
    • 下载大小: 890577255字节
    • 数据集大小: 1977992267字节
  3. embeddings

    • 特征:
      • filename: 字符串
      • cik: 字符串
      • text: 字符串
      • embedding: 浮点64序列
    • 分割:
      • train: 6505个样本,1875085710字节
      • test: 172个样本,48033032字节
      • validation: 170个样本,47243881字节
    • 下载大小: 886227116字节
    • 数据集大小: 1970362623字节
  4. embeddings-mega16k

    • 特征:
      • filename: 字符串
      • cik: 字符串
      • text: 字符串
      • embedding: 浮点64序列
      • summary_first_25k: 字符串
      • index_level_0: 整数64
    • 分割:
      • train: 6505个样本,1879626731字节
      • test: 172个样本,48148783字节
      • validation: 170个样本,47361043字节
    • 下载大小: 888854738字节
    • 数据集大小: 1975136557字节
  5. summarized

    • 特征:
      • filename: 字符串
      • cik: 字符串
      • text: 字符串
      • keywords_body: 字符串序列
      • display_text: 字符串
      • summary_first_25k: 字符串
    • 分割:
      • train: 6505个样本,1842295271字节
      • test: 172个样本,47160994字节
      • validation: 170个样本,46385870字节
    • 下载大小: 855352905字节
    • 数据集大小: 1935842135字节

数据集文件路径

  • default

    • train: data/train-*
    • test: data/test-*
    • validation: data/validation-*
  • embedding-all-distilroberta-v1

    • train: embedding-all-distilroberta-v1/train-*
    • test: embedding-all-distilroberta-v1/test-*
    • validation: embedding-all-distilroberta-v1/validation-*
  • embeddings

    • train: embeddings/train-*
    • test: embeddings/test-*
    • validation: embeddings/validation-*
  • embeddings-mega16k

    • train: embeddings-mega16k/train-*
    • test: embeddings-mega16k/test-*
    • validation: embeddings-mega16k/validation-*
  • summarized

    • train: summarized/train-*
    • test: summarized/test-*
    • validation: summarized/validation-*

许可

  • 许可证: Apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作