five

numad/yuho-text-2014-2022|财务报告数据集|文本数据数据集

收藏
hugging_face2024-06-15 更新2024-06-29 收录
财务报告
文本数据
下载链接:
https://hf-mirror.com/datasets/numad/yuho-text-2014-2022
下载链接
链接失效反馈
资源简介:
该数据集包含2014年至2022年间提交的有价证券报告书的特定章节,数据来源于EDINET浏览(提交)网站。数据集中的每条记录都包含文档ID、EDINET代码、企业名、文档标题、证券代码、报告期间的开始和结束日期、提交日期、法人编号、XBRL标签名、文本内容和来源URL等信息。

This dataset contains specific sections of securities reports submitted between 2014 and 2022, sourced from the EDINET browsing (submission) site. Each record in the dataset includes document ID, EDINET code, company name, document title, securities code, start and end dates of the reporting period, submission date, corporate number, XBRL tag name, text content, and source URL.
提供机构:
numad
原始信息汇总

数据集卡片

数据集概述

此数据集是从EDINET閲覧(提出)サイト公开的2014年至2022年提交的有价证券报告中提取的特定章节内容。每个记录的url列是数据来源。由于数据获取的限制,数据从2014年6月14日之后开始。

数据集详情

数据集描述

数据集内容如下:

物理名 論理名 类型 概要 必須
doc_id 文書ID str 有价证券报告书的唯一ID
edinet_code EDINETコード str EDINET内的企业唯一ID
company_name 企業名 str 企业名称
document_name 文書タイトル str 有价证券报告书的标题
sec_code 証券コード str 证券代码 ×
period_start 期開始日 date(yyyy-mm-dd) 报告期间开始日期
period_end 期終了日 date(yyyy-mm-dd) 报告期间结束日期
submit_date 提出日 date(yyyy-mm-dd) 提交日期
JCN 法人番号 str 13位法人编号 ×
tag XBRLタグ名 str 提取部分的标签名
text 本文 str 提取的文本内容
url 出典 str 有价证券报告书的来源URL
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。

hugging_face 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录