numad/yuho-text-2014-2022|财务报告数据集|文本数据数据集
收藏数据集卡片
数据集概述
此数据集是从EDINET閲覧(提出)サイト公开的2014年至2022年提交的有价证券报告中提取的特定章节内容。每个记录的url列是数据来源。由于数据获取的限制,数据从2014年6月14日之后开始。
数据集详情
数据集描述
数据集内容如下:
物理名 | 論理名 | 类型 | 概要 | 必須 |
---|---|---|---|---|
doc_id | 文書ID | str | 有价证券报告书的唯一ID | 〇 |
edinet_code | EDINETコード | str | EDINET内的企业唯一ID | 〇 |
company_name | 企業名 | str | 企业名称 | 〇 |
document_name | 文書タイトル | str | 有价证券报告书的标题 | 〇 |
sec_code | 証券コード | str | 证券代码 | × |
period_start | 期開始日 | date(yyyy-mm-dd) | 报告期间开始日期 | 〇 |
period_end | 期終了日 | date(yyyy-mm-dd) | 报告期间结束日期 | 〇 |
submit_date | 提出日 | date(yyyy-mm-dd) | 提交日期 | 〇 |
JCN | 法人番号 | str | 13位法人编号 | × |
tag | XBRLタグ名 | str | 提取部分的标签名 | 〇 |
text | 本文 | str | 提取的文本内容 | 〇 |
url | 出典 | str | 有价证券报告书的来源URL | 〇 |
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
rag-datasets/rag-mini-bioasq
该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。
hugging_face 收录
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录