Corpus des Deutschen Bundesrechts (C-DBR)|法律数据集数据集|德国联邦法律数据集
收藏数据集概述
数据集名称
Corpus des Deutschen Bundesrechts (C-DBR)
数据集描述
C-DBR是一个尽可能完整的德国联邦法律和法规的汇编,数据来源于联邦司法部的官方网站www.gesetze-im-internet.de,并对其进行了全面分析。
数据集内容
数据集包含以下格式的文件:
- CSV格式的完整数据集,分为单个法规(仅包含已发布法规文本的法律行为)
- CSV格式的所有单个法规的元数据(与1相同,但不含文本变量)
- CSV格式的完整数据集,分为法律行为(仅包含已发布法规文本的法律行为)
- CSV格式的所有法律行为的元数据(与3相同,但不含文本变量)
- CSV格式的所有已发布法律行为的元数据(不论法规文本是否已发布)
- XML格式的完整数据集,分为法律行为(来自GII的原始数据)
- XML文件的附件,以各自的原始格式(来自GII的原始数据)
- TXT格式的所有法律行为,分为法律行为(显著减少的元数据量)
- PDF格式的所有法律文本,分为法律行为(显著减少的元数据量)
- EPUB格式的所有法律文本,分为法律(显著减少的元数据量)
- 分析结果(表格为CSV,图表为PDF和PNG)
- 网络结构(邻接矩阵,边列表,GraphML,网络图)用于所有法律行为(实验性!)
数据集发布
所有数据集永久免费且无版权地在Zenodo上发布,每个版本都有独立的长期稳定(持久)的数字对象标识符(DOI)。
最新版本

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录