German Bundestag Proceedings|政治研究数据集|议会记录数据集
收藏
- 德国联邦议会(German Bundestag)成立,标志着德国战后政治体系的重建。
- 首次记录德国联邦议会会议的正式文本,这些文本成为后续数据集的基础。
- 德国联邦议会开始系统性地整理和归档会议记录,为数据集的形成提供了系统化的数据源。
- 随着德国统一,东德的议会记录也被整合进德国联邦议会数据集中,极大地丰富了数据内容。
- 德国联邦议会开始将会议记录数字化,为数据集的电子化奠定了基础。
- 德国联邦议会数据集正式公开发布,供学术研究和社会公众使用,标志着数据集的成熟和广泛应用。
- 1German Bundestag Proceedings: A Corpus for Analyzing Parliamentary DebatesUniversity of Stuttgart · 2018年
- 2Analyzing Political Discourse: A Computational Approach to German Parliamentary DebatesUniversity of Mannheim · 2020年
- 3Sentiment Analysis in German Parliamentary DebatesUniversity of Duisburg-Essen · 2019年
- 4Topic Modeling of German Parliamentary DebatesTechnical University of Munich · 2021年
- 5Predicting Voting Behavior in German Parliamentary DebatesHumboldt University of Berlin · 2022年
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录