广东海岸带水系流域图(1:150万)|地理信息数据集|水系流域数据集
收藏Lending Club Loan Data
该数据集包含贷款申请人的各种属性及其贷款状态。关键列包括贷款金额、贷款期限、利率、年收入、贷款等级、贷款目的、债务收入比、贷款发放年份、住房所有权和贷款状态。
github 收录
NPU-BOLT
NPU-BOLT数据集是由西北工业大学创建的,专门用于自然场景下的螺栓目标检测。该数据集包含337个样本,主要来源于自然环境中的图像,图像大小从400*400到6000*4000不等,总计约1275个螺栓目标。数据集中的图像通过手持相机和无人机捕获,旨在覆盖尽可能多的自然环境情况。数据集创建过程中,考虑了多种实际条件,如不同的光照强度、阴影遮挡、大面积腐蚀等。NPU-BOLT数据集的应用领域主要集中在工程结构的实时或及时检测松动或脱落的螺栓,这对于保持结构安全和延长服务寿命至关重要。
arXiv 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Global Urban Boundaries (GUB)
Global Urban Boundaries (GUB) 数据集包含了全球城市边界的详细信息,提供了高分辨率的城市边界数据,用于分析城市化进程和城市扩张。
datacatalog.worldbank.org 收录