南北过渡带田间持水量数据集(2017-2021年)|土壤科学数据集|农业研究数据集
收藏中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
新能源汽车风险评分数据集
风险评分数据集是基于车辆充电行为和车辆状态数据,结合保司现有的承保理赔数据,打破了传统汽车保险的定价方法,用车辆大数据赋能车辆保险经营。大数据风险评分作为保险公司新型核保工具,与传统车险定价相比,增加模型因子的解释维度,提升模型稳定性和区分度。大数据风险评分可以合理反映车辆的风险概率和风险成本,体现保费的公平,改善驾驶行为,促进安全驾驶等。保险公司在应用时通过输入相关车辆数据以及核保数据,通过隐私计算平台技术,由计算模型调用充电行为和车辆行为特征数据,仅返回车辆风险评分结果给到保险公司,达到数据可用不可见的目的,保险公司依据车辆风险评分结果进行核保定价。
北京市数据知识产权 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录