Streptomyces sp.|微生物学数据集|分子生物学数据集
收藏Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录
中文高质量大模型多轮对话SFT数据集
该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
OpenDataLab 收录
HotpotQA
HotpotQA 是收集在英语维基百科上的问答数据集,包含大约 113K 众包问题,这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落,以及这些段落中的句子列表,众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略,包括涉及问题中缺失实体的问题、交叉问题(什么满足属性 A 和属性 B?)和比较问题,其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中,QA 模型有 10 个段落,保证能找到黄金段落;在开放域全维基设置中,模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估,其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠,后者关注预测的支持事实句子与人类注释的匹配程度(Supporting Fact EM/F1)。该数据集还报告了一个联合指标,它鼓励系统同时在两项任务上表现良好。 来源:通过迭代查询生成回答复杂的开放域问题
OpenDataLab 收录
中国地质调查局: 全国1∶200 000区域水文地质图空间数据库
全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。
DataCite Commons 收录