Universal interface of TAUOLA: Technical and physics documentation|粒子物理数据集|蒙特卡洛模拟数据集
收藏Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
IWSLT/iwslt2017
IWSLT 2017数据集是一个多语言翻译数据集,涵盖了多种语言对,包括英语、阿拉伯语、德语、荷兰语、意大利语、罗马尼亚语、法语、日语、韩语和中文。数据集的主要任务是文本翻译,包括零样本翻译。数据集的结构包括训练集、验证集和测试集,每个语言对都有相应的数据实例和字段。数据集的创建过程、注释过程以及使用数据时的考虑因素等信息未在README中详细描述。
hugging_face 收录
boat
本项目所使用的数据集名为“boat”,旨在为改进YOLOv11的船舶类型检测系统提供丰富的训练素材。该数据集包含六个主要类别,分别为:散货船、集装箱船、渔船、一般货船、矿石运输船和客船。这些类别涵盖了船舶运输行业的多样性,确保了模型在不同类型船舶识别上的全面性和准确性。数据集中的图像经过精心挑选和标注,确保每个类别的样本都具有代表性。通过使用“boat”数据集,改进后的YOLOv11模型将能够更准确地识别和分类不同类型的船舶,从而提高船舶监测和管理的效率。
github 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
