five

Polygamy slows diversification in shorebirds_rawdata

收藏
DataONE2017-02-17 更新2024-06-26 收录
下载链接:
https://search.dataone.org/view/null
下载链接
链接失效反馈
资源简介:
This file contains all of the raw microsatellite data for ten species of plover. Kittlitz's plover and white-fronted plover are divided into two datasets which represent 1) mainland African populations and 2) Madagascan populations. Details of the microsatellite markers and PCR conditions can be found in the paper. Killdeer plover has one marker identified as having a high estimate of null alleles, this is marked in grey shading.
创建时间:
2017-02-17
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MagicData

MAGICDATA普通话阅读语音语料库由MAGIC DATA开发 科技有限公司,并免费发布用于非商业用途。 语料库的内容和相应的描述包括: 语料库包含 755 小时的语音数据,即 主要是移动记录的数据。 来自中国不同口音地区的1080位发言者是 受邀参与录制。 句子转录准确率高于98%。 录音在安静的室内环境中进行。 数据库分为训练集、验证集和测试 以51:1:2的比例设置。 语音数据编码和说话人信息等详细信息是 保留在元数据文件中。 记录文本的领域是多样化的,包括交互式 问答、音乐搜索、SNS消息、家庭命令和控制等。 还提供了分段的成绩单。 该语料库旨在支持语音识别,机器方面的研究人员 翻译、说话人识别和其他语音相关领域。因此 语料库完全免费供学术使用。

OpenDataLab 收录

CIA World Factbook

CIA世界概况是一个包含全球每个国家地理、经济和政治数据的公共领域数据集。数据类型包括自由文本、货币、百分比、经纬度、海拔、分类等,使其成为搜索应用测试和演示的有价值语料库,同时也具有数据本身的内在价值。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

专精特新“小巨人”合肥企业名单(第一批~第四批)

根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。

合肥数据要素流通平台 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录