Bacillus sphaericus|微生物学数据集|分子生物学数据集
收藏resume-conversations-llm-training
这是一个高质量的职业对话数据集,适用于构建能够理解简历、职业和职业成长的AI。数据集以结构化的JSONL格式提供,包含关于职业发展、技术趋势和专业技能的现实问答,非常适合开发者和AI实践者用于聊天机器人、职业咨询工具或LLM微调。
huggingface 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
鸣潮角色TTS数据集
鸣潮角色语音数据集是基于Bert-vits2开源项目制作的,包含了鸣潮游戏1.0至1.3版本的中、日、英、韩全角色语音。它提供了单角色包和完整包以满足不同用户的需求,每个语音文件都有对应的文本标注,方便进行语音识别和训练。数据集中的语音按类别整理,包括战斗语音、带变量语音等,分类清晰,便于查找和使用。用户可以在ModelScope平台直接下载数据集,无需登录。此数据集仅供个人欣赏和学习交流使用,不得用于商业用途或非法活动。鸣潮角色语音数据集旨在支持AI语音合成和识别技术的研究与开发,为用户提供了一个丰富的多角色、多语种的语音资源库。
魔搭社区 收录
Kaggle Titanic
该数据集包含了泰坦尼克号乘客的信息,包括乘客的年龄、性别、船舱等级、是否幸存等。主要用于机器学习中的分类任务,预测乘客是否幸存。
www.kaggle.com 收录
CODrone
CODrone 是一个为无人机设计的全面定向目标检测数据集,它准确反映了真实世界条件。该数据集包含来自多个城市在不同光照条件下的广泛标注图像,增强了基准的逼真度。CODrone 包含超过 10,000 张高分辨率图像,捕获自五个城市的真实无人机飞行,涵盖了各种城市和工业环境,包括港口和码头。为了提高鲁棒性和泛化能力,它包括在正常光线、低光和夜间条件下相同场景的图像。我们采用了三种飞行高度和两种常用的相机角度,从而产生了六个不同的视角配置。所有图像都针对 12 个常见对象类别进行了定向边界框标注,总计超过 590,000 个标记实例。总体而言,这项工作构建了一个综合数据集和基准,用于城市无人机场景中的定向目标检测,旨在满足该领域的研究和实践应用需求。
arXiv 收录
