theblackcat102/evol-codealpaca-v1
收藏Evolved codealpaca
更新信息
- 2023/08/26 - 过滤后的结果仅包含纯英文指令,移除了任何提及由OAI训练的响应。
数据集特点
- 中位序列长度:471
- 使用gpt-4-0314和gpt-4-0613模型进行增强和回答,主要生成由gpt-4-0314处理。
- 目标:
- 使用新的预训练模型(如LLaMA-2)重新创建其他wizardcoder模型。
- 作为evol-dataset包的测试平台,开发改进的未来增强策略。
- 使用10种策略增强HuggingFaceH4/CodeAlpaca_20K数据集。
- 引入新的“语言”增强策略,可将现有指令转换为中文。
相关数据集
- 中文代码增强版本:theblackcat102/evol-code-zh
- 与其他数据集的比较:
- 与nickrosh/Evol-Instruct-Code-80k-v1相比,evol-codealpaca-v1具有更长的指令和输出对话。
- 使用evol-codealpaca-v1的数据集:
注意事项
- 在训练时确保对相同问题进行去重处理:
引用
- 如果使用此数据集微调任何大型语言模型,请引用wizard coder。

MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
O*NET
O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。
www.onetonline.org 收录
SVAMP
在解决基础应用数学问题时,模型往往主要依赖于浅层启发式方法,而非进行深度推理。因此,一个更具挑战性且经过可靠评估的SVAMP数据集被引入。该数据集改编自现有的数据集,用于评估模型在数学问题解决和推理能力方面的敏感性,其难度保持在相当于小学四年级的水平。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
NIH Chest X-rays
Over 112,000 Chest X-ray images from more than 30,000 unique patients
kaggle 收录
