CodeUltraFeedback|偏好数据集数据集|AI模型校准数据集
收藏CodeUltraFeedback 数据集概述
关于数据集
概述
CodeUltraFeedback
是一个用于对齐大型语言模型(LLMs)与编码偏好的偏好数据集。该数据集基于 MagiCoder Evol-Instruct 的 10k 子集,包含复杂的编码指令。
特点
- 复杂指令:基于 10k 子集的复杂编码指令。
- 编码偏好:包含 5 种编码偏好,用于评估 LLMs 的广泛能力:指令遵循、代码解释、代码复杂性和效率、代码可读性、编码风格。
- 大型 LLM 池:使用 14 个来自 8 个模型家族的 LLMs 生成响应,考虑多样化的写作和编码风格。
- LLM-as-a-judge 和 AI 反馈:使用 GPT-3.5 作为评判,为每个响应提供数值和文本反馈。
相关数据集和基准
引用
bibtex @misc{weyssow2024codeultrafeedback, title={CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences}, author={Martin Weyssow and Aton Kamanda and Houari Sahraoui}, year={2024}, eprint={2403.09032}, archivePrefix={arXiv}, primaryClass={cs.SE} }

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录