SirNeural/flan_v2
收藏数据集概述
数据集名称: Flan v2
许可证: Apache-2.0
标签:
- flan
- flan 2022
- flan v2
美观名称: Flan v2
数据集详细信息
数据集总结:
- 这是一个Flan V2数据集的处理版本。
- 作者推荐尝试不同的任务混合比例以获得最佳的下游结果。
数据结构:
- 数据实例: 包含Flan 2021 (flan), P3 (t0), Super-Natural Instructions (niv2), Chain-of-thought (cot), 和 Dialog (dialog)。
- 数据字段: 指令数据格式包括Few Shot (fs), Zero Shot (zs), 选项提供在上下文中(即多项选择)(opt), 和无选项提供(noopt)。
- 数据分割: 所有数据保存为训练分割。注意:FLAN-fs-opt-train由于过大,被分割成45GB的块。合并恢复命令为:
cat flan_fs_opt_train_*.gz | gunzip -c > flan_fs_opt_train.jsonl
。
数据集格式: 每个任务+格式的组合保存为JSONL格式,具有以下架构:{"input": ..., "target": ..., "task": ...}
。
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
SSGD
SSGD是由清华大学深圳国际研究生院创建的智能手机屏幕玻璃缺陷检测数据集,包含2504张高分辨率图像,涵盖7种常见缺陷类型。数据集通过专业的采集设备在固定工作站上捕获,确保图像质量。创建过程包括数据收集、标注和图像标准化处理。SSGD主要应用于工业生产中的自动视觉检测,旨在提高检测效率和准确性,减少人为错误。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
EcoInvent
EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。
www.ecoinvent.org 收录
lmarena-ai/arena-human-preference-100k
这个数据集包含了2024年6月至2024年8月期间收集的排行榜对话数据。它包括用于开发Arena Explorer的英语人类偏好评价。此外,我们还提供了一个嵌入文件,其中包含了英语对话的预计算嵌入,这些嵌入用于主题建模管道以对这些对话进行分类和分析。
hugging_face 收录