ChronoQA 数据集|时间序列分析数据集|问答系统数据集
收藏LLM小组自建数据集指南
目录
项目介绍
数据集是模型训练的基础。然而,针对特定任务或领域,可能缺乏直接可用的数据集,因此需要自建数据集。本指南提供了一个系统化的流程,帮助大家从零开始构建高质量的数据集。
自建数据集通用流程
1. 数据集格式需求确认
- 数据格式:
JSON
、CSV
、Parquet
- 字段要求:结构化数据字段,非结构化数据元数据
- 存储方式:本地文件系统、数据库、对象存储、开源平台
- 数据规模:样本数量,数据代表性
- 使用场景:训练、验证、测试,数据版本控制
- 数据隐私与合规性:敏感数据处理,个人身份信息去除
2. 数据收集
- 公开数据集:Hugging Face Datasets、Kaggle
- 爬虫抓取:新闻、社交媒体等
- 人工生成:低资源任务样本设计
- LLM 生成:使用 LLM 生成数据
- 数据购买:第三方数据购买
3. 数据清洗与预处理
- 数据格式统一
- 无效样本去除
- 数据脱敏
- 规范化处理
- 缺失值处理
4. 数据标注
- 人工标注:使用标注工具或众包
- 自动标注:LLM 或其他模型自动化标注
- 数据验证:自动标注数据的人工验证
5. 数据增强(可选)
- 文本数据:同义词替换、回译、文本拼接
- 图像数据:旋转、翻转、调整亮度、添加噪声
- 语音数据:音调变化、速度变化、背景噪音
6. 数据划分与存储
- 划分比例:训练集 80%,验证集 10%,测试集 10%
- 存储格式:
JSON
、CSV
、Parquet
、数据库
7. 质量评估(必须)
- 数据完整性检查
- 数据分布检查
- 标注质量评估
8. 数据集发布与维护
- GitHub 或 Hugging Face 发布
- 数据版本变更日志
- 用户反馈修正
案例分析1:ChronoQA 数据集
1. 数据源获取
- 新闻文章收集:2019-2024 年新闻数据爬取
- 数据清洗:重复去除、格式转换、时间标准化
2. 数据预处理
- 时间信息段落选取
- 时间标注内容过滤
3. 问题生成与验证
- 单一时间问题生成
- 多步推理问题构造
- 人工和自动化检查
4. 数据集质量控制
- 多级过滤
- 统计分析
5. 结果存储
- JSON 格式:包含问题、答案、时间表达类型等信息
案例分析2:多模态虚假新闻检测数据集AMG构建
1. 数据源获取
- 虚假新闻收集:事实核查网站、社交平台
- 真实新闻收集:权威中立媒体
2. 数据处理与标注
2.1 数据过滤
- 多模态新闻内容筛选
- 视觉内容相似度筛选
2.2 专家标注
- 17 位专家团队标注
- 归因流程执行
2.3 归因类型
- 图像伪造
- 无效图像
- 实体不一致
- 事件不一致
- 时间不一致
2.4 特殊情况
- 标记不符合上述类别的实例
2.5 交叉验证与讨论
- 多标注员标注
- 多数投票决定归因
- 有争议案例讨论
3. 数据整合与分析
3.1 数据整合
- 去除不符合归因类型的新闻
- 虚假新闻和真实新闻比例
3.2 数据集划分
- 训练集、验证集、测试集划分
3.3 归因规则合理性
- 统计分析归因类别覆盖率
4. 法律与伦理
- 数据抓取合规性
- 数据隐私保护
- 数据存储安全性
5. 结论
- AMG 数据集构建过程与用途概述

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
Movies Dataset
这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录