five

ChronoQA 数据集|时间序列分析数据集|问答系统数据集

收藏
github2025-02-09 更新2025-02-10 收录
时间序列分析
问答系统
下载链接:
https://github.com/NLMGroup/llm_dataset_guide
下载链接
链接失效反馈
资源简介:
ChronoQA 数据集是一个关注时间敏感型问题的问答数据集,数据主要来自新闻,包括具有时间信息的新闻段落和根据这些段落生成的时间敏感型问题。
创建时间:
2025-02-05
原始信息汇总

LLM小组自建数据集指南

目录

项目介绍

数据集是模型训练的基础。然而,针对特定任务或领域,可能缺乏直接可用的数据集,因此需要自建数据集。本指南提供了一个系统化的流程,帮助大家从零开始构建高质量的数据集。

自建数据集通用流程

1. 数据集格式需求确认

  • 数据格式JSONCSVParquet
  • 字段要求:结构化数据字段,非结构化数据元数据
  • 存储方式:本地文件系统、数据库、对象存储、开源平台
  • 数据规模:样本数量,数据代表性
  • 使用场景:训练、验证、测试,数据版本控制
  • 数据隐私与合规性:敏感数据处理,个人身份信息去除

2. 数据收集

  • 公开数据集:Hugging Face Datasets、Kaggle
  • 爬虫抓取:新闻、社交媒体等
  • 人工生成:低资源任务样本设计
  • LLM 生成:使用 LLM 生成数据
  • 数据购买:第三方数据购买

3. 数据清洗与预处理

  • 数据格式统一
  • 无效样本去除
  • 数据脱敏
  • 规范化处理
  • 缺失值处理

4. 数据标注

  • 人工标注:使用标注工具或众包
  • 自动标注:LLM 或其他模型自动化标注
  • 数据验证:自动标注数据的人工验证

5. 数据增强(可选)

  • 文本数据:同义词替换、回译、文本拼接
  • 图像数据:旋转、翻转、调整亮度、添加噪声
  • 语音数据:音调变化、速度变化、背景噪音

6. 数据划分与存储

  • 划分比例:训练集 80%,验证集 10%,测试集 10%
  • 存储格式JSONCSVParquet、数据库

7. 质量评估(必须)

  • 数据完整性检查
  • 数据分布检查
  • 标注质量评估

8. 数据集发布与维护

  • GitHub 或 Hugging Face 发布
  • 数据版本变更日志
  • 用户反馈修正

案例分析1:ChronoQA 数据集

1. 数据源获取

  • 新闻文章收集:2019-2024 年新闻数据爬取
  • 数据清洗:重复去除、格式转换、时间标准化

2. 数据预处理

  • 时间信息段落选取
  • 时间标注内容过滤

3. 问题生成与验证

  • 单一时间问题生成
  • 多步推理问题构造
  • 人工和自动化检查

4. 数据集质量控制

  • 多级过滤
  • 统计分析

5. 结果存储

  • JSON 格式:包含问题、答案、时间表达类型等信息

案例分析2:多模态虚假新闻检测数据集AMG构建

1. 数据源获取

  • 虚假新闻收集:事实核查网站、社交平台
  • 真实新闻收集:权威中立媒体

2. 数据处理与标注

2.1 数据过滤

  • 多模态新闻内容筛选
  • 视觉内容相似度筛选

2.2 专家标注

  • 17 位专家团队标注
  • 归因流程执行

2.3 归因类型

  • 图像伪造
  • 无效图像
  • 实体不一致
  • 事件不一致
  • 时间不一致

2.4 特殊情况

  • 标记不符合上述类别的实例

2.5 交叉验证与讨论

  • 多标注员标注
  • 多数投票决定归因
  • 有争议案例讨论

3. 数据整合与分析

3.1 数据整合

  • 去除不符合归因类型的新闻
  • 虚假新闻和真实新闻比例

3.2 数据集划分

  • 训练集、验证集、测试集划分

3.3 归因规则合理性

  • 统计分析归因类别覆盖率

4. 法律与伦理

  • 数据抓取合规性
  • 数据隐私保护
  • 数据存储安全性

5. 结论

  • AMG 数据集构建过程与用途概述
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChronoQA 数据集的构建始于对2019-2024年新闻文章的广泛收集,辅以语言模型(LLM)对时间敏感段落进行预处理,进而生成时间相关的问题及其答案。经过人工和自动化多级过滤,确保问题与答案的准确性和一致性,最终以JSON格式存储,形成结构化良好的数据集。
特点
ChronoQA 数据集以其独特的时间敏感型问题而显著,涵盖显式和隐式时间表达,提供绝对和相对时间类型的标注。数据集注重时间范围的广泛覆盖和类别的均衡性,确保了其在时间推理任务中的多样性和可用性。
使用方法
使用ChronoQA 数据集时,用户可依据JSON格式中的字段,如问题、答案、时间表达式类型、时间范围和粒度等,进行时间敏感型问题的训练和测试。数据集支持单一时间问题的生成和多步推理问题的构造,适用于评估模型在时间推理方面的性能。
背景与挑战
背景概述
ChronoQA 数据集是一项专注于时间敏感型问题回答的研究成果,由LLM小组构建于近年。该数据集的创建旨在推动时间推理能力在问答系统中的发展,核心研究问题是如何通过文本信息进行有效的时间线构建与时间关系推理。ChronoQA 数据集的构建过程涉及了新闻文章的收集、预处理、问题生成与验证等步骤,由专业团队进行质量控制,并以JSON格式存储结果。该数据集的发布对时间敏感型QA研究和自然语言处理领域产生了重要影响。
当前挑战
ChronoQA 数据集在构建过程中面临的挑战包括:1) 如何确保收集的新闻数据具有时间敏感性,并能够覆盖广泛的时间范围;2) 在问题生成阶段,自动化工具生成的问题质量控制和一致性保证;3) 数据标注过程中,对时间信息的准确标注和类别均衡性的维护;4) 构建过程中,对于数据集的隐私和合规性问题需要进行严格处理。这些挑战对于提高数据集的质量和适用性至关重要。
常用场景
经典使用场景
ChronoQA 数据集专注于时间敏感型问题,其经典使用场景在于训练时间推理模型,以理解和回答关于事件时间、持续时间和时间序列的问题。例如,模型可以学会从新闻报道中提取时间相关的信息,并基于这些信息预测未来的事件或回溯过去的事件。
实际应用
在实际应用中,ChronoQA 数据集可以被用于开发智能助手、时间线生成工具以及事件预测系统。这些应用能够帮助用户更好地理解新闻内容中的时间信息,为新闻分析、历史研究和事件监控提供支持。
衍生相关工作
ChronoQA 数据集的构建催生了多种相关研究,包括但不限于时间推理算法的开发、时间敏感型问答系统的设计以及多模态时间信息的融合研究。这些衍生工作进一步扩展了时间处理技术在自然语言处理领域的应用范围。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

Movies Dataset

这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录