five

ChronoQA 数据集

收藏
github2025-02-09 更新2025-02-10 收录
下载链接:
https://github.com/NLMGroup/llm_dataset_guide
下载链接
链接失效反馈
官方服务:
资源简介:
ChronoQA 数据集是一个关注时间敏感型问题的问答数据集,数据主要来自新闻,包括具有时间信息的新闻段落和根据这些段落生成的时间敏感型问题。

The ChronoQA dataset is a question answering (QA) dataset dedicated to time-sensitive questions. Its data is primarily sourced from news articles, encompassing news paragraphs with temporal information and time-sensitive questions generated based on these paragraphs.
创建时间:
2025-02-05
原始信息汇总

LLM小组自建数据集指南

目录

项目介绍

数据集是模型训练的基础。然而,针对特定任务或领域,可能缺乏直接可用的数据集,因此需要自建数据集。本指南提供了一个系统化的流程,帮助大家从零开始构建高质量的数据集。

自建数据集通用流程

1. 数据集格式需求确认

  • 数据格式JSONCSVParquet
  • 字段要求:结构化数据字段,非结构化数据元数据
  • 存储方式:本地文件系统、数据库、对象存储、开源平台
  • 数据规模:样本数量,数据代表性
  • 使用场景:训练、验证、测试,数据版本控制
  • 数据隐私与合规性:敏感数据处理,个人身份信息去除

2. 数据收集

  • 公开数据集:Hugging Face Datasets、Kaggle
  • 爬虫抓取:新闻、社交媒体等
  • 人工生成:低资源任务样本设计
  • LLM 生成:使用 LLM 生成数据
  • 数据购买:第三方数据购买

3. 数据清洗与预处理

  • 数据格式统一
  • 无效样本去除
  • 数据脱敏
  • 规范化处理
  • 缺失值处理

4. 数据标注

  • 人工标注:使用标注工具或众包
  • 自动标注:LLM 或其他模型自动化标注
  • 数据验证:自动标注数据的人工验证

5. 数据增强(可选)

  • 文本数据:同义词替换、回译、文本拼接
  • 图像数据:旋转、翻转、调整亮度、添加噪声
  • 语音数据:音调变化、速度变化、背景噪音

6. 数据划分与存储

  • 划分比例:训练集 80%,验证集 10%,测试集 10%
  • 存储格式JSONCSVParquet、数据库

7. 质量评估(必须)

  • 数据完整性检查
  • 数据分布检查
  • 标注质量评估

8. 数据集发布与维护

  • GitHub 或 Hugging Face 发布
  • 数据版本变更日志
  • 用户反馈修正

案例分析1:ChronoQA 数据集

1. 数据源获取

  • 新闻文章收集:2019-2024 年新闻数据爬取
  • 数据清洗:重复去除、格式转换、时间标准化

2. 数据预处理

  • 时间信息段落选取
  • 时间标注内容过滤

3. 问题生成与验证

  • 单一时间问题生成
  • 多步推理问题构造
  • 人工和自动化检查

4. 数据集质量控制

  • 多级过滤
  • 统计分析

5. 结果存储

  • JSON 格式:包含问题、答案、时间表达类型等信息

案例分析2:多模态虚假新闻检测数据集AMG构建

1. 数据源获取

  • 虚假新闻收集:事实核查网站、社交平台
  • 真实新闻收集:权威中立媒体

2. 数据处理与标注

2.1 数据过滤

  • 多模态新闻内容筛选
  • 视觉内容相似度筛选

2.2 专家标注

  • 17 位专家团队标注
  • 归因流程执行

2.3 归因类型

  • 图像伪造
  • 无效图像
  • 实体不一致
  • 事件不一致
  • 时间不一致

2.4 特殊情况

  • 标记不符合上述类别的实例

2.5 交叉验证与讨论

  • 多标注员标注
  • 多数投票决定归因
  • 有争议案例讨论

3. 数据整合与分析

3.1 数据整合

  • 去除不符合归因类型的新闻
  • 虚假新闻和真实新闻比例

3.2 数据集划分

  • 训练集、验证集、测试集划分

3.3 归因规则合理性

  • 统计分析归因类别覆盖率

4. 法律与伦理

  • 数据抓取合规性
  • 数据隐私保护
  • 数据存储安全性

5. 结论

  • AMG 数据集构建过程与用途概述
搜集汇总
数据集介绍
main_image_url
构建方式
ChronoQA 数据集的构建始于对2019-2024年新闻文章的广泛收集,辅以语言模型(LLM)对时间敏感段落进行预处理,进而生成时间相关的问题及其答案。经过人工和自动化多级过滤,确保问题与答案的准确性和一致性,最终以JSON格式存储,形成结构化良好的数据集。
特点
ChronoQA 数据集以其独特的时间敏感型问题而显著,涵盖显式和隐式时间表达,提供绝对和相对时间类型的标注。数据集注重时间范围的广泛覆盖和类别的均衡性,确保了其在时间推理任务中的多样性和可用性。
使用方法
使用ChronoQA 数据集时,用户可依据JSON格式中的字段,如问题、答案、时间表达式类型、时间范围和粒度等,进行时间敏感型问题的训练和测试。数据集支持单一时间问题的生成和多步推理问题的构造,适用于评估模型在时间推理方面的性能。
背景与挑战
背景概述
ChronoQA 数据集是一项专注于时间敏感型问题回答的研究成果,由LLM小组构建于近年。该数据集的创建旨在推动时间推理能力在问答系统中的发展,核心研究问题是如何通过文本信息进行有效的时间线构建与时间关系推理。ChronoQA 数据集的构建过程涉及了新闻文章的收集、预处理、问题生成与验证等步骤,由专业团队进行质量控制,并以JSON格式存储结果。该数据集的发布对时间敏感型QA研究和自然语言处理领域产生了重要影响。
当前挑战
ChronoQA 数据集在构建过程中面临的挑战包括:1) 如何确保收集的新闻数据具有时间敏感性,并能够覆盖广泛的时间范围;2) 在问题生成阶段,自动化工具生成的问题质量控制和一致性保证;3) 数据标注过程中,对时间信息的准确标注和类别均衡性的维护;4) 构建过程中,对于数据集的隐私和合规性问题需要进行严格处理。这些挑战对于提高数据集的质量和适用性至关重要。
常用场景
经典使用场景
ChronoQA 数据集专注于时间敏感型问题,其经典使用场景在于训练时间推理模型,以理解和回答关于事件时间、持续时间和时间序列的问题。例如,模型可以学会从新闻报道中提取时间相关的信息,并基于这些信息预测未来的事件或回溯过去的事件。
实际应用
在实际应用中,ChronoQA 数据集可以被用于开发智能助手、时间线生成工具以及事件预测系统。这些应用能够帮助用户更好地理解新闻内容中的时间信息,为新闻分析、历史研究和事件监控提供支持。
衍生相关工作
ChronoQA 数据集的构建催生了多种相关研究,包括但不限于时间推理算法的开发、时间敏感型问答系统的设计以及多模态时间信息的融合研究。这些衍生工作进一步扩展了时间处理技术在自然语言处理领域的应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作