ChronoQA
收藏ChronoQA 数据集概述
数据集简介
ChronoQA 是一个面向新闻数据的时序敏感问答系统数据集,支持处理和分析新闻内容、生成结构化问答对以及基于时间的查询。
关键特性
- 新闻爬取和清洗
- 新闻摘要和知识图谱提取
- 多类型问题生成
- 时序问答处理
- 支持多种LLM API
数据结构
ChronoQA/ ├── scripts/ # 核心处理脚本 │ ├── api.py # API封装 │ ├── news_crawer.py # 新闻爬取模块 │ ├── data_process.py # 新闻数据处理和批量处理 │ ├── question_filter.py # 问题过滤器 │ ├── composite_question.py # 复合问题函数 │ ├── question_generation.py # 问题生成 │ └── prompt.py # 提示模板 ├── chronoqa.csv # CSV格式数据集 ├── chronoqa.json # JSON格式数据集 └── README.md # 说明文件
数据集详情
问题示例
包含多种时序问题类型:
- 绝对时间问题("2020年10月13日,哪支球队赢得了NBA总冠军?")
- 相对时间问题("今年年初,乐视每周工作时间是多少小时?")
- 聚合比较问题("中国的住房贷款政策和新证券法规哪个更早生效?")
- 隐式时间参考问题("去年7月,哪位中国选手打入了温网决赛?")
统计信息
| 类别 | 子类别 | 数量 |
|---|---|---|
| 时序类型 | 绝对 | 2,529 |
| 聚合 | 1,911 | |
| 相对 | 736 | |
| 时序范围 | 长期 | 1,946 |
| 中期 | 2,736 | |
| 短期 | 494 | |
| 时间表达 | 显式 | 2,000 |
| 隐式 | 3,176 | |
| 总计 | 5,176 |
数据格式
JSON结构示例: json { "question": "哪个事件发生得更早:COTODAMA音箱发布还是iPhone 6停产?", "question_date": "2024-10-30", "answer": "iPhone 6停产", "temporal_expression_type": "explicit", "temporal_scope": "long-term", "temporal_granularity": "day", "temporal_type": "aggregate", "answer_type": "entity", "reference_document_count": "multiple", "golden_chunks": [ "2019年7月23日,COTODAMA发布了...", "2019年7月17日,苹果宣布..." ] }
许可证
CC BY 4.0许可证。




