five

CDQA

收藏
arXiv2024-03-02 更新2024-06-21 收录
下载链接:
https://github.com/Alibaba-NLP/CDQA
下载链接
链接失效反馈
官方服务:
资源简介:
CDQA是一个针对中国大型语言模型(LLMs)的动态问答基准,旨在评估和提升LLMs处理动态问题的能力。该数据集由阿里巴巴智能计算研究院创建,包含1339个问题-答案对,数据来源于中国互联网上的最新新闻。数据集通过半自动数据生产流程构建,结合了自动生成的问题和人工标注的答案,根据答案变化频率细分为快速变化、慢速变化和不变三类。CDQA的应用领域主要集中在提升LLMs在实际应用中处理最新信息的能力,特别是在新闻、政治、科技等快速变化的领域。

CDQA is a dynamic question answering benchmark tailored for Chinese large language models (LLMs), which aims to evaluate and enhance the capacity of LLMs to handle dynamic questions. Developed by Alibaba Institute of Intelligent Computing, this dataset comprises 1,339 question-answer pairs sourced from the latest news across the Chinese internet. It is constructed via a semi-automatic data construction pipeline that integrates automatically generated questions and manually annotated answers, and is categorized into three groups based on the frequency of answer changes: fast-changing, slow-changing, and non-changing. The core application scenario of CDQA is to improve LLMs' capability of processing up-to-date information in real-world deployments, especially in rapidly evolving fields such as news, politics, and technology.
提供机构:
阿里巴巴智能计算研究院
创建时间:
2024-02-29
搜集汇总
数据集介绍
main_image_url
构建方式
在中文动态问答评估领域,CDQA数据集的构建采用了半自动化的流水线方法,巧妙融合了人工与模型的优势。该流程首先从中文互联网的最新新闻中自动提取关键实体,随后利用大型语言模型基于这些实体生成初步的问题-答案对。为确保数据质量,经过专业训练的人工标注员对自动生成的样本进行筛选、改写与分类,最终形成了包含1339个高质量样本的数据集,并依据答案变化的频率(快速变化、缓慢变化、永不变化)进行了细致分类。
特点
CDQA数据集的核心特点在于其动态性与细粒度分类。该数据集专注于答案随时间演变的动态问题,能够有效评估大型语言模型对最新知识的掌握能力。其样本覆盖财经、日常生活、政治、科技等多个领域,且通过人工标注确保了问题的时效性与准确性。数据集的分类设计使得研究者能够从不同变化频率的维度深入观察模型的性能,为中文场景下的语言模型评估提供了宝贵的细粒度分析资源。
使用方法
CDQA数据集主要用于评估大型语言模型在中文动态问答任务上的性能。研究者在闭卷与开卷两种实验设置下进行测试,开卷场景中可结合搜索引擎检索最新证据。评估时采用F1召回率与回答率作为核心指标,并支持零样本、少样本以及多种提示方法(如Vanilla、思维链、重述与回应)的测试。该数据集定期更新,研究者需使用最新版本以确保评估结果反映模型对当前知识的处理能力。
背景与挑战
背景概述
在自然语言处理领域,大规模语言模型(LLMs)的评估已成为推动其能力发展的核心议题。CDQA(Chinese Dynamic Question Answering)基准由阿里巴巴集团智能计算研究院的研究团队于2024年提出,旨在填补中文动态问答评估资源的空白。该数据集聚焦于动态变化的问题,其答案随最新中文互联网新闻事件而更新,核心研究问题在于如何有效评估LLMs对时效性知识的掌握与应用能力。CDQA通过半自动化的数据构建流程,整合了实体提取与人工标注,涵盖了快速变化、缓慢变化及静态知识三类问题,为中文LLMs的演进提供了关键的评估工具,对促进模型在实际动态场景中的适应性具有显著影响力。
当前挑战
CDQA所解决的领域问题在于评估LLMs处理动态问答的挑战,这要求模型不仅需具备强大的知识检索与推理能力,还需应对答案随时间演变的复杂性。具体而言,模型在缺乏最新训练数据的情况下,难以准确回答涉及新闻、事件或人物状态等快速更新的问题,易产生幻觉或拒绝响应。在数据构建过程中,挑战主要体现在高质量样本的生成与维护:自动生成的查询需经过人工筛选与改写以确保准确性与动态性,同时数据分布存在偏差,如答案类型集中于“人物”与“群体”类别;此外,数据集的持续更新机制也面临时效性保障与标注一致性的压力,需通过定期校准来维持其评估价值。
常用场景
经典使用场景
在自然语言处理领域,动态问答能力是评估大型语言模型适应现实世界知识演变的关键维度。CDQA作为首个专注于中文动态问答的基准数据集,其经典使用场景在于系统性地评估和比较各类中文大语言模型在回答涉及最新时事、金融动态、科技进展等快速变化信息时的性能。研究者通过该数据集,能够精确测量模型在闭卷与开卷设置下,对于答案随时间更迭问题的处理能力,从而揭示模型在知识更新、检索增强生成以及幻觉控制等方面的实际表现。
实际应用
在实际应用层面,CDQA所针对的动态问答能力是智能搜索引擎、新闻摘要系统、金融资讯助手以及各类实时交互式AI应用的核心需求。例如,在财经领域,用户需要获取最新的股价波动、政策调整或企业动态;在日常生活场景中,公众关心即将举办的赛事地点、新上映的影视作品或交通管制信息。基于CDQA评估优化的模型,能够更可靠地为这些应用提供准确、及时的答案,减少因信息过时而产生的误导,提升AI服务在真实、动态环境中的实用性与可信度。
衍生相关工作
CDQA的提出,继承并拓展了英文动态问答基准FreshQA的研究脉络,同时与StreamingQA、RealTimeQA等关注时序知识演变的工作形成呼应。在其启发与支撑下,后续研究可沿多个方向深入:一是探索更高效的持续学习与知识更新机制,使模型能低成本地吸收新知识;二是研发更强大的中文检索器与检索-生成融合架构,以提升开卷问答的精度;三是基于其细粒度分类,深入分析模型在不同类型实体(如人物、事件、数量)问答上的能力差异,从而推动模型能力向更专业、更可靠的维度发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作