CIF-Bench
收藏arXiv2024-02-21 更新2024-06-21 收录
下载链接:
https://yizhilll.github.io/CIF-Bench/
下载链接
链接失效反馈官方服务:
资源简介:
CIF-Bench是由曼彻斯特大学等机构创建的中文指令遵循基准,用于评估大型语言模型对中文语言的零样本泛化能力。该数据集包含150个任务和45,000个输入输出对,由母语为中文的标注者开发,测试复杂推理和中文文化细微差别。为减少评估偏差,数据集的一半公开发布,另一半保持私有,并引入多样化指令以最小化分数差异。CIF-Bench旨在揭示当前LLMs处理中文任务的局限性,推动开发更具文化敏感性和语言多样性的模型。
CIF-Bench is a Chinese instruction-following benchmark developed by the University of Manchester and other institutions, designed to evaluate the zero-shot generalization capability of large language models (LLMs) on Chinese language tasks. This dataset includes 150 tasks and 45,000 input-output pairs, developed by native Chinese annotators, and is intended to assess complex reasoning skills and subtle Chinese cultural nuances. To reduce evaluation bias, half of the dataset is publicly released while the other half remains private, and diverse instructions are introduced to minimize score discrepancies. CIF-Bench aims to reveal the limitations of current LLMs in handling Chinese-related tasks, and promote the development of models with greater cultural sensitivity and linguistic diversity.
提供机构:
曼彻斯特大学
创建时间:
2024-02-21
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,大语言模型在低资源语言上的泛化能力评估面临数据泄露与评测偏见的挑战。CIF-Bench的构建采用系统化流程:首先从现有英文任务库中选取113项任务,由母语为中文的专家进行指令翻译与样本标注;同时,团队原创设计了37项深度融入中国文化元素与复杂推理场景的新任务。为确保评估公正性,数据集采用公私划分策略,仅公开半数样本,并引入每任务五组语义一致但表达多样的指令,最终形成涵盖150项任务、45,000个数据实例的评测体系。所有样本均经过人工校验与语义去重,构建出兼具语言深度与文化广度的评估基准。
特点
该数据集的核心特征体现在多维度的评估深度与严谨的防泄露机制。其任务体系覆盖自然语言推理、代码生成、文化常识等20个类别,其中38.7%的任务专门检验复杂推理能力,18项任务深度嵌入中国传统文化语境。数据集通过独创的指令多样性设计,为每项任务配备五组语义等效的变体指令,有效降低模型对特定指令表述的过拟合风险。评测框架采用任务粒度定制化评估方案,针对创意生成类任务引入基于GPT-4的自动化评估流程,对语义匹配类任务则采用BLEURT相似度计算,形成层次化的评估生态。
使用方法
使用该数据集时需遵循其设计的零样本评估范式。研究者将任务指令与输入文本拼接后直接输入待测模型,无需提供示例样本。评估过程需严格区分公开集与私有集:公开集包含7500个样本供方法开发与初步验证,私有集包含37500个样本用于最终性能评测。对于创意生成类任务,需调用配套的GPT-4评估器进行多维度的生成质量分析;其他任务则可依据预设的评估指标(如准确率、F1值等)进行计算。数据集支持通过任务类别细粒度分析模型能力短板,为提升中文场景下的指令跟随泛化能力提供诊断依据。
背景与挑战
背景概述
随着大语言模型在指令跟随任务中展现出跨任务泛化能力,其在低资源语言如中文环境下的表现却常因数据泄露导致的评估偏差而受到质疑。为应对这一挑战,由曼彻斯特大学、滑铁卢大学等机构的研究团队于2024年共同创建了CIF-Bench(中文指令跟随基准)。该数据集旨在系统评估大语言模型在零样本设置下对中文任务的泛化能力,核心研究问题聚焦于模型在陌生语言与文化语境中的适应性。CIF-Bench包含150项任务和45,000个数据实例,涵盖复杂推理、中国文化特色等20个类别,通过引入多样化指令和半公开数据划分策略,为促进语言模型的多元文化适应性与语言学多样性提供了重要评估基础。
当前挑战
CIF-Bench所针对的领域问题在于评估大语言模型在中文指令跟随任务中的零样本泛化能力,其核心挑战体现在模型对中文语言结构与文化内涵的理解不足,导致在翻译、代码生成等任务中表现显著下滑。构建过程中的挑战主要包括:为确保数据质量与代表性,需由母语者人工标注涉及中文文化特色的任务,并设计多样化指令以降低评估方差;同时,为规避数据泄露引发的评估偏差,采用半公开数据发布策略,仅公开部分数据,保留私有数据用于可靠评估,这增加了数据构建与维护的复杂性。
常用场景
经典使用场景
在自然语言处理领域,评估大型语言模型在低资源语言中的指令跟随能力已成为关键研究方向。CIF-Bench作为中文指令跟随基准,其经典使用场景聚焦于零样本泛化评估,通过涵盖150项任务和15,000个输入输出对,系统检验模型对中文复杂推理及文化细微差别的理解。该数据集通过设计多样化指令变体与公私数据分割机制,有效模拟真实场景中模型面对未知任务时的表现,为研究者提供了稳定且可靠的评估框架。
实际应用
在实际应用层面,CIF-Bench为开发面向中文场景的智能系统提供了核心评估工具。其在机器翻译、文化敏感内容生成、教育辅助系统及跨语言客服机器人等领域具有直接应用价值。通过揭示模型在代码生成、摘要撰写及文化相关任务中的薄弱环节,该数据集助力企业优化模型训练策略,推动构建更贴合中文用户需求的对话系统与内容创作工具,提升多语言人工智能服务的实用性与可靠性。
衍生相关工作
CIF-Bench的发布催生了一系列围绕中文语言模型评估的延伸研究。其首创的任务级自动评估框架启发了后续工作如FollowBench对指令约束多样性的深入探索;数据集构建中采用的文化标注范式,为后续Chinese-CLUE等基准的细粒度分类提供了参考。同时,该工作揭示的代码与翻译任务性能瓶颈,直接推动了如CodeGeeX等中文代码生成模型的专项优化,形成了从评估到改进的完整研究闭环。
以上内容由遇见数据集搜集并总结生成



