five

CLUES

收藏
arXiv2022-04-15 更新2024-06-21 收录
下载链接:
https://clues-benchmark.github.io
下载链接
链接失效反馈
官方服务:
资源简介:
CLUES数据集是一个用于通过自然语言解释学习分类器的基准,由北卡罗来纳大学教堂山分校的研究人员创建。该数据集包含36个真实世界和144个合成分类任务,每个任务都配有自然语言解释。真实世界的任务来自UCI、Kaggle和Wikipedia,而合成任务则是程序生成的。数据集旨在通过解释来指导模型学习,特别是在零样本学习场景中。CLUES数据集的应用领域包括但不限于机器学习模型的可解释性和零样本学习能力的提升,旨在解决模型在未见任务上的泛化问题。

The CLUES dataset is a benchmark for learning classifiers via natural language explanations, created by researchers at the University of North Carolina at Chapel Hill. This dataset contains 36 real-world and 144 synthetic classification tasks, each paired with natural language explanations. The real-world tasks are sourced from UCI, Kaggle, and Wikipedia, while the synthetic tasks are programmatically generated. The dataset is designed to guide model learning through explanations, particularly in zero-shot learning scenarios. Application areas of the CLUES dataset include, but are not limited to, improving the interpretability of machine learning models and their zero-shot learning capabilities, aiming to address the generalization issue of models on unseen tasks.
提供机构:
北卡罗来纳大学教堂山分校
创建时间:
2022-04-15
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建能够从语言解释中学习分类器的基准数据集具有重要研究价值。CLUES数据集的构建采用了双轨制方法,分为真实世界任务与合成任务两部分。对于CLUES-Real部分,研究团队从UCI机器学习库、Kaggle平台及维基百科表格中筛选出36个结构化分类任务,并通过亚马逊众包平台收集人类教师提供的自然语言解释。每位教师在观察15-16个标注样本后,需撰写至少两条解释规则,随后由另一组众包参与者作为学生验证解释的有效性。CLUES-Synthetic部分则通过程序化方式生成144个合成分类任务,采用模板化方法构建包含不同逻辑结构(如简单条件句、合取/析取嵌套句)和量化修饰的解释文本,从而系统控制解释的语言复杂度与逻辑深度。
特点
该数据集的核心特征体现在其结构设计与内容多样性上。CLUES包含180个分类任务,涵盖二分类与多分类问题,任务领域从医疗诊断、金融风控到游戏策略等跨度广泛。数据集的突出特点在于其解释文本的丰富性:真实任务部分平均每个任务收集9.6条解释,涉及5.4位教师的多视角表述;合成任务部分则精确控制了解释的逻辑结构变量。解释文本中普遍存在量化修饰(52%)、条件语句(15%)和否定表达(16%)等语言现象,阅读复杂度覆盖从专业级到初级的多层次分布。这种设计使得数据集既能反映真实教学场景中解释的模糊性与多样性,又能通过合成任务提供可控的语言推理测试环境。
使用方法
使用该数据集时,研究者可采用多任务学习框架进行模型训练与评估。标准流程将任务划分为可见任务集与新颖任务集,模型在可见任务上通过解释文本与标注样本进行联合训练,随后在新颖任务上仅凭解释文本进行零样本泛化测试。输入处理需将结构化数据线性化为“属性名|属性值”的文本序列,与解释文本共同编码。基准方法包括直接拼接解释的RoBERTa变体,以及本研究提出的ExEnt模型——该模型通过蕴涵推理机制显式建模每条解释对分类决策的影响权重。评估指标重点关注模型在未见任务上的分类准确率,同时可通过合成任务的系统变体分析模型对量化词、否定结构和复杂逻辑的表达能力。
背景与挑战
背景概述
CLUES(Classifier Learning Using natural language ExplanationS)基准数据集由北卡罗来纳大学教堂山分校的研究团队于2022年提出,旨在探索从自然语言解释中学习零样本分类器的前沿范式。该数据集的核心研究问题聚焦于如何使机器学习模型能够像人类一样,仅通过语言描述而非大量标注样本来理解并执行新的分类任务。CLUES包含36个真实世界任务和144个合成任务,覆盖了从UCI、Kaggle到维基百科表格的多样化结构化数据领域。其创新性在于首次大规模系统性地将自然语言解释作为监督信号,推动了机器学习从传统归纳学习向语言驱动概念学习的范式转变,对提升模型的可解释性与跨任务泛化能力具有深远影响。
当前挑战
CLUES数据集所解决的核心领域问题——从自然语言解释中学习零样本分类器——面临多重挑战。首要挑战在于模型需精准解析解释中复杂的逻辑结构,如嵌套条件句、合取与析取关系,以及量化词(如“通常”“可能”)和否定表达所蕴含的不确定性语义。其次,解释与结构化数据之间的语义对齐要求模型能够理解表格属性与自然语言描述之间的对应关系,尤其在属性名被替换或解释存在歧义时。在数据集构建过程中,挑战主要体现在如何通过众包收集高质量、多样化的解释,同时确保其教学效用;以及如何设计程序化生成的合成任务,以系统控制解释的语言复杂度与逻辑结构,从而分离并量化不同因素对模型泛化能力的影响。
常用场景
经典使用场景
在自然语言处理与机器学习交叉领域,CLUES数据集为探索零样本分类器学习提供了经典实验平台。该数据集通过整合结构化数据与自然语言解释,构建了从语言监督中学习分类逻辑的研究范式。其核心应用场景在于训练模型仅依据任务描述性解释,无需依赖标注样本即可完成跨任务泛化,这模拟了人类通过语言归纳概念的学习机制。例如,在蘑菇毒性分类任务中,模型仅依据‘具有刺鼻气味的蘑菇通常有毒’这类解释语句,即可对未见过的蘑菇样本进行毒性判断。
实际应用
在实际应用层面,CLUES数据集推动了可解释人工智能系统的发展,特别是在结构化数据处理领域具有广泛前景。其技术可应用于医疗诊断辅助系统,医生可通过自然语言描述症状与疾病的关联规则,系统即可自动学习并辅助诊断新病例。在金融风控场景中,风险分析师可用自然语言定义欺诈交易的特征模式,模型便能据此识别新型欺诈行为。此外,该框架还能赋能低代码机器学习平台,让领域专家无需掌握复杂编程技能,仅通过自然语言描述业务规则即可构建分类模型,极大降低了机器学习技术的应用门槛。
衍生相关工作
CLUES数据集催生了多个重要研究方向,其提出的解释引导学习范式启发了后续系列工作。基于该数据集构建的ExEnt模型开创了通过蕴涵推理聚合多解释信息的新方法,为后续研究提供了基础架构。相关衍生工作进一步探索了多教师解释融合机制,研究如何从众包解释中建模教师可信度差异。在技术扩展方面,研究者将解释引导学习与提示学习相结合,形成了混合监督学习框架。同时,针对CLUES揭示的量化词与否定结构理解难题,后续研究发展了具有逻辑推理能力的神经符号模型,这些工作共同推动了语言监督学习领域的理论深化与技术演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作