A Use-Case Specific Dataset for Measuring Dimensions of Responsible Performance in LLM-generated Text

Name: A Use-Case Specific Dataset for Measuring Dimensions of Responsible Performance in LLM-generated Text
Creator: AWS Responsible AI
Published: 2025-10-24 01:50:55
License: 暂无描述

arXiv2025-10-24 更新2025-04-12 收录

下载链接：

https://www.kaggle.com

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个用于评估大型语言模型（LLM）在生成文本中责任性能维度的数据集。该数据集由真实世界应用驱动，参数化为公平属性，与性别形容词和产品类别相交，生成了一系列丰富的标记提示。数据集包括地面真实的产品描述、良性和敏感类别、与男性和女性相关的产品类别，旨在评估LLM在质量、真实性、安全性和公平性方面的表现。数据集包含7047行，每行包含产品及其特征、标记的公平属性和用于检索产品的查询模板。数据集可在Kaggle上下载，并遵循Creative Commons BY 4.0许可证。

This study constructs a dataset for evaluating the responsible performance dimensions of Large Language Models (LLMs) in text generation. The dataset is driven by real-world applications, parameterized with fairness attributes, and intersects with gender adjectives and product categories to generate a series of rich annotated prompts. The dataset includes ground-truth product descriptions, benign and sensitive categories, and product categories associated with male and female genders, aiming to evaluate LLMs' performance in terms of quality, authenticity, safety, and fairness. The dataset consists of 7047 rows, each containing the product and its features, annotated fairness attributes, and query templates used for retrieving products. The dataset is available for download on Kaggle and is licensed under Creative Commons BY 4.0.

提供机构：

AWS Responsible AI

创建时间：

2025-10-24

搜集汇总

数据集介绍

构建方式

KAGGLEBENCH数据集构建于Kaggle平台上高质量的数据分析笔记本，涵盖了49个不同领域和28种任务类型。通过解析笔记本内容，使用GPT-4o生成问答对，并提取人类编写的结论或代码输出作为答案。每个笔记本还生成了对应的分析目标和用户角色描述，以确保数据集能够反映真实世界数据分析的复杂性和多样性。

特点

KAGGLEBENCH数据集的特点在于其广泛的领域覆盖和多样化的任务类型，包括聚类、预测建模和自然语言处理技术等。数据集中的每个问题都标注了所需的分析技能，使其成为评估LLM数据分析能力的理想基准。此外，数据集还包含了用户角色和分析目标，使得评估更加贴近实际应用场景。

使用方法

KAGGLEBENCH数据集主要用于评估LLM数据分析代理的性能。用户可以通过该数据集测试代理在不同领域和任务类型下的表现，包括问题生成、技能匹配、代码生成和洞察提取等环节。数据集的结构化设计使其能够支持端到端的评估流程，帮助研究人员和开发者优化数据分析代理的能力。

背景与挑战

背景概述

KAGGLEBENCH是由ServiceNow Research、英属哥伦比亚大学、多伦多大学等机构的研究团队于2025年推出的一项基准测试数据集，旨在评估基于大型语言模型（LLM）的数据分析代理在复杂任务中的表现。该数据集包含700个精选的Jupyter笔记本，涵盖49个不同领域和28种任务类型，如聚类分析、预测建模和自然语言处理技术（如BERT）等。KAGGLEBENCH的创建填补了现有基准测试在覆盖范围和复杂性上的不足，为数据科学领域提供了一个更为全面和真实的测试平台。该数据集不仅支持对数据分析代理的多维度评估，还通过引入结构化评分框架SCORER，实现了对生成见解质量的自动化评估。

当前挑战

KAGGLEBENCH面临的挑战主要包括两个方面：1) 领域问题的复杂性：数据集旨在解决数据分析中的多步骤推理和高级分析任务，例如时间序列分解和情感分析，这些任务需要代理具备动态选择和应用不同分析技能的能力。现有方法通常依赖于手动选择分析方法，难以适应复杂多变的实际需求。2) 构建过程中的技术难题：数据集的构建需要从大量Kaggle笔记本中提取高质量的问题-答案对，并确保其覆盖多样化的领域和任务类型。此外，如何通过自动化方法（如混合检索增强生成技术）准确匹配问题与技能，以及如何设计可扩展的评估框架（如SCORER）以替代人工评估，均是构建过程中需要克服的关键技术挑战。

常用场景

经典使用场景

KAGGLEBENCH数据集作为AGENTADA框架的核心评估基准，其经典使用场景在于为大型语言模型驱动的数据分析代理提供多领域、多任务型的验证平台。该数据集通过整合来自Kaggle平台的700个真实分析案例，覆盖金融、健康、教育等49个垂直领域，支持对聚类分析、时间序列分解、情感分析等28类分析任务的系统性评估。研究者可利用其丰富的领域多样性，验证分析代理在复杂场景下的跨领域泛化能力，特别是在处理需要多步骤推理的混合型分析任务时，该数据集能有效检验模型对高级统计方法与NLP技术的综合运用水平。

解决学术问题

该数据集主要解决数据分析领域三个关键学术问题：一是填补现有评估基准在任务复杂度上的不足，通过包含需要时序分解、因果推断等深层次分析的任务，推动超越基础统计的分析方法研究；二是建立目标导向的评估体系，其标注的'目标-角色'元数据支持对分析结果与业务需求契合度的量化评估；三是提出可扩展的自动化评估方案，配套的SCORER框架通过提示优化实现人类评估对齐，解决了传统人工评估成本高、标准不一致的痛点。其创新性的任务分类体系也为分析技能的形式化表示研究提供了实验基础。

衍生相关工作

围绕该数据集已衍生出多个研究方向：一是分析技能库构建技术，如基于RAG的技能匹配器在后续工作中被扩展为支持动态更新的分析知识图谱；二是评估方法创新，其提出的LLM-as-Judge框架启发了后续研究如Auto-Eval等自动化评估系统；三是多模态分析代理开发，基于该数据集验证的代码生成-可视化-解释一体化流程已成为新一代分析工具的标准架构。相关成果在KDD、ICML等会议产生了包括SkillNet、AnalyticsBench在内的一系列延伸工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集