ibm-research/data-product-benchmark
收藏Hugging Face2026-03-18 更新2025-10-18 收录
下载链接:
https://hf-mirror.com/datasets/ibm-research/data-product-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该数据集为自动数据产品创建提供了一个基准。任务被框架化为:给定一个自然语言数据产品请求和一个文本及表格的语料库,目标是要识别出应该包含在最终数据产品中的相关表格和文本文档,以便对给定的数据产品请求有用。该基准包括三种变体:HybridQA、TAT-QA和ConvFinQA,每个变体都包括文本段落和表格的语料库,以及一组数据产品请求及其对应的真实表格和文本。这个基准使得可以系统地评估用于从带有表格和文本的数据湖中自动创建数据产品的表格和文本发现方法。
This dataset provides a benchmark for automatic data product creation. The task is to identify relevant tables and text documents for given data product requests from a corpus of text and tables. The benchmark includes three variants: HybridQA, TAT-QA, and ConvFinQA, each consisting of a corpus of text passages and tables, and a set of data product requests with their corresponding ground-truth tables and text. This benchmark enables systematic evaluation of approaches for discovering tables and text for automatic creation of data products from data lakes with tables and text.
提供机构:
ibm-research



