DataBench dataset

github2025-02-08 更新2025-03-01 收录

下载链接：

https://github.com/MD-Junayed000/HybridQA-DataBench-BERT

下载链接

链接失效反馈

官方服务：

资源简介：

DataBench数据集包含了多个领域的结构化表格数据，用于回答问题。

The DataBench dataset contains structured tabular data across multiple domains, tailored for question answering.

创建时间：

2025-02-07

原始信息汇总

DataBench Question Answering System (SemEval 2024 Task 8)

数据集简介

数据集名称

DataBench Question Answering System

竞赛任务

SemEval 2024 Task 8

数据集描述

该数据集是用于SemEval 2024 Task 8的DataBench问题回答系统的一部分，包含多个结构化的数据集，格式为.parquet。这些问题回答系统旨在仅使用提供的结构化数据集来提取答案。

数据集链接

DataBench (SemEval 2024 Task 8)

数据集结构

all.parquet：完整数据集。
sample.parquet：数据集的一个小子集（前20行）。
test_qa.csv：包含问题和相应的数据集标识符。

数据集领域

竞赛包含15个数据集，每个数据集代表不同的领域，如人力资源分析、金融、体育、医疗保健等。

方法论

数据预处理

转换：将all.parquet和sample.parquet转换为结构化的CSV文件。
清洗和归一化：处理缺失值，标准化文本列。
特征工程：提取关键数值和分类统计信息。
文本归一化：应用词干提取、词形还原、删除特殊字符。

问题回答管道

系统处理test_qa.csv中的每个问题，确定适当的提取方法，包括规则基础的问题回答和基于转换器的问题回答。

规则基础的问题回答

布尔问题（是/否）。
数值和统计问题。
分类提取。
列表基础答案。

基于转换器的问题回答

使用deepset/bert-base-cased-squad2模型。
提取相关上下文。
传递给BERT进行答案生成。

输出格式化和提交

答案存储在predictions.txt和predictions_lite.txt中，并压缩为Archive.zip提交。

结果和观察

快速的规则基础处理。
使用NLP处理模糊问题。
使用结构化统计方法的高精度。

未来改进

集成BM25检索。
探索基于T5的生成回答模型。
数据处理的并行化。

鸣谢

感谢SemEval 2024 Task 8组织者提供数据集和定义挑战。

搜集汇总

数据集介绍

构建方式

DataBench数据集是由多个结构化数据集组成的集合，每个数据集均以.parquet格式存储，包含表格型结构数据。构建该数据集的过程中，涉及数据的预处理、基于规则的抽取以及基于变换器模型的问答系统，确保了数据集能够满足问答系统的需求，并在数据的一致性与效率上进行优化。

特点

该数据集的特点在于其结构化数据的多样性，涵盖了HR分析、金融、体育、医疗等多个领域。此外，数据集包含了全量数据集(all.parquet)、样本数据集(sample.parquet)以及测试问答集(test_qa.csv)，方便参赛者进行模型的训练与测试。其独特之处在于结合了规则基础问答和变换器模型，以应对不同类型的问题。

使用方法

使用者可以通过链接访问DataBench数据集，下载相应的数据文件。数据集的使用涉及数据预处理、基于规则的问答管道以及变换器QA模型的运用。预处理包括数据格式转换、清洗、归一化、特征工程和文本规范化。问答管道则融合了规则基础方法和BERT模型，以zero-shot设置运行，确保了对于结构化数据的高效问答。最终，答案的输出格式化为predictions.txt文件，并压缩提交至竞赛平台。

背景与挑战

背景概述

DataBench数据集是针对SemEval 2024任务8——数据集问答系统而构建的。该数据集由多个结构化的表格数据组成，涵盖了人力资源分析、金融、体育、医疗保健等多个领域。该数据集的创建旨在推动结构化数据问答技术的发展，由参与SemEval 2024竞赛的研究团队所开发。该数据集不仅包含了完整的数据集文件(all.parquet)，还包含了用于测试和样本的子集(sample.parquet)。它的构建时间为SemEval 2024竞赛期间，主要研究人员或机构不详，但该数据集的创建对推动相关领域的技术进步具有重要意义。

当前挑战

DataBench数据集在构建和应用过程中面临的挑战主要包括：如何准确高效地从结构化数据中提取答案，尤其是在处理逻辑判断、数值统计和分类查询时。此外，数据预处理、清洗和标准化过程中，如何处理缺失值和异常值也是一个挑战。在模型构建方面，混合使用基于规则的方法和预训练的变换器模型虽然提高了回答的准确性和效率，但如何进一步优化模型，如集成BM25检索、探索基于T5的生成回答模型以及并行化数据处理，是未来需要解决的挑战。

常用场景

经典使用场景

DataBench数据集被广泛运用于SemEval 2024 Task 8竞赛中，其经典使用场景在于构建一个问答系统，系统能够准确从结构化数据集中提取答案，应对不同类型的问题，如布尔型、数值型和分类查询等。该数据集通过提供结构化的表格数据，为参与者提供了一个标准的平台，以评估和比较其问答系统的性能。

实际应用

在现实应用中，DataBench数据集可以应用于多个领域，如人力资源分析、金融、体育、医疗保健等，其问答系统可被用于自动化报告生成、数据洞察提取和决策支持系统，从而提升行业的数据利用效率和决策质量。

衍生相关工作

基于DataBench数据集的研究已经衍生出一系列相关工作，包括但不限于改进数据预处理方法、开发新的规则提取算法、以及探索更先进的NLP模型以提升问答系统的性能。这些相关工作进一步推动了结构化数据问答领域的技术进步和学术讨论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集