five

RETQA

收藏
github2024-12-16 更新2024-12-17 收录
下载链接:
https://github.com/jensenw1/RETQA
下载链接
链接失效反馈
官方服务:
资源简介:
RETQA是首个专注于房地产领域的大规模开放域中文表格问答数据集。它包含4,932个表格和20,762个问答对,涵盖三个主要领域的16个子领域:物业信息、房地产公司财务信息和土地拍卖信息。该数据集由于其长表格结构、开放域检索需求和多领域查询,为表格问答带来了独特的挑战。

RETQA is the first large-scale open-domain Chinese table question answering dataset focused on the real estate domain. It contains 4,932 tables and 20,762 question-answer pairs, covering 16 sub-domains across three major categories: property information, real estate company financial information, and land auction information. Owing to its long table structure, open-domain retrieval requirements and multi-domain queries, this dataset poses unique challenges for table question answering tasks.
创建时间:
2024-12-12
原始信息汇总

RETQA: 大规模开放领域房地产表格问答数据集

数据集概述

RETQA 是首个大规模开放领域中文表格问答(TQA)数据集,专注于房地产领域。该数据集包含 4,932 个表格和 20,762 个问答对,涵盖三个主要领域中的 16 个子领域:房产信息、房地产公司财务信息和土地拍卖信息。

数据集特点

  • 长表格结构:数据集中的表格具有长表格结构,增加了问答的复杂性。
  • 开放领域检索需求:数据集要求开放领域的检索能力。
  • 多领域查询:数据集涉及多个领域的查询,增加了问答的难度。

数据集内容

  • 表格数量:4,932 个表格
  • 问答对数量:20,762 个问答对
  • 领域:房产信息、房地产公司财务信息、土地拍卖信息
  • 子领域:16 个子领域

数据集挑战

  • 长表格结构:数据集中的表格具有长表格结构,增加了问答的复杂性。
  • 开放领域检索需求:数据集要求开放领域的检索能力。
  • 多领域查询:数据集涉及多个领域的查询,增加了问答的难度。

数据集贡献

  • 推动研究:旨在推动房地产领域表格问答研究。
  • 解决关键挑战:解决开放领域和长表格问答的关键挑战。

数据集支持

  • 数据来源:数据集的房地产数据由 Elmleaf Ltd.(Shanghai) 提供。

引用

如果该数据集对您的研究有用,请考虑引用以下内容:

@inproceedings{ aaai2025retqa, title={{RETQA}: A Large-Scale Open-Domain Tabular Question Answering Dataset for Real Estate Sector}, author={Zhensheng Wang and Wenmian Yang and Kun Zhou and Yiquan Zhang and Weijia Jia}, booktitle={The 39th Annual AAAI Conference on Artificial Intelligence}, year={2024}, url={https://arxiv.org/abs/2412.10104} }

搜集汇总
数据集介绍
main_image_url
构建方式
RETQA数据集的构建聚焦于房地产领域,涵盖了4,932个表格和20,762个问答对,分布在16个子领域中,涉及房产信息、房地产公司财务信息和土地拍卖信息三大主要领域。该数据集通过整合多源数据,构建了具有长表格结构和开放域检索需求的问答对,旨在模拟真实场景中的复杂查询需求。
特点
RETQA数据集的显著特点在于其大规模、开放域和多领域的特性。其长表格结构和多领域查询需求为表格问答任务带来了独特的挑战,同时,该数据集结合了大规模语言模型与口语理解任务,提升了检索与回答的准确性,为研究者提供了丰富的实验资源。
使用方法
RETQA数据集以JSON格式提供,研究者可直接下载并用于表格问答任务的研究与模型训练。数据集的详细使用说明及模型训练与评估的指导将在后续更新中提供,旨在帮助研究者更好地理解和利用该数据集,推动房地产领域表格问答技术的发展。
背景与挑战
背景概述
RETQA数据集是首个针对房地产领域的大规模开放域中文表格问答(TQA)数据集,由Zhensheng Wang等研究人员在2024年提出,并已被AAAI-2025会议接受。该数据集涵盖了4,932个表格和20,762个问答对,分布在房地产领域的16个子领域中,包括房产信息、房地产公司财务信息和土地拍卖信息。RETQA的创建旨在推动表格问答技术在房地产领域的应用,通过提供多领域、长表格结构的数据,为研究者提供了一个独特的实验平台。
当前挑战
RETQA数据集面临的主要挑战包括处理长表格结构、开放域检索需求以及多领域查询。这些挑战要求模型具备高效的表格数据解析能力、跨领域的知识整合能力以及对复杂查询的准确响应。此外,数据集的构建过程中还涉及到数据获取、清洗和标注的复杂性,特别是在处理来自不同领域的异构数据时。这些挑战为研究者提供了丰富的研究方向,以提升表格问答系统在实际应用中的性能。
常用场景
经典使用场景
RETQA数据集在房地产领域的表格问答任务中展现了其经典应用场景。该数据集通过提供大规模的中文表格数据和相应的问题答案对,支持了开放域的表格问答研究。研究者可以利用RETQA进行模型训练和评估,特别是在处理长表格结构、多领域查询和开放域检索等复杂场景中,RETQA为提升问答系统的准确性和鲁棒性提供了宝贵的资源。
解决学术问题
RETQA数据集有效解决了房地产领域中表格问答的学术研究难题。其大规模的表格数据和多样化的问答对,为研究者提供了丰富的实验材料,有助于深入探索长表格结构的处理、开放域检索技术以及多领域查询的整合。通过引入SLUTQA框架,RETQA不仅提升了问答系统的性能,还为相关领域的研究提供了新的思路和方法,推动了表格问答技术的发展。
衍生相关工作
RETQA数据集的发布催生了一系列相关研究工作。基于该数据集,研究者们开发了多种表格问答模型,如SLUTQA框架,这些模型在处理复杂表格结构和多领域查询方面表现出色。此外,RETQA还激发了对开放域问答技术的深入研究,推动了大规模语言模型在表格问答任务中的应用。这些衍生工作不仅丰富了表格问答的研究内容,也为实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作