ReCo

Name: ReCo
Creator: 复旦大学数据科学重点实验室
Published: 2023-08-27 22:35:43
License: 暂无描述

arXiv2023-08-27 更新2024-06-21 收录

下载链接：

https://www.kaggle.com/fdudsde/reco-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ReCo数据集是复旦大学数据科学重点实验室创建的，旨在支持住宅社区布局规划研究。该数据集包含37,646个住宅社区布局计划，覆盖598,728座住宅建筑，提供高精度的矢量坐标信息。数据集内容丰富，涵盖60个城市的地理和建筑特征，支持多种空间数据格式转换。ReCo数据集的创建过程涉及大规模真实世界住宅数据的收集和长期专家筛选，旨在解决数据驱动方法在住宅社区布局规划中的应用问题。该数据集的应用领域包括生成布局规划、形态模式识别和空间评估，旨在通过数据驱动的方法提高住宅社区布局规划的自动化和效率。

The ReCo dataset was developed by the Key Laboratory of Data Science at Fudan University, with the aim of supporting research on residential community layout planning. It contains 37,646 residential community layout plans, covering 598,728 residential buildings, and provides high-precision vector coordinate information. The dataset has rich content, covering geographical and architectural features of 60 cities, and supports conversion of various spatial data formats. The creation of the ReCo dataset involves the collection of large-scale real-world residential data and long-term expert screening, and is intended to solve the application issues of data-driven methods in residential community layout planning. Its application fields include layout generation planning, morphological pattern recognition and spatial assessment, aiming to improve the automation and efficiency of residential community layout planning via data-driven approaches.

提供机构：

复旦大学数据科学重点实验室

创建时间：

2022-06-09

搜集汇总

数据集介绍

构建方式

在机器阅读理解领域，ReCO数据集的构建体现了对真实世界查询的深度挖掘与精细化处理。该数据集源自搜狗搜索引擎的实际用户查询，通过意图分析系统筛选出可回答为是/否/不确定的有效问题，并过滤不当内容。每个问题对应检索到的十篇文档，由众包工作者从中提取支持性证据片段，形成简洁的上下文段落。随后，标注者基于证据生成抽象的是、否或不确定答案，并通过严格的质量检查流程，确保样本的难度与可靠性，最终形成包含30万条数据的大规模语料库。

特点

ReCO数据集的显著特点在于其聚焦于观点类问题，突破了传统事实型问答的局限。该数据集不仅提供原始文档段落，还额外标注了可直接用于推理的支持性证据，有效避免了无关信息的干扰，迫使模型进行深层次文本理解。问题涵盖健康、科技、社会、生活与文化等多领域，证据来源亦包括垂直网站、论坛讨论等多种文体，呈现出丰富的领域与语言风格多样性。更为关键的是，大量问题需要因果推断、逻辑推理等深层认知技能，为机器阅读理解模型提出了严峻挑战。

使用方法

ReCO数据集主要用于训练和评估机器阅读理解模型，特别适用于研究观点类问题的推理与理解能力。研究者可将问题、证据段落及候选答案作为输入，构建分类模型以预测是、否或不确定三类答案。数据集中提供的证据片段使得模型能够专注于推理过程，而非冗长文档中的答案检索。此外，该数据集也可用于文本蕴含、摘要生成等自然语言处理任务的辅助研究。通过在其上测试如BERT等先进模型，能够有效揭示现有方法在深层推理方面的不足，推动更复杂理解机制的发展。

背景与挑战

背景概述

在自然语言理解领域，机器阅读理解作为衡量模型深层文本理解能力的关键任务，其发展离不开大规模高质量数据集的支撑。ReCO数据集由搜狗公司研究团队于2020年构建，旨在针对中文观点型阅读理解问题提供评测基准。该数据集的核心研究问题聚焦于模型对观点性查询的推理能力，特别是处理需要因果推断、逻辑推理等深层语义理解的yes/no/uncertain类型问题。通过从搜索引擎真实查询中筛选30万条问题，并配合人工标注的支持证据与抽象答案，ReCO不仅填补了中文观点型阅读理解数据的空白，更以其严谨的质量控制机制与高难度推理需求，显著推动了中文自然语言处理技术在复杂语义理解方向的发展。

当前挑战

ReCO数据集所针对的领域挑战在于突破传统事实型问答的局限，要求模型对观点性文本进行深层推理，而非简单实体匹配。具体而言，问题与证据间缺乏表面关联性，模型必须掌握因果推断、省略补全及逻辑演绎等复杂技能，方能准确判断答案。在构建过程中，研究团队面临多重挑战：首先，从海量搜索引擎查询中筛选出符合观点型且可回答yes/no/uncertain的问题，需设计精细的意图分析系统；其次，为避免证据段落包含直接答案而降低推理难度，必须通过规则过滤与人工标注相结合的方式，确保证据片段的自洽性与隐含性；最后，为维持数据的高质量与高难度，实施了严格的多轮人工校验机制，剔除模糊问题与简单样本，这一过程虽导致数据规模缩减，却从根本上保障了数据集的挑战性。

常用场景

经典使用场景

在自然语言理解领域，机器阅读理解作为评估模型深层语义推理能力的关键任务，ReCO数据集以其独特的观点型问答设计，为研究者提供了经典的应用场景。该数据集通过提供经过人工提炼的支持性证据片段，将模型的核心挑战从冗长文档的信息检索转移至对短文本的深度逻辑推理。模型需要依据简洁的证据，判断用户提出的真实世界观点性问题，并给出是、否或不确定的抽象答案，从而精准评估模型在因果推断、逻辑演绎等复杂推理技能上的表现。

衍生相关工作

ReCO数据集的发布，催生了一系列围绕中文观点型阅读理解与深度推理模型的研究工作。研究者们以该数据集为基准，探索了如何将预训练语言模型如BERT适配于多项选择任务，并分析了模型在不同推理技能上的表现差异。相关衍生工作进一步探究了引入外部知识库、结合逻辑推理模块、或利用篇章级表示来提升模型在因果推断与省略理解等深层任务上的性能。这些研究不仅深化了对模型推理机制的理解，也为构建更鲁棒、更具解释性的自然语言理解系统提供了新的技术路径。

数据集最近研究