2030NLP/SpaCE2022

Name: 2030NLP/SpaCE2022
Creator: 2030NLP
Published: 2023-12-28 11:56:21
License: 暂无描述

Hugging Face2023-12-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/2030NLP/SpaCE2022

下载链接

链接失效反馈

官方服务：

资源简介：

--- task_categories: - text-classification - feature-extraction language: - zh tags: - spatial - cognitive pretty_name: SpaCE2022 size_categories: - 10K<n<100K dataset_info: - config_name: task1 features: - name: qid dtype: string - name: context dtype: string - name: judge dtype: int8 splits: - name: train num_bytes: 4018440 num_examples: 10993 - name: validation num_bytes: 599209 num_examples: 1602 download_size: 4932714 dataset_size: 4617649 - config_name: task2 features: - name: qid dtype: string - name: context dtype: string - name: reasons sequence: - name: fragments sequence: - name: role dtype: class_label: names: '0': S '1': P '2': E '3': S1 '4': P1 '5': E1 '6': S2 '7': P2 '8': E2 '9': text1 '10': text2 - name: text dtype: string - name: idxes sequence: int32 - name: type dtype: class_label: names: '0': A '1': B '2': C splits: - name: train num_bytes: 2655240 num_examples: 4966 - name: validation num_bytes: 370883 num_examples: 700 download_size: 3543914 dataset_size: 3026123 --- # Dataset Card for Dataset Name ## Dataset Description - **Homepage:** - **Repository:** - **Paper:** - **Leaderboard:** - **Point of Contact:** ### Dataset Summary This dataset card aims to be a base template for new datasets. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/datasetcard_template.md?plain=1). ### Supported Tasks and Leaderboards [More Information Needed] ### Languages ZH-CN-HANS ## Dataset Structure ### Data Instances [More Information Needed] ### Data Fields [More Information Needed] ### Data Splits [More Information Needed] ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information [More Information Needed] ### Contributions [More Information Needed]

--- 任务类别： - 文本分类（text-classification） - 特征提取（feature-extraction）语言： - 中文（zh）标签： - 空间（spatial） - 认知（cognitive）展示名称：SpaCE2022 样本量区间：10K<n<100K 数据集信息： - 配置名称：task1 特征字段： - 名称：qid，数据类型：字符串（string） - 名称：context，数据类型：字符串（string） - 名称：judge，数据类型：int8 划分集： - 名称：train，字节数：4018440，样本数：10993 - 名称：validation，字节数：599209，样本数：1602 下载大小：4932714，数据集总大小：4617649 - 配置名称：task2 特征字段： - 名称：qid，数据类型：字符串（string） - 名称：context，数据类型：字符串（string） - 名称：reasons，序列类型： - 子字段：fragments，序列类型： - 子字段：role，数据类型：类别标签，类别映射： '0': S '1': P '2': E '3': S1 '4': P1 '5': E1 '6': S2 '7': P2 '8': E2 '9': text1 '10': text2 - 子字段：text，数据类型：字符串（string） - 子字段：idxes，序列类型：int32 - 子字段：type，数据类型：类别标签，类别映射： '0': A '1': B '2': C 划分集： - 名称：train，字节数：2655240，样本数：4966 - 名称：validation，字节数：370883，样本数：700 下载大小：3543914，数据集总大小：3026123 --- # 数据集卡片 ## 数据集名称 ## 数据集描述 - **主页：** - **代码仓库：** - **相关论文：** - **排行榜：** - **联系人：** ### 数据集概述本数据集卡片旨在作为新建数据集的基础模板，其基于[此原始模板](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/datasetcard_template.md?plain=1)生成。 ### 支持的任务与排行榜 [需补充更多信息] ### 语言简体中文（ZH-CN-HANS） ## 数据集结构 ### 数据样例 [需补充更多信息] ### 数据字段 [需补充更多信息] ### 数据划分 [需补充更多信息] ## 数据集创建 ### 构建依据 [需补充更多信息] ### 源数据 #### 初始数据收集与规范化 [需补充更多信息] #### 源语言生成者是谁？ [需补充更多信息] ### 标注 #### 标注流程 [需补充更多信息] #### 标注人员是谁？ [需补充更多信息] ### 个人与敏感信息 [需补充更多信息] ## 数据使用注意事项 ### 数据集的社会影响 [需补充更多信息] ### 偏差讨论 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 附加信息 ### 数据集维护者 [需补充更多信息] ### 许可信息 [需补充更多信息] ### 引用信息 [需补充更多信息] ### 贡献情况 [需补充更多信息]

提供机构：

2030NLP

原始信息汇总

数据集概述

任务类别:
- 文本分类
- 特征提取
语言: 中文
标签:
- 空间
- 认知
美观名称: SpaCE2022
大小类别: 10K<n<100K

数据集详细信息

任务1配置

特征:
- qid: 字符串类型
- context: 字符串类型
- judge: 8位整型
分割:
- train: 10993个样本，4018440字节
- validation: 1602个样本，599209字节
下载大小: 4932714字节
数据集大小: 4617649字节

任务2配置

特征:
- qid: 字符串类型
- context: 字符串类型
- reasons:
  - fragments:
    - role: 分类标签，包括S, P, E, S1, P1, E1, S2, P2, E2, text1, text2
    - text: 字符串类型
    - idxes: 整数序列，32位整型
  - type: 分类标签，包括A, B, C
分割:
- train: 4966个样本，2655240字节
- validation: 700个样本，370883字节
下载大小: 3543914字节
数据集大小: 3026123字节

搜集汇总

数据集介绍

构建方式

在空间认知与自然语言处理交叉领域，SpaCE2022数据集的构建体现了对空间关系理解的系统性探索。该数据集通过精心设计的标注框架，将空间描述文本分解为结构化元素，涵盖主体、客体及环境等角色，并采用多层级标注体系以捕捉复杂空间语义。构建过程中，标注者依据统一准则对中文文本进行细粒度解析，确保数据的一致性与可靠性，为空间认知计算提供了高质量的语料基础。

特点

SpaCE2022数据集以其独特的空间语义标注体系脱颖而出，专注于中文语境下的空间关系解析。数据集包含两个核心任务：一是空间合理性判断，涉及对文本描述的二元分类；二是空间元素分解，将文本中的空间成分按角色与类型进行结构化标注。其标注体系细致区分了多种空间角色与关系类型，支持对空间认知的深层分析，数据规模适中，涵盖训练与验证分割，适用于模型训练与评估。

使用方法

该数据集适用于文本分类与特征提取任务，用户可通过加载指定配置（如task1或task2）访问不同任务的数据。在空间认知研究中，研究者可利用训练集开发模型以判断空间描述的合理性，或解析文本中的空间元素结构；验证集则用于模型性能评估。数据以标准格式组织，支持直接用于机器学习流程，促进空间语言理解模型的开发与比较。

背景与挑战

背景概述

在自然语言处理领域，空间认知理解是评估模型深层推理能力的关键维度。SpaCE2022数据集由2030NLP团队于2022年构建，专注于中文语境下的空间关系与认知推理任务。该数据集旨在探究模型对文本中空间描述的语义解析与逻辑推断能力，其核心研究问题涉及空间关系的细粒度分类与结构化解释。通过提供包含上下文与标注判断的大规模语料，SpaCE2022为空间认知计算研究提供了重要资源，推动了语言模型在复杂场景理解方面的进展，对人工智能在导航、人机交互等应用领域产生了积极影响。

当前挑战

SpaCE2022数据集面临的挑战主要体现在两方面：在领域问题层面，空间认知任务要求模型超越表层语义，精准捕捉文本中隐含的方向、位置与拓扑关系，这对现有自然语言处理技术的泛化与推理能力提出了较高要求；在构建过程中，数据标注涉及多层次的空间角色（如S、P、E等）与关系类型（如A、B、C类）的精细划分，需要标注者具备专业的语言学与认知科学知识，确保标注的一致性与逻辑严谨性成为关键难点。此外，中文空间表达的多样性与语境依赖性进一步增加了数据收集与标准化的复杂度。

常用场景

经典使用场景

在空间认知与自然语言处理交叉领域，SpaCE2022数据集为研究者提供了探索空间关系理解与文本分类的经典平台。该数据集通过任务一中的文本分类与特征提取，支持模型对中文语境下空间描述的逻辑判断进行学习，任务二则进一步解析空间推理的细粒度结构，如角色标注与片段划分，为空间认知计算模型的训练与评估奠定了数据基础。

实际应用

该数据集的实际应用场景广泛涉及智能导航系统、虚拟现实交互以及教育辅助工具等领域。例如，在自动驾驶技术中，模型可借助SpaCE2022学习理解自然语言描述的空间指令，提升人机沟通的准确性；在教育领域，它能够辅助开发空间思维训练系统，帮助学习者通过文本强化空间认知能力，实现理论与实践的有效结合。

衍生相关工作

基于SpaCE2022数据集，学术界衍生了一系列经典研究工作，主要集中在空间关系抽取、认知推理模型构建以及多模态空间理解等方面。这些工作不仅深化了对中文空间语言特性的探索，还催生了新的算法框架，如结合图神经网络的空间语义解析方法，为后续研究提供了重要参考，进一步拓展了认知计算在人工智能中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集