CORECODE

Name: CORECODE
Creator: 天津大学智能与计算学部
Published: 2023-12-20 17:06:18
License: 暂无描述

arXiv2023-12-20 更新2024-06-21 收录

下载链接：

https://github.com/danshi777/CORECODE

下载链接

链接失效反馈

官方服务：

资源简介：

CORECODE数据集是由天津大学智能与计算学部和浙江实验室合作创建，旨在评估和提升中文大型语言模型（LLMs）在日常对话中的常识推理能力。该数据集包含19,700个对话，总计76,787条常识知识标注，涵盖实体、事件和社会交互三个维度。通过标准化标注形式“领域: 槽 = 值”，数据集定义了9个领域和37个槽，以捕捉多样的常识知识。CORECODE不仅用于评估LLMs的常识推理能力，还通过一系列对话级别的推理和检测任务，如常识知识填充、生成和冲突短语检测，来推动LLMs在日常对话情境中的应用研究。

The CORECODE dataset was jointly created by the College of Intelligence and Computing, Tianjin University and Zhejiang Laboratory, with the goal of evaluating and enhancing the commonsense reasoning capabilities of Chinese large language models (LLMs) in daily conversations. This dataset contains 19,700 dialogues and a total of 76,787 commonsense knowledge annotations, covering three dimensions: entities, events, and social interactions. Adopting the standardized annotation format "Domain: Slot = Value", the dataset defines 9 domains and 37 slots to capture diverse commonsense knowledge. Apart from being used to evaluate the commonsense reasoning capabilities of LLMs, CORECODE also advances applied research on LLMs in daily conversation scenarios via a series of dialogue-level reasoning and detection tasks, including commonsense knowledge filling, generation, and conflicting phrase detection.

提供机构：

天津大学智能与计算学部

创建时间：

2023-12-20

搜集汇总

数据集介绍

构建方式

CORECODE数据集的构建基于NaturalConv和DuLeMon两个多轮对话数据集，通过自动筛选方法识别富含常识知识的对话。具体而言，首先使用词性标注识别对话中的候选概念，然后通过ConceptNet查询这些概念，获取一跳的常识三元组。筛选标准要求对话中至少有三组常识三元组匹配，确保对话具有丰富的常识推理内容。最终，从19,700个对话中收集了76,787条常识知识标注，涵盖实体、事件和社会互动三个维度，并采用“领域:槽=值”的标准化形式进行标注。

特点

CORECODE数据集的显著特点在于其丰富的常识知识标注，涵盖实体、事件和社会互动三个维度，共定义了9个领域和37个槽。此外，数据集还包含与对话上下文冲突的常识冲突短语，旨在评估模型对常识错误的检测能力。数据集的对话长度较长，平均每条对话包含19.40轮和501.58个词，提供了丰富的上下文信息。

使用方法

CORECODE数据集可用于评估和提升中文大语言模型在常识推理和冲突检测方面的能力。数据集定义了六项基准任务，包括常识知识填充、常识知识生成、常识冲突短语检测、领域识别、槽识别和事件因果推理。这些任务以多选题、文本生成和跨度提取等形式呈现，帮助模型在不同场景下进行常识推理能力的评估和优化。

背景与挑战

背景概述

随着大规模语言模型（LLMs）在现实场景中的广泛应用，常识推理能力成为其智能表现不可或缺的一部分。CORECODE数据集由天津大学智能与计算学院和浙江实验室的研究团队共同开发，旨在评估中文LLMs在对话中的常识推理和冲突检测能力。该数据集通过众包方式，从19,700个对话中手动标注了76,787条常识知识，涵盖实体、事件和社会互动三个维度，并采用“领域:槽=值”的标准化格式进行标注。CORECODE的推出填补了中文对话领域常识推理数据集的空白，为LLMs的常识推理能力评估提供了重要基准。

当前挑战

CORECODE数据集的构建面临多重挑战。首先，常识推理本身是一个复杂的任务，要求模型能够理解并应用隐含的背景知识，这在现有LLMs中仍是一个难题。其次，数据集的构建过程中，如何确保众包标注的一致性和质量是一个关键挑战。此外，CORECODE定义了六个基准任务，包括常识知识填充、冲突短语检测等，这些任务对现有LLMs的性能提出了严峻考验，实验结果表明，即使是表现较好的模型在零样本设置下也难以取得理想成绩。

常用场景

经典使用场景

CORECODE 数据集的经典使用场景主要集中在评估和提升中文大语言模型（LLMs）的常识推理能力。通过该数据集，研究者可以进行一系列对话级别的推理任务，包括常识知识填充、常识知识生成、常识冲突短语检测、领域识别、槽位识别以及事件因果推理。这些任务旨在全面评估模型在处理日常对话中的常识推理能力，尤其是在多轮对话中识别和应用常识知识的能力。

实际应用

CORECODE 数据集在实际应用中具有广泛的应用场景，特别是在智能对话系统、虚拟助手和教育辅导等领域。通过该数据集，开发者可以训练和优化模型，使其在处理用户对话时能够更好地理解和应用常识知识，从而提升用户体验。例如，在智能客服中，模型可以通过识别对话中的常识冲突短语，提供更准确和自然的回复，增强对话的连贯性和智能性。

衍生相关工作

CORECODE 数据集的发布催生了一系列相关的经典工作，特别是在常识推理和对话系统领域。许多研究者基于该数据集开发了新的评估方法和模型优化技术，进一步推动了常识推理任务的发展。例如，一些研究通过微调大语言模型，提升了其在常识知识生成和冲突检测任务中的表现。此外，CORECODE 还启发了对多轮对话中常识推理的深入研究，促进了对话系统在复杂场景下的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集