KUCI

github2024-02-16 更新2024-05-31 收录

下载链接：

https://github.com/ku-nlp/KUCI

下载链接

链接失效反馈

官方服务：

资源简介：

KUCI is a Japanese dataset for training/evaluating the linguistic capability to infer basic contingency (hereafter, commonsense contingency reasoning). This dataset comprises 104k multiple-choice questions that ask basic contingency. It is also characterized by its semi-automatic construction method: automatic extraction of pairs of basic event expressions that have contingent relation from a raw corpus, verification through crowdsourcing, and automatic generation of commonsense contingency reasoning problems from the verified pairs.

KUCI是一款用于训练与评估推断基础条件关系(basic contingency，以下简称常识性条件推理(commonsense contingency reasoning))语言能力的日语数据集。该数据集包含10.4万道围绕基础条件关系设置的多项选择题。其另一大特色为半自动构建流程：首先从原始语料库中自动提取具备条件关联的基础事件表达式对，随后通过众包方式完成验证环节，最终基于验证通过的事件对自动生成常识性条件推理题目。

创建时间：

2024-02-05

原始信息汇总

数据集概述

数据集名称: Kyoto University Commonsense Inference dataset (KUCI)

目的: 用于训练和评估语言模型对基本条件关系（常识性条件推理）的推理能力。

数据集构成: 包含104,000个多选题，每个问题涉及基本的条件关系推理。

构建方法: 采用半自动方法，包括从原始语料库自动提取具有条件关系的基本事件表达对，通过众包进行验证，以及从验证过的对中自动生成推理问题。

数据集示例

text 電池の減りはやはり早いので、 (The battery drains so fast that) a. 実際の半導体製造装置は実現しません (actual semiconductor manufacturing equipment is not realized) b. 今回は期間限定でのお届けになります (it is a limited-time offer this time) c. 原子炉を手動停止する ({I} manually shut down a nuclear reactor) d. 充電用にＵＳＢケーブル買います ({I} buy a USB cable for charging) ※ {} denotes a dropped pronoun.

任务: 选择最合适的选项作为给定上下文的延续。示例中正确答案为 d。

数据集统计

类型	数量
训练集	83,127
开发集	10,228
测试集	10,291

额外资源: 提供862,000个伪问题。

数据格式

格式: JSON Lines

字段:

id: 问题唯一编号
context: 上下文
choice_{a, b, c, d}: 选项
label: 正确答案标签
agreement: 众包工人对条件关系的一致性投票数
core_event_pair: 构成问题的核心事件对

许可证

许可证: Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)

搜集汇总

数据集介绍

构建方式

KUCI数据集的构建采用了半自动化的方法，首先从原始语料库中自动提取具有因果关系的基事件表达对，随后通过众包平台进行验证，最终从已验证的对中自动生成常识推理问题。这一过程确保了数据的多样性和准确性，同时通过人工验证提升了数据的可靠性。

特点

KUCI数据集包含104,000个多项选择题，专注于日语常识推理能力的训练与评估。其独特之处在于问题的设计，每个问题都基于一个上下文，要求选择最合适的选项作为延续。数据集还提供了862,000个伪问题，进一步扩展了其应用范围。此外，数据格式采用JSON Lines，便于数据处理与分析。

使用方法

使用KUCI数据集时，用户可以通过JSON Lines格式加载数据，每个条目包含上下文、四个选项、正确答案标签以及核心事件对等信息。数据集适用于训练和评估自然语言处理模型，特别是常识推理任务。用户还可以访问伪问题集，以增强模型的泛化能力。数据集的许可证为CC BY-SA 4.0，允许用户自由使用和共享，但需注明来源。

背景与挑战

背景概述

KUCI（Kyoto University Commonsense Inference dataset）是由京都大学的研究团队于2020年推出的一个日语常识推理数据集，旨在评估和训练语言模型在基本事件之间的因果关系推理能力。该数据集由104,000个多项选择题组成，涵盖了日常生活中的基本事件关系。其构建方法采用了半自动化的流程，包括从原始语料库中自动提取具有因果关系的核心事件对，通过众包验证，并自动生成常识推理问题。这一数据集在自然语言处理领域，特别是常识推理任务中，具有重要的研究价值，为日语语言模型的训练和评估提供了丰富的资源。

当前挑战

KUCI数据集在构建和应用过程中面临多重挑战。首先，常识推理任务本身具有高度的复杂性和模糊性，尤其是在日语语境下，事件之间的因果关系往往依赖于文化背景和语言习惯，这对模型的推理能力提出了更高的要求。其次，数据集的构建依赖于半自动化方法，虽然提高了效率，但在自动提取核心事件对和生成问题时，如何确保数据的准确性和多样性成为一大难题。此外，众包验证虽然能够提高数据的可靠性，但如何有效管理和整合众包结果，避免主观偏差，也是构建过程中需要克服的挑战。最后，如何将这一数据集应用于实际任务，如机器翻译和对话系统，仍需进一步探索和优化。

常用场景

经典使用场景

KUCI数据集在自然语言处理领域中被广泛用于训练和评估模型的基本常识推理能力。通过提供大量多选问题，该数据集能够帮助研究者测试模型在理解上下文和选择最合适答案方面的表现。其半自动构建方法确保了数据的多样性和准确性，使得模型能够在复杂的语言环境中进行有效的推理。

实际应用

在实际应用中，KUCI数据集被用于开发智能助手和聊天机器人，使其能够更好地理解和回应用户的日常语言。通过训练模型识别和推理基本事件之间的因果关系，这些应用能够提供更加自然和准确的交互体验，从而提升用户满意度。

衍生相关工作

KUCI数据集衍生了一系列相关研究，包括基于伪数据的常识推理改进方法和相关任务的扩展应用。这些研究不仅进一步验证了数据集的有效性，还推动了常识推理技术在更广泛领域的应用，如自动问答系统和文本生成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集