five

KUCI|自然语言处理数据集|常识推理数据集

收藏
github2024-02-16 更新2024-05-31 收录
自然语言处理
常识推理
下载链接:
https://github.com/ku-nlp/KUCI
下载链接
链接失效反馈
资源简介:
KUCI is a Japanese dataset for training/evaluating the linguistic capability to infer basic contingency (hereafter, commonsense contingency reasoning). This dataset comprises 104k multiple-choice questions that ask basic contingency. It is also characterized by its semi-automatic construction method: automatic extraction of pairs of basic event expressions that have contingent relation from a raw corpus, verification through crowdsourcing, and automatic generation of commonsense contingency reasoning problems from the verified pairs.
创建时间:
2024-02-05
原始信息汇总

数据集概述

数据集名称: Kyoto University Commonsense Inference dataset (KUCI)

目的: 用于训练和评估语言模型对基本条件关系(常识性条件推理)的推理能力。

数据集构成: 包含104,000个多选题,每个问题涉及基本的条件关系推理。

构建方法: 采用半自动方法,包括从原始语料库自动提取具有条件关系的基本事件表达对,通过众包进行验证,以及从验证过的对中自动生成推理问题。

数据集示例

text 電池の減りはやはり早いので、 (The battery drains so fast that) a. 実際の半導体製造装置は実現しません (actual semiconductor manufacturing equipment is not realized) b. 今回は期間限定でのお届けになります (it is a limited-time offer this time) c. 原子炉を手動停止する ({I} manually shut down a nuclear reactor) d. 充電用にUSBケーブル買います ({I} buy a USB cable for charging) ※ {} denotes a dropped pronoun.

任务: 选择最合适的选项作为给定上下文的延续。示例中正确答案为 d

数据集统计

类型 数量
训练集 83,127
开发集 10,228
测试集 10,291

额外资源: 提供862,000个伪问题。

数据格式

格式: JSON Lines

字段:

  • id: 问题唯一编号
  • context: 上下文
  • choice_{a, b, c, d}: 选项
  • label: 正确答案标签
  • agreement: 众包工人对条件关系的一致性投票数
  • core_event_pair: 构成问题的核心事件对

许可证

许可证: Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)

AI搜集汇总
数据集介绍
main_image_url
构建方式
KUCI数据集的构建采用了半自动化的方法,首先从原始语料库中自动提取具有因果关系的基事件表达对,随后通过众包平台进行验证,最终从已验证的对中自动生成常识推理问题。这一过程确保了数据的多样性和准确性,同时通过人工验证提升了数据的可靠性。
特点
KUCI数据集包含104,000个多项选择题,专注于日语常识推理能力的训练与评估。其独特之处在于问题的设计,每个问题都基于一个上下文,要求选择最合适的选项作为延续。数据集还提供了862,000个伪问题,进一步扩展了其应用范围。此外,数据格式采用JSON Lines,便于数据处理与分析。
使用方法
使用KUCI数据集时,用户可以通过JSON Lines格式加载数据,每个条目包含上下文、四个选项、正确答案标签以及核心事件对等信息。数据集适用于训练和评估自然语言处理模型,特别是常识推理任务。用户还可以访问伪问题集,以增强模型的泛化能力。数据集的许可证为CC BY-SA 4.0,允许用户自由使用和共享,但需注明来源。
背景与挑战
背景概述
KUCI(Kyoto University Commonsense Inference dataset)是由京都大学的研究团队于2020年推出的一个日语常识推理数据集,旨在评估和训练语言模型在基本事件之间的因果关系推理能力。该数据集由104,000个多项选择题组成,涵盖了日常生活中的基本事件关系。其构建方法采用了半自动化的流程,包括从原始语料库中自动提取具有因果关系的核心事件对,通过众包验证,并自动生成常识推理问题。这一数据集在自然语言处理领域,特别是常识推理任务中,具有重要的研究价值,为日语语言模型的训练和评估提供了丰富的资源。
当前挑战
KUCI数据集在构建和应用过程中面临多重挑战。首先,常识推理任务本身具有高度的复杂性和模糊性,尤其是在日语语境下,事件之间的因果关系往往依赖于文化背景和语言习惯,这对模型的推理能力提出了更高的要求。其次,数据集的构建依赖于半自动化方法,虽然提高了效率,但在自动提取核心事件对和生成问题时,如何确保数据的准确性和多样性成为一大难题。此外,众包验证虽然能够提高数据的可靠性,但如何有效管理和整合众包结果,避免主观偏差,也是构建过程中需要克服的挑战。最后,如何将这一数据集应用于实际任务,如机器翻译和对话系统,仍需进一步探索和优化。
常用场景
经典使用场景
KUCI数据集在自然语言处理领域中被广泛用于训练和评估模型的基本常识推理能力。通过提供大量多选问题,该数据集能够帮助研究者测试模型在理解上下文和选择最合适答案方面的表现。其半自动构建方法确保了数据的多样性和准确性,使得模型能够在复杂的语言环境中进行有效的推理。
实际应用
在实际应用中,KUCI数据集被用于开发智能助手和聊天机器人,使其能够更好地理解和回应用户的日常语言。通过训练模型识别和推理基本事件之间的因果关系,这些应用能够提供更加自然和准确的交互体验,从而提升用户满意度。
衍生相关工作
KUCI数据集衍生了一系列相关研究,包括基于伪数据的常识推理改进方法和相关任务的扩展应用。这些研究不仅进一步验证了数据集的有效性,还推动了常识推理技术在更广泛领域的应用,如自动问答系统和文本生成。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Global Firepower Index (GFI)

Global Firepower Index (GFI) 是一个评估全球各国军事力量的综合指数。该指数考虑了超过50个因素,包括军事预算、人口、陆地面积、海军力量、空军力量、自然资源、后勤能力、地理位置等。数据集提供了每个国家的详细评分和排名,帮助分析和比较各国的军事实力。

www.globalfirepower.com 收录

GlobalBuildingAtlas

GlobalBuildingAtlas是一个公开的全球建筑数据集,提供了全球范围内的建筑多边形、高度和LoD1 3D模型。该数据集是第一个提供高质量的、一致的、完整的建筑数据,以2D和3D形式在单个建筑层面上进行全球覆盖的公开数据集。数据集包括2.75亿座建筑,比目前最全面的数据库多出超过10亿座建筑。GBA.Height提供了迄今为止最详细和最准确的全球3D建筑高度图,实现了3×3米的空间分辨率,比以前的全球产品(90米)精细30倍,能够在本地和全球范围内对建筑体积进行高分辨率和可靠的分析。GBA.LoD1代表了第一个完整的全球LoD1建筑模型,包括2.68亿个建筑实例,具有预测的高度,即高度完整性超过97%,在不同大陆上实现了从1.5米到8.9米的RMSEs。GlobalBuildingAtlas以其高度精度、全面的全球覆盖和丰富的空间细节,为全球建筑现状提供了新的见解,开辟了前所未有的地理空间分析可能性,例如更好地说明人们居住在哪里,以及更全面地监测联合国第11个可持续发展目标的进展。

arXiv 收录

ai-hub2

本项目所使用的数据集名为“ai-hub2”,其主要目的是为改进YOLOv11的工地工程车辆装置检测系统提供高质量的训练数据。该数据集包含五个类别,分别是:钻孔机(boring_machine)、混凝土车(concrete_truck)、起重机(crane)、自卸车(dump_truck)和挖掘机(excavator)。这些类别涵盖了工地上常见的重型机械设备,能够有效支持车辆检测系统在复杂环境中的应用。

github 收录

中国1km分辨率年降水量数据(1901-2023年)

中国1km分辨率年降水量数据(1901-2023年)根据西北农林科技大学彭守璋研究员团队研制的1901-2023年中国1km分辨率逐月降水量数据集进行年度累加合成后除以10进行单位换算后得到。数据包含多个TIF文件,每个TIF文件为对应年份的年累加降水量,降水量单位为mm。彭守璋研究员在《Earth System Science Data》以论文形式发布了1 km monthly temperature and precipitation dataset for China from 1901 to 2017数据。论文链接https://doi.org/10.5194/essd-11-1931-2019。

国家地球系统科学数据中心 收录

ACDC(Automated Cardiac Diagnosis Challenge)

自动心脏诊断挑战 (ACDC) 挑战的目标是:比较自动方法在将左心室心内膜和心外膜分割为舒张末期和收缩末期实例的右心室心内膜方面的性能;比较自动方法对五类检查(正常病例、心力衰竭伴梗死、扩张型心肌病、肥厚型心肌病、右心室异常)的分类性能。整个 ACDC 数据集是根据在第戎大学医院获得的真实临床检查创建的。获得的数据完全匿名,并根据第戎医院(法国)当地伦理委员会制定的规定进行处理。我们的数据集涵盖了几个定义明确的病理学,并有足够的案例来 (1) 正确训练机器学习方法和 (2) 清楚地评估从电影 MRI 获得的主要生理参数的变化(特别是舒张期容积和射血分数)。该数据集由 150 个检查(全部来自不同的患者)组成,分为 5 个均匀分布的亚组(4 个病理组和 1 个健康受试者组),如下所述。此外,每位患者都附带以下附加信息:体重、身高以及舒张期和收缩期瞬间。该数据库在个人注册后通过专用在线评估网站的两个数据集提供给参与者:i) 100 名患者的培训数据集以及基于一位临床专家分析的相应手册参考; ii) 由 50 名新患者组成的测试数据集,没有手动注释,但有上面给出的患者信息。原始输入图像通过 Nifti 格式提供。

OpenDataLab 收录