five

FineCat-NLI

收藏
Hugging Face2025-10-22 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/dleemiller/FineCat-NLI
下载链接
链接失效反馈
官方服务:
资源简介:
FineCatNLI是一个自然语言推理(NLI)数据集,旨在解决SNLI和MNLI数据集中存在的大量简单样本问题。该数据集通过合并7个数据集并使用ModernBERT-large模型进行训练测试,然后通过深度学习模型筛选,以提高数据集的质量。数据集包含三个分割:训练集、验证集和测试集,并提供了详细的标签格式和示例。数据集的主要特征包括前提、假设、标签、来源和令牌计数等。
创建时间:
2025-10-20
原始信息汇总

FineCat-NLI 数据集概述

基本信息

  • 数据集名称: FineCatNLI
  • 许可证: CC-BY-NC-4.0
  • 语言: 英语
  • 多语言性: 单语言
  • 规模: 1M-10M样本
  • 任务类别: 特征提取、句子相似度
  • 标签: sentence-transformers

数据集规模

  • 总样本数: 约1.1M
  • 训练集: 994,067个样本
  • 验证集: 10,000个样本
  • 测试集: 35,600个样本

数据特征

配置结构

  • 默认配置: 包含训练集、测试集、验证集分割
  • 法官配置: 包含筛选结果

字段定义

  • premise (字符串): 前提文本
  • hypothesis (字符串): 假设文本
  • label (int64): 分类标签(0,1,2)
  • source (字符串): 原始数据集标识符
  • token_count (int64): 词元计数
  • hash (字符串): 哈希值

标签映射

  • 0 = 蕴含 - 假设从前提逻辑推导得出
  • 1 = 中立 - 假设可能从前提推导得出也可能不
  • 2 = 矛盾 - 假设与前提矛盾

数据来源

数据集整合了7个NLI数据集:

  1. NLI-FEVER - 事实提取和验证的NLI版本
  2. ANLI - 对抗性自然语言推理数据集(包含R1,R2,R3轮次)
  3. SNLI - 斯坦福自然语言推理语料库
  4. MNLI - 多自然语言推理(GLUE基准)
  5. LingNLI - 语言学启发的自然语言推理数据集
  6. WANLI - 工作者与AI协作创建的NLI数据集

质量控制

质量筛选维度

  1. 格式良好 - 文本语法连贯且可理解
  2. 相同场景 - 假设与前提描述相同场景/实体
  3. 可判定 - 仅使用文本和常识即可确定蕴含关系
  4. 内部一致 - 无实体不匹配、时空冲突或逻辑错误
  5. 正确标注 - 数据集标签与实际蕴含关系匹配

筛选结果统计

  • 总筛选样本: 128,028个
  • 总体拒绝率: 54.7%
  • 主要问题: 错误标签(52.4%)
  • 其他问题: 非相同场景(5.3%)、不可判定(3.9%)、格式不良(2.9%)、不一致(2.6%)

训练后评分分布

各数据源评分统计显示ANLI数据具有更多挑战性示例,WANLI评分相对较低。质量筛选移除了约70,000个评分低于0.3的样本,主要因标签错误被标记。

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言推理领域,FineCat-NLI数据集通过整合七个权威NLI数据集构建而成,初始汇集了260万条样本。构建过程中采用ModernBERT-large模型进行交叉编码器训练,通过50,000步迭代识别出与整体标签体系兼容性较差的子集并予以剔除。针对传统数据集简单样本过多的问题,该数据集对高置信度样本进行深度降采样,并运用大语言模型对得分低于0.3的样本进行五维质量筛查,涵盖语法规范性、场景一致性、可判定性、内部逻辑一致性和标签准确性等维度,最终形成约110万条高质量样本。
特点
该数据集显著特征在于其严谨的质量控制体系,通过五维评估机制确保样本质量,其中标签错误率占比达52.4%成为主要筛选指标。数据分布呈现矛盾类样本集中于高难度区间的特点,反映了自然语言推理中否定与反义表达的复杂性。各源数据集经过标准化标签映射处理,包含前提-假设文本对与三类标准标签,且训练集、验证集和测试集分别包含99.4万、1万和3.56万条样本,规模配置科学合理。
使用方法
使用者可通过HuggingFace平台直接加载该数据集,其标准化的数据格式包含premise、hypothesis、label和source四个核心字段。该数据集特别适用于训练具有强泛化能力的自然语言推理模型,尤其适合用于解决传统模型对简单模式过拟合的问题。研究人员可利用其提供的训练-验证-测试分割方案进行模型训练与评估,同时可通过source字段追溯样本来源以进行细粒度分析。
背景与挑战
背景概述
自然语言推理作为自然语言理解的核心任务,旨在通过前提与假设之间的逻辑关系判断文本语义的连贯性。FineCat-NLI数据集于2025年通过整合七个权威NLI数据集构建而成,涵盖SNLI、MNLI等经典语料,其核心目标在于解决传统数据集中简单样本过多导致的模型过拟合问题。该数据集采用现代BERT架构进行交叉编码器训练,通过精细化采样策略筛选具有挑战性的样本,显著提升了模型对复杂语言现象的泛化能力。
当前挑战
自然语言推理领域长期面临样本难度分布不均的挑战,简单模式识别易导致模型泛化能力不足。FineCat-NLI构建过程中需克服多源数据标签体系差异的兼容性问题,通过五维质量评估框架严格筛选样本,其中标签错误率高达52.4%成为主要质量瓶颈。数据融合时需平衡不同来源的语义一致性,尤其针对矛盾类样本的分布偏斜现象,需通过动态采样策略维持标签平衡。
常用场景
经典使用场景
在自然语言推理研究领域,FineCat-NLI数据集通过整合多个权威语料并实施严格的质量筛选机制,为模型训练提供了高难度的语义关系判别任务。该数据集特别适用于评估神经网络在复杂逻辑推理场景下的泛化能力,其精心设计的样本分布有效避免了传统NLI数据集中简单模式过拟合的问题,成为测试模型深层语义理解性能的重要基准。
实际应用
在智能问答系统和事实核查平台中,FineCat-NLI的高质量推理样本能够有效提升语义匹配的准确度。其严谨的标注标准为法律文书分析、医疗诊断辅助等专业领域的文本理解任务提供了可靠支撑,同时通过增强模型的逻辑一致性判断能力,为对话系统和搜索引擎的语义理解模块注入了新的技术活力。
衍生相关工作
基于该数据集构建的现代BERT变体在跨编码器架构中展现出卓越性能,催生了多模态推理模型的创新研究。其质量筛选方法论被后续研究广泛借鉴,推动了如动态难例挖掘、多粒度语义对齐等技术的演进,为构建更稳健的自然语言理解系统奠定了理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作