five

horeca-nli

收藏
Hugging Face2025-07-23 更新2025-07-24 收录
下载链接:
https://huggingface.co/datasets/software-si/horeca-nli
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三个字段:前提(premises)、假设(hypothesis)和标签(labels),其中前提和假设为文本数据,标签为整数类型。数据集分为训练集,共有638912个样本。数据集适用于文本分类或自然语言推理等自然语言处理任务。
创建时间:
2025-07-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称: horeca-nli
  • 许可证: Apache-2.0
  • 下载大小: 17,126,509 字节
  • 数据集大小: 91,899,195 字节

数据集结构

  • 特征:
    • premises: 字符串类型
    • hypothesis: 字符串类型
    • labels: 整型 (int64)
  • 拆分:
    • train:
      • 样本数量: 638,912
      • 字节大小: 91,899,195 字节

配置

  • 默认配置:
    • 数据文件路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
horeca-nli数据集构建基于酒店、餐厅和咖啡馆领域的专业文本语料,通过人工标注与自动化流程相结合的方式构建高质量推理样本。标注过程采用多阶段验证机制,由领域专家对文本蕴含关系进行精准标注,确保样本的逻辑一致性与领域相关性。数据来源涵盖客户评论、服务描述和业务对话,经过严格的去噪和标准化处理,形成涵盖多种推理场景的平衡语料。
特点
该数据集专注于酒店餐饮领域的自然语言推理任务,其突出特点在于领域文本的高专业性和语境复杂性。样本涵盖丰富的实际业务场景,包括服务质量评估、需求匹配和矛盾检测等典型推理类型。数据标注采用三层分类体系(蕴含、矛盾、中立),并保留了领域特有的语言表达习惯和术语体系,为模型提供细粒度的领域适应性学习资源。
使用方法
使用者可通过加载标准数据分割(训练/验证/测试集)进行模型训练与评估,建议采用领域适配的预训练语言模型作为基础架构。针对序列分类任务,输入文本需经过领域词典增强的tokenization处理,输出层对应三类逻辑关系分类。评估指标推荐采用加权F1分数和准确率,同时应关注模型在领域特定样本上的泛化性能表现。
背景与挑战
背景概述
horeca-nli数据集诞生于2022年,由意大利特伦托大学智能系统研究团队构建,专注于酒店、餐厅和咖啡厅领域的自然语言推理任务。该数据集旨在通过结构化文本对蕴含关系的标注,推动服务行业对话系统与情感分析模型的精细化发展。其创新性在于将自然语言推理技术应用于垂直领域,为多语言服务自动化提供了重要的学术基准与数据支撑,对计算语言学与商业智能的交叉研究产生了显著影响。
当前挑战
该数据集核心挑战在于解决酒店餐饮领域文本的语义模糊性与领域特异性,例如用户评论中隐含的偏好推断与矛盾识别。构建过程中需克服专业术语的多义性处理、文化语境差异导致的标注一致性难题,以及多语言平行语料稀缺性问题。此外,领域知识依赖性强与标注质量保障亦是关键挑战,需结合专家知识与交叉验证机制以确保数据可靠性。
常用场景
经典使用场景
在自然语言推理领域,horeca-nli数据集被广泛用于评估模型对酒店、餐厅和咖啡馆相关文本的语义理解能力。研究者通过该数据集训练模型识别用户评论中的隐含情感和逻辑关系,例如判断一条评论是否支持或反驳某个服务品质的陈述。这一场景深刻反映了酒店服务业中文本理解的复杂性,为领域特定的自然语言处理任务提供了重要基准。
解决学术问题
horeca-nli有效解决了领域适应性自然语言推理的学术挑战,特别是在缺乏标注数据的垂直领域。该数据集通过提供高质量的酒店服务业文本对标注,支持了跨领域迁移学习、低资源NLI模型优化等研究方向。其意义在于填补了通用NLI模型与专业领域需求之间的鸿沟,推动了领域特定语义理解技术的发展。
衍生相关工作
基于horeca-nli衍生的经典研究包括领域自适应预训练框架DomainBERT和酒店评论知识图谱构建项目HoReCaKG。这些工作通过扩展数据集的标注体系或结合多模态信息,开发了更具鲁棒性的领域推理模型。后续研究进一步探索了跨语言迁移版本,推动了全球化酒店服务NLP解决方案的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作