five

HiTZ/meta4xnli

收藏
Hugging Face2024-12-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/meta4xnli
下载链接
链接失效反馈
官方服务:
资源简介:
Meta4XNLI是一个包含英语和西班牙语注释的平行数据集,用于隐喻检测(13320个句子)和隐喻解释任务(9990个前提-假设对)。该数据集是现有NLI数据集的集合,手动标注了隐喻任务。数据集分为检测和解释两个任务,检测任务涉及对每个标记的隐喻注释,解释任务则涉及隐喻出现的句子分割。数据集来源于XNLI和esXNLI数据集,并添加了隐喻注释。

Meta4XNLI是一个包含英语和西班牙语注释的平行数据集,用于隐喻检测(13320个句子)和隐喻解释任务(9990个前提-假设对)。该数据集是现有NLI数据集的集合,手动标注了隐喻任务。数据集分为检测和解释两个任务,检测任务涉及对每个标记的隐喻注释,解释任务则涉及隐喻出现的句子分割。数据集来源于XNLI和esXNLI数据集,并添加了隐喻注释。
提供机构:
HiTZ
原始信息汇总

数据集概述

数据集名称: Meta4XNLI

语言: 英语 (en), 西班牙语 (es)

许可: Apache-2.0

任务类别:

  • 令牌分类
  • 文本分类

数据集大小: 1K<n<10K

数据集结构:

  • 检测任务: 令牌级别的标签。
    • 分割: 训练、开发和测试文件用于微调和评估。
    • 源数据集: 按原始源数据集分割,以及用于评估的前提和假设。
  • 解释任务: 按隐喻发生分割的句子集。非相关情况包括含有隐喻的句子,但其字面解释不是提取推理标签所必需的。
    • 分割: 训练、开发和测试文件用于微调和评估。
    • 源数据集: 按原始源数据集分割,以及隐喻的存在。

数据集字段

  • 检测:

    • "id": 示例ID
    • "tokens": 文本分割列表
    • "tags": 每个令牌的隐喻注释列表
      • 0: 字面
      • 1: 隐喻
  • 解释:

    • "language": 西班牙语 (es) 或英语 (en)
    • "gold_label": 推理标签: 蕴含、中性或矛盾
    • "sentence1": 前提
    • "sentence2": 假设
    • "promptID": 前提ID
    • "pairID": 前提和假设对ID
    • "genre": 文本领域
    • "source_dataset": 原始数据集: {xnli.dev, xnli.test, esxnli}
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作