HiTZ/meta4xnli
收藏Hugging Face2024-12-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/meta4xnli
下载链接
链接失效反馈官方服务:
资源简介:
Meta4XNLI是一个包含英语和西班牙语注释的平行数据集,用于隐喻检测(13320个句子)和隐喻解释任务(9990个前提-假设对)。该数据集是现有NLI数据集的集合,手动标注了隐喻任务。数据集分为检测和解释两个任务,检测任务涉及对每个标记的隐喻注释,解释任务则涉及隐喻出现的句子分割。数据集来源于XNLI和esXNLI数据集,并添加了隐喻注释。
Meta4XNLI是一个包含英语和西班牙语注释的平行数据集,用于隐喻检测(13320个句子)和隐喻解释任务(9990个前提-假设对)。该数据集是现有NLI数据集的集合,手动标注了隐喻任务。数据集分为检测和解释两个任务,检测任务涉及对每个标记的隐喻注释,解释任务则涉及隐喻出现的句子分割。数据集来源于XNLI和esXNLI数据集,并添加了隐喻注释。
提供机构:
HiTZ
原始信息汇总
数据集概述
数据集名称: Meta4XNLI
语言: 英语 (en), 西班牙语 (es)
许可: Apache-2.0
任务类别:
- 令牌分类
- 文本分类
数据集大小: 1K<n<10K
数据集结构:
- 检测任务: 令牌级别的标签。
- 分割: 训练、开发和测试文件用于微调和评估。
- 源数据集: 按原始源数据集分割,以及用于评估的前提和假设。
- 解释任务: 按隐喻发生分割的句子集。非相关情况包括含有隐喻的句子,但其字面解释不是提取推理标签所必需的。
- 分割: 训练、开发和测试文件用于微调和评估。
- 源数据集: 按原始源数据集分割,以及隐喻的存在。
数据集字段
-
检测:
- "id": 示例ID
- "tokens": 文本分割列表
- "tags": 每个令牌的隐喻注释列表
- 0: 字面
- 1: 隐喻
-
解释:
- "language": 西班牙语 (es) 或英语 (en)
- "gold_label": 推理标签: 蕴含、中性或矛盾
- "sentence1": 前提
- "sentence2": 假设
- "promptID": 前提ID
- "pairID": 前提和假设对ID
- "genre": 文本领域
- "source_dataset": 原始数据集: {xnli.dev, xnli.test, esxnli}



