five

pietrolesci/add_one_rte

收藏
Hugging Face2022-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/add_one_rte
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于一个外部链接,经过清洗和转换后,适用于自然语言推理任务。数据清洗过程包括去除HTML标签、规范化空白字符以及去除多余的空格。`mean_human_score`被转换为分类标签,具体规则根据数据集的分割(测试集和其他分割)有所不同。数据集包含多个字段,如`mean_human_score`、`binary_label`、`sentence_id`、`adjective`、`noun`、`premise`和`hypothesis`,并最终转换为适合机器学习任务的格式。
提供机构:
pietrolesci
原始信息汇总

数据集概述

数据来源

  • 原始数据可从此处获取。

数据清洗与转换

  • 前提(premise)和假设(hypothesis)列的清洗

    • 移除HTML标签 <b>, <u>, </b>, </u>
    • 规范化重复的空白字符。
    • 去除首尾空白。
  • 人类平均评分(mean_human_score)的转换

    • 测试集
      • mean_human_score <= 3 转换为 "not-entailed"。
      • mean_human_score >= 4 转换为 "entailed"。
      • 介于3和4之间的数据被移除。
    • 其他分割
      • mean_human_score < 3.5 转换为 "not-entailed"。
      • 否则转换为 "entailed"。

数据集生成代码

  • 使用Python和pandas库进行数据处理。
  • 数据集分为"dev", "test", "train"三个部分。
  • 通过编码函数convert_labelmean_human_score转换为类别标签。
  • 确保各分割之间没有重叠。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作