pietrolesci/add_one_rte

Name: pietrolesci/add_one_rte
Creator: pietrolesci
Published: 2022-04-25 08:48:42
License: 暂无描述

Hugging Face2022-04-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pietrolesci/add_one_rte

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于一个外部链接，经过清洗和转换后，适用于自然语言推理任务。数据清洗过程包括去除HTML标签、规范化空白字符以及去除多余的空格。`mean_human_score`被转换为分类标签，具体规则根据数据集的分割（测试集和其他分割）有所不同。数据集包含多个字段，如`mean_human_score`、`binary_label`、`sentence_id`、`adjective`、`noun`、`premise`和`hypothesis`，并最终转换为适合机器学习任务的格式。

提供机构：

pietrolesci

原始信息汇总

数据集概述

数据来源

原始数据可从此处获取。

数据清洗与转换

前提（premise）和假设（hypothesis）列的清洗：
- 移除HTML标签 <b>, <u>, </b>, </u>。
- 规范化重复的空白字符。
- 去除首尾空白。
人类平均评分（mean_human_score）的转换：
- 测试集：
  - mean_human_score <= 3 转换为 "not-entailed"。
  - mean_human_score >= 4 转换为 "entailed"。
  - 介于3和4之间的数据被移除。
- 其他分割：
  - mean_human_score < 3.5 转换为 "not-entailed"。
  - 否则转换为 "entailed"。

数据集生成代码

使用Python和pandas库进行数据处理。
数据集分为"dev", "test", "train"三个部分。
通过编码函数convert_label将mean_human_score转换为类别标签。
确保各分割之间没有重叠。

5,000+

优质数据集

54 个

任务类型

进入经典数据集