pietrolesci/add_one_rte
收藏Hugging Face2022-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/add_one_rte
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于一个外部链接,经过清洗和转换后,适用于自然语言推理任务。数据清洗过程包括去除HTML标签、规范化空白字符以及去除多余的空格。`mean_human_score`被转换为分类标签,具体规则根据数据集的分割(测试集和其他分割)有所不同。数据集包含多个字段,如`mean_human_score`、`binary_label`、`sentence_id`、`adjective`、`noun`、`premise`和`hypothesis`,并最终转换为适合机器学习任务的格式。
提供机构:
pietrolesci
原始信息汇总
数据集概述
数据来源
- 原始数据可从此处获取。
数据清洗与转换
-
前提(premise)和假设(hypothesis)列的清洗:
- 移除HTML标签
<b>,<u>,</b>,</u>。 - 规范化重复的空白字符。
- 去除首尾空白。
- 移除HTML标签
-
人类平均评分(mean_human_score)的转换:
- 测试集:
mean_human_score <= 3转换为 "not-entailed"。mean_human_score >= 4转换为 "entailed"。- 介于3和4之间的数据被移除。
- 其他分割:
mean_human_score < 3.5转换为 "not-entailed"。- 否则转换为 "entailed"。
- 测试集:
数据集生成代码
- 使用Python和pandas库进行数据处理。
- 数据集分为"dev", "test", "train"三个部分。
- 通过编码函数
convert_label将mean_human_score转换为类别标签。 - 确保各分割之间没有重叠。



