SemEvalWorkshop/humicroedit

Name: SemEvalWorkshop/humicroedit
Creator: SemEvalWorkshop
Published: 2024-01-18 11:05:56
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/SemEvalWorkshop/humicroedit

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于SemEval-2020 Task 7的任务数据集，主要涉及评估编辑后的新闻标题的幽默性。数据集包含两个子任务：子任务1要求给定原始标题和编辑后的标题，预测编辑后标题的平均幽默评分；子任务2要求给定原始标题和两个编辑后的标题，预测哪个编辑后的标题更幽默。数据集的语言为英语，数据来源为众包和专家生成，数据规模在10K到100K之间。数据集的结构包括数据实例、数据字段和数据分割，具体信息已在README中详细描述。

提供机构：

SemEvalWorkshop

原始信息汇总

数据集概述

数据集描述

数据集摘要

该数据集用于SemEval-2020任务7：评估编辑新闻标题的幽默感。

支持的任务和排行榜

回归任务：给定原始和编辑后的标题，参与者需要预测编辑后标题的平均幽默值。通常通过实现较低的均方误差来衡量成功。
预测两个编辑标题中哪个更幽默：给定原始标题和两个编辑版本，参与者需要预测哪个编辑版本更幽默。通常通过实现较高的准确性来衡量成功。

语言

英语

数据集结构

数据实例

子任务1

给定原始和编辑后的标题，预测编辑后标题的平均幽默值。

json { "id": 1183, "original": "Kushner to visit <Mexico/> following latest trump tirades.", "edit": "therapist", "grades": "33332", "meanGrade": 2.8 }

子任务2

给定原始标题和两个编辑版本，预测哪个编辑版本更幽默。

json { "id": 1183, "original1": "Gene Cernan , Last <Astronaut/> on the Moon , Dies at 82", "edit1": "Dancer", "grades1": "1113", "meanGrade1": 1.2, "original2": "Gene Cernan , Last Astronaut on the Moon , <Dies/> at 82", "edit2": "impregnated", "grades2": "30001", "meanGrade2": 0.8, "label": 1 }

数据字段

子任务1

id：编辑后标题的唯一标识符。
original：带有替换词标记的原始标题。
edit：替换原始标题中标记词的新词。
grades：不同注释者给出的所有评分连接。
meanGrade：所有评委评分的平均值。

子任务2

id：编辑后标题的唯一标识符。
original1：带有替换词标记的原始标题。
edit1：替换original1字段中标记词的新词。
grades1：不同注释者为句子1给出的所有评分连接。
meanGrade1：句子1所有评委评分的平均值。
original2：带有替换词标记的原始标题。
edit2：替换original1字段中标记词的新词。
grades2：不同注释者为句子2给出的所有评分连接。
meanGrade2：句子2所有评委评分的平均值。
label：如果句子1比句子2更幽默，则为1；如果句子2比句子1更幽默，则为2；如果两个句子同样幽默，则为0。

数据分割

子任务	训练集	验证集	测试集	Funlines
子任务1：回归	9652	2419	3024	8248
子任务2：更幽默的标题预测	9381	2355	2960	1958

数据集创建

数据来源

初始数据收集和规范化

通过在网站funlines.co上游戏化收集数据。玩家在0-4的范围内对标题进行评分。玩家的编辑和评分将根据游戏排行榜进行排名。

数据集信息

子任务1

特征：
- id：字符串类型
- original：字符串类型
- edit：字符串类型
- grades：字符串类型
- meanGrade：float32类型
分割：
- train：1058589字节，9652个样本
- test：332113字节，3024个样本
- validation：269083字节，2419个样本
- funlines：942376字节，8248个样本
下载大小：1621456字节
数据集大小：2602161字节

子任务2

特征：
- id：字符串类型
- original1：字符串类型
- edit1：字符串类型
- grades1：字符串类型
- meanGrade1：float32类型
- original2：字符串类型
- edit2：字符串类型
- grades2：字符串类型
- meanGrade2：float32类型
- label：类别标签
分割：
- train：2102667字节，9381个样本
- test：665087字节，2960个样本
- validation：535044字节，2355个样本
- funlines：451416字节，1958个样本
下载大小：1621456字节
数据集大小：3754214字节

配置名称

subtask-1
subtask-2

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集