SemEvalWorkshop/humicroedit
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/SemEvalWorkshop/humicroedit
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是用于SemEval-2020 Task 7的任务数据集,主要涉及评估编辑后的新闻标题的幽默性。数据集包含两个子任务:子任务1要求给定原始标题和编辑后的标题,预测编辑后标题的平均幽默评分;子任务2要求给定原始标题和两个编辑后的标题,预测哪个编辑后的标题更幽默。数据集的语言为英语,数据来源为众包和专家生成,数据规模在10K到100K之间。数据集的结构包括数据实例、数据字段和数据分割,具体信息已在README中详细描述。
该数据集是用于SemEval-2020 Task 7的任务数据集,主要涉及评估编辑后的新闻标题的幽默性。数据集包含两个子任务:子任务1要求给定原始标题和编辑后的标题,预测编辑后标题的平均幽默评分;子任务2要求给定原始标题和两个编辑后的标题,预测哪个编辑后的标题更幽默。数据集的语言为英语,数据来源为众包和专家生成,数据规模在10K到100K之间。数据集的结构包括数据实例、数据字段和数据分割,具体信息已在README中详细描述。
提供机构:
SemEvalWorkshop
原始信息汇总
数据集概述
数据集描述
数据集摘要
该数据集用于SemEval-2020任务7:评估编辑新闻标题的幽默感。
支持的任务和排行榜
- 回归任务:给定原始和编辑后的标题,参与者需要预测编辑后标题的平均幽默值。通常通过实现较低的均方误差来衡量成功。
- 预测两个编辑标题中哪个更幽默:给定原始标题和两个编辑版本,参与者需要预测哪个编辑版本更幽默。通常通过实现较高的准确性来衡量成功。
语言
英语
数据集结构
数据实例
子任务1
给定原始和编辑后的标题,预测编辑后标题的平均幽默值。
json { "id": 1183, "original": "Kushner to visit <Mexico/> following latest trump tirades.", "edit": "therapist", "grades": "33332", "meanGrade": 2.8 }
子任务2
给定原始标题和两个编辑版本,预测哪个编辑版本更幽默。
json { "id": 1183, "original1": "Gene Cernan , Last <Astronaut/> on the Moon , Dies at 82", "edit1": "Dancer", "grades1": "1113", "meanGrade1": 1.2, "original2": "Gene Cernan , Last Astronaut on the Moon , <Dies/> at 82", "edit2": "impregnated", "grades2": "30001", "meanGrade2": 0.8, "label": 1 }
数据字段
子任务1
id:编辑后标题的唯一标识符。original:带有替换词标记的原始标题。edit:替换原始标题中标记词的新词。grades:不同注释者给出的所有评分连接。meanGrade:所有评委评分的平均值。
子任务2
id:编辑后标题的唯一标识符。original1:带有替换词标记的原始标题。edit1:替换original1字段中标记词的新词。grades1:不同注释者为句子1给出的所有评分连接。meanGrade1:句子1所有评委评分的平均值。original2:带有替换词标记的原始标题。edit2:替换original1字段中标记词的新词。grades2:不同注释者为句子2给出的所有评分连接。meanGrade2:句子2所有评委评分的平均值。label:如果句子1比句子2更幽默,则为1;如果句子2比句子1更幽默,则为2;如果两个句子同样幽默,则为0。
数据分割
| 子任务 | 训练集 | 验证集 | 测试集 | Funlines |
|---|---|---|---|---|
| 子任务1:回归 | 9652 | 2419 | 3024 | 8248 |
| 子任务2:更幽默的标题预测 | 9381 | 2355 | 2960 | 1958 |
数据集创建
数据来源
初始数据收集和规范化
通过在网站funlines.co上游戏化收集数据。玩家在0-4的范围内对标题进行评分。玩家的编辑和评分将根据游戏排行榜进行排名。
数据集信息
子任务1
- 特征:
id:字符串类型original:字符串类型edit:字符串类型grades:字符串类型meanGrade:float32类型
- 分割:
train:1058589字节,9652个样本test:332113字节,3024个样本validation:269083字节,2419个样本funlines:942376字节,8248个样本
- 下载大小:1621456字节
- 数据集大小:2602161字节
子任务2
- 特征:
id:字符串类型original1:字符串类型edit1:字符串类型grades1:字符串类型meanGrade1:float32类型original2:字符串类型edit2:字符串类型grades2:字符串类型meanGrade2:float32类型label:类别标签
- 分割:
train:2102667字节,9381个样本test:665087字节,2960个样本validation:535044字节,2355个样本funlines:451416字节,1958个样本
- 下载大小:1621456字节
- 数据集大小:3754214字节
配置名称
subtask-1subtask-2
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



