five

SemEvalWorkshop/humicroedit

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/SemEvalWorkshop/humicroedit
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是用于SemEval-2020 Task 7的任务数据集,主要涉及评估编辑后的新闻标题的幽默性。数据集包含两个子任务:子任务1要求给定原始标题和编辑后的标题,预测编辑后标题的平均幽默评分;子任务2要求给定原始标题和两个编辑后的标题,预测哪个编辑后的标题更幽默。数据集的语言为英语,数据来源为众包和专家生成,数据规模在10K到100K之间。数据集的结构包括数据实例、数据字段和数据分割,具体信息已在README中详细描述。

该数据集是用于SemEval-2020 Task 7的任务数据集,主要涉及评估编辑后的新闻标题的幽默性。数据集包含两个子任务:子任务1要求给定原始标题和编辑后的标题,预测编辑后标题的平均幽默评分;子任务2要求给定原始标题和两个编辑后的标题,预测哪个编辑后的标题更幽默。数据集的语言为英语,数据来源为众包和专家生成,数据规模在10K到100K之间。数据集的结构包括数据实例、数据字段和数据分割,具体信息已在README中详细描述。
提供机构:
SemEvalWorkshop
原始信息汇总

数据集概述

数据集描述

数据集摘要

该数据集用于SemEval-2020任务7:评估编辑新闻标题的幽默感。

支持的任务和排行榜

  • 回归任务:给定原始和编辑后的标题,参与者需要预测编辑后标题的平均幽默值。通常通过实现较低的均方误差来衡量成功。
  • 预测两个编辑标题中哪个更幽默:给定原始标题和两个编辑版本,参与者需要预测哪个编辑版本更幽默。通常通过实现较高的准确性来衡量成功。

语言

英语

数据集结构

数据实例

子任务1

给定原始和编辑后的标题,预测编辑后标题的平均幽默值。

json { "id": 1183, "original": "Kushner to visit <Mexico/> following latest trump tirades.", "edit": "therapist", "grades": "33332", "meanGrade": 2.8 }

子任务2

给定原始标题和两个编辑版本,预测哪个编辑版本更幽默。

json { "id": 1183, "original1": "Gene Cernan , Last <Astronaut/> on the Moon , Dies at 82", "edit1": "Dancer", "grades1": "1113", "meanGrade1": 1.2, "original2": "Gene Cernan , Last Astronaut on the Moon , <Dies/> at 82", "edit2": "impregnated", "grades2": "30001", "meanGrade2": 0.8, "label": 1 }

数据字段

子任务1

  • id:编辑后标题的唯一标识符。
  • original:带有替换词标记的原始标题。
  • edit:替换原始标题中标记词的新词。
  • grades:不同注释者给出的所有评分连接。
  • meanGrade:所有评委评分的平均值。

子任务2

  • id:编辑后标题的唯一标识符。
  • original1:带有替换词标记的原始标题。
  • edit1:替换original1字段中标记词的新词。
  • grades1:不同注释者为句子1给出的所有评分连接。
  • meanGrade1:句子1所有评委评分的平均值。
  • original2:带有替换词标记的原始标题。
  • edit2:替换original1字段中标记词的新词。
  • grades2:不同注释者为句子2给出的所有评分连接。
  • meanGrade2:句子2所有评委评分的平均值。
  • label:如果句子1比句子2更幽默,则为1;如果句子2比句子1更幽默,则为2;如果两个句子同样幽默,则为0。

数据分割

子任务 训练集 验证集 测试集 Funlines
子任务1:回归 9652 2419 3024 8248
子任务2:更幽默的标题预测 9381 2355 2960 1958

数据集创建

数据来源

初始数据收集和规范化

通过在网站funlines.co上游戏化收集数据。玩家在0-4的范围内对标题进行评分。玩家的编辑和评分将根据游戏排行榜进行排名。

数据集信息

子任务1

  • 特征
    • id:字符串类型
    • original:字符串类型
    • edit:字符串类型
    • grades:字符串类型
    • meanGrade:float32类型
  • 分割
    • train:1058589字节,9652个样本
    • test:332113字节,3024个样本
    • validation:269083字节,2419个样本
    • funlines:942376字节,8248个样本
  • 下载大小:1621456字节
  • 数据集大小:2602161字节

子任务2

  • 特征
    • id:字符串类型
    • original1:字符串类型
    • edit1:字符串类型
    • grades1:字符串类型
    • meanGrade1:float32类型
    • original2:字符串类型
    • edit2:字符串类型
    • grades2:字符串类型
    • meanGrade2:float32类型
    • label:类别标签
  • 分割
    • train:2102667字节,9381个样本
    • test:665087字节,2960个样本
    • validation:535044字节,2355个样本
    • funlines:451416字节,1958个样本
  • 下载大小:1621456字节
  • 数据集大小:3754214字节

配置名称

  • subtask-1
  • subtask-2
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作