five

自动文章评论数据集|自动评论生成数据集|评论质量评估数据集

收藏
arXiv2018-05-11 更新2024-06-21 收录
自动评论生成
评论质量评估
下载链接:
http://ai.tencent.com/upload/PapersUploads/article_commenting.tgz
下载链接
链接失效反馈
资源简介:
自动文章评论数据集是由腾讯新闻收集的大型中文数据集,包含数百万条真实评论及其质量标注。该数据集旨在支持自动文章评论生成任务的研究,通过人工标注的子集来评估评论质量。数据集涵盖了广泛的主题和个人观点,为模型训练和评估提供了丰富的资源。此外,数据集还包含文章类别和用户投票等元数据,有助于深入分析和理解评论内容及其影响。
提供机构:
上海交通大学计算机科学与工程系1,腾讯AI实验室2
创建时间:
2018-05-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
自动文章评论数据集的构建方式涉及从腾讯新闻平台抓取了大约20万篇新闻文章和450万条读者评论,并对数据进行清洗,例如过滤掉内容少于30个字的短文章和评论少于20条的帖子。数据集被分为训练集、开发集和测试集,并采用jieba库对文本进行分词。为了评估评论质量,研究人员随机选取了1610篇文章,每篇文章随机抽取27条评论,由5位专业标注员根据预定的质量标准进行评分。
使用方法
使用自动文章评论数据集的方法包括将其用于训练和评估自动评论生成模型。例如,可以使用基于检索的模型来寻找与目标文章最相关的评论,或者使用基于序列到序列的生成模型来生成新的评论。此外,数据集还可以用于研究和开发质量加权的自动评估指标,如加权METEOR和加权BLEU,以提高与人类评估的一致性。
背景与挑战
背景概述
在信息爆炸的时代,网络文章评论成为用户互动与信息扩展的重要方式。为了满足在线论坛、智能聊天机器人等平台增加用户参与度和培养在线社区的需求,自动生成文章评论的功能变得尤为重要。上海交通大学计算机科学与工程系与腾讯AI实验室的研究人员于2018年提出了一项新的任务——自动文章评论,并发布了一个大规模的中文数据集。该数据集包含数百万条真实的评论和一个由人工标注的子集,以表征评论质量的多变性。该研究通过整合人类对评论质量的偏见,进一步发展了自动指标,这些指标能够推广一组广泛的流行参考指标,并与人类评估的相关性大大提高。此数据集的发布为自动文章评论任务的研究和评估提供了一个重要的平台。
当前挑战
自动文章评论任务面临着多重挑战。首先,机器需要理解给定文章的内容,并能够形成观点和论据。其次,评论的生成需要遵循自然语言的表达方式,这与传统的文本生成任务如机器翻译有所不同,后者通常只有少量的黄金目标。此外,文章评论的输入空间更大,因为涉及到多样化的主题和个人观点。为了应对这些挑战,研究人员采用了人类注释的子集来评估评论质量,并将这些评分纳入自动评价指标中,以提高其与人类评估的相关性。
常用场景
经典使用场景
自动文章评论数据集主要应用于在线论坛和社交媒体平台,以提高用户参与度和促进在线社区建设。此外,它也是智能聊天机器人开发的重要工具,使机器人能够进行深入、内容丰富的对话。该数据集通过分析文章内容,生成具有个人观点和见解的评论,从而为读者提供额外的信息,增强读者与作者之间的互动。
解决学术问题
自动文章评论数据集解决了机器在理解文章内容、形成观点和论点、以及组织自然语言表达等方面的挑战。与文章摘要任务相比,评论不需要涵盖文章的所有重要观点,而往往需要包含文章中未明确呈现的额外信息。与产品评论相比,文章评论的输入是纯文本格式,需要探索更大的输入空间。该数据集为自动文章评论任务提供了大量真实评论和人工标注的子集,为科学研究提供了重要的数据支持。
实际应用
自动文章评论数据集在实际应用中具有重要的价值。它可以帮助在线论坛和社交媒体平台提高用户参与度,促进在线社区建设。此外,它还可以用于智能聊天机器人的开发,使机器人能够进行深入、内容丰富的对话。此外,该数据集还可以用于评论排名、点赞预测和文章标题生成等任务,为相关领域的研究和应用提供数据支持。
数据集最近研究
最新研究方向
自动文章评论数据集的引入,为自然语言生成领域的研究提供了新的视角和挑战。该数据集涵盖了大量真实的中文评论,并包含一个由人类标注的子集,用于表征评论质量的变化。研究的主要方向包括:如何更好地理解文章内容,形成有见地的评论,以及如何组织自然语言进行表达。此外,评论质量的人类偏好的融入,使得自动评价指标的发展成为可能,这些指标不仅能够更好地适应新任务的特点,而且能够显著提高与人类评价的相关性。
相关研究论文
  • 1
    Automatic Article Commenting: the Task and Dataset上海交通大学计算机科学与工程系1,腾讯AI实验室2 · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

rule34lol-images-part1

该数据集包含来自rule34.lol图像板的196,000个图像文件的元数据。元数据包括URL、标签、文件信息和点赞数。实际图像文件存储在zip存档中,每个存档包含1000个图像。该数据集是更大集合的一部分,分为Part 1和Part 2。数据集采用CC0许可,允许免费使用、修改和分发,无需署名。

huggingface 收录

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

MID-Ship

MID-Ship是一个用于复杂海上船舶导航行为的数据集,由上海海事大学创建,旨在解决船舶目标检测中的遮挡和密集交互问题。该数据集包含5673张图像,总计135,884个精细标注的目标实例,涵盖多种海上场景,如不同天气条件下的船舶相遇、靠泊操作、小目标聚集和部分遮挡等。数据集通过高分辨率视频片段采集,覆盖43个不同的可航水域,并包含多种天气和光照条件,增强了数据集的多样性和实用性。MID-Ship主要应用于智能海上交通监控系统和自主船舶导航,旨在提高复杂环境下的船舶检测和跟踪能力,减少海上事故。

arXiv 收录