five

自动文章评论数据集

收藏
arXiv2018-05-11 更新2024-06-21 收录
下载链接:
http://ai.tencent.com/upload/PapersUploads/article_commenting.tgz
下载链接
链接失效反馈
官方服务:
资源简介:
自动文章评论数据集是由腾讯新闻收集的大型中文数据集,包含数百万条真实评论及其质量标注。该数据集旨在支持自动文章评论生成任务的研究,通过人工标注的子集来评估评论质量。数据集涵盖了广泛的主题和个人观点,为模型训练和评估提供了丰富的资源。此外,数据集还包含文章类别和用户投票等元数据,有助于深入分析和理解评论内容及其影响。

The Automatic Article Comment Dataset is a large-scale Chinese dataset collected by Tencent News, which contains millions of real comments and their quality annotations. This dataset aims to support research on automatic article comment generation tasks, and the manually annotated subset is used to evaluate comment quality. The dataset covers a wide range of topics and personal opinions, providing abundant resources for model training and evaluation. In addition, the dataset also includes metadata such as article categories and user votes, which facilitates in-depth analysis and understanding of comment content and their impacts.
提供机构:
上海交通大学计算机科学与工程系1,腾讯AI实验室2
创建时间:
2018-05-10
搜集汇总
数据集介绍
main_image_url
构建方式
自动文章评论数据集的构建方式涉及从腾讯新闻平台抓取了大约20万篇新闻文章和450万条读者评论,并对数据进行清洗,例如过滤掉内容少于30个字的短文章和评论少于20条的帖子。数据集被分为训练集、开发集和测试集,并采用jieba库对文本进行分词。为了评估评论质量,研究人员随机选取了1610篇文章,每篇文章随机抽取27条评论,由5位专业标注员根据预定的质量标准进行评分。
使用方法
使用自动文章评论数据集的方法包括将其用于训练和评估自动评论生成模型。例如,可以使用基于检索的模型来寻找与目标文章最相关的评论,或者使用基于序列到序列的生成模型来生成新的评论。此外,数据集还可以用于研究和开发质量加权的自动评估指标,如加权METEOR和加权BLEU,以提高与人类评估的一致性。
背景与挑战
背景概述
在信息爆炸的时代,网络文章评论成为用户互动与信息扩展的重要方式。为了满足在线论坛、智能聊天机器人等平台增加用户参与度和培养在线社区的需求,自动生成文章评论的功能变得尤为重要。上海交通大学计算机科学与工程系与腾讯AI实验室的研究人员于2018年提出了一项新的任务——自动文章评论,并发布了一个大规模的中文数据集。该数据集包含数百万条真实的评论和一个由人工标注的子集,以表征评论质量的多变性。该研究通过整合人类对评论质量的偏见,进一步发展了自动指标,这些指标能够推广一组广泛的流行参考指标,并与人类评估的相关性大大提高。此数据集的发布为自动文章评论任务的研究和评估提供了一个重要的平台。
当前挑战
自动文章评论任务面临着多重挑战。首先,机器需要理解给定文章的内容,并能够形成观点和论据。其次,评论的生成需要遵循自然语言的表达方式,这与传统的文本生成任务如机器翻译有所不同,后者通常只有少量的黄金目标。此外,文章评论的输入空间更大,因为涉及到多样化的主题和个人观点。为了应对这些挑战,研究人员采用了人类注释的子集来评估评论质量,并将这些评分纳入自动评价指标中,以提高其与人类评估的相关性。
常用场景
经典使用场景
自动文章评论数据集主要应用于在线论坛和社交媒体平台,以提高用户参与度和促进在线社区建设。此外,它也是智能聊天机器人开发的重要工具,使机器人能够进行深入、内容丰富的对话。该数据集通过分析文章内容,生成具有个人观点和见解的评论,从而为读者提供额外的信息,增强读者与作者之间的互动。
解决学术问题
自动文章评论数据集解决了机器在理解文章内容、形成观点和论点、以及组织自然语言表达等方面的挑战。与文章摘要任务相比,评论不需要涵盖文章的所有重要观点,而往往需要包含文章中未明确呈现的额外信息。与产品评论相比,文章评论的输入是纯文本格式,需要探索更大的输入空间。该数据集为自动文章评论任务提供了大量真实评论和人工标注的子集,为科学研究提供了重要的数据支持。
实际应用
自动文章评论数据集在实际应用中具有重要的价值。它可以帮助在线论坛和社交媒体平台提高用户参与度,促进在线社区建设。此外,它还可以用于智能聊天机器人的开发,使机器人能够进行深入、内容丰富的对话。此外,该数据集还可以用于评论排名、点赞预测和文章标题生成等任务,为相关领域的研究和应用提供数据支持。
数据集最近研究
最新研究方向
自动文章评论数据集的引入,为自然语言生成领域的研究提供了新的视角和挑战。该数据集涵盖了大量真实的中文评论,并包含一个由人类标注的子集,用于表征评论质量的变化。研究的主要方向包括:如何更好地理解文章内容,形成有见地的评论,以及如何组织自然语言进行表达。此外,评论质量的人类偏好的融入,使得自动评价指标的发展成为可能,这些指标不仅能够更好地适应新任务的特点,而且能够显著提高与人类评价的相关性。
相关研究论文
  • 1
    Automatic Article Commenting: the Task and Dataset上海交通大学计算机科学与工程系1,腾讯AI实验室2 · 2018年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作