steam-reviews-constructiveness-binary-label-annotations-1.5k

Hugging Face2024-10-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/abullard1/steam-reviews-constructiveness-binary-label-annotations-1.5k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,461条来自10款最受欢迎游戏的Steam评论，每条评论都带有二进制标签，指示评论是否具有建设性。数据集设计用于文本分类任务，特别是游戏领域中的建设性检测任务。它包括游戏名称、评论文本、作者的游戏时间以及各种投票计数等特征，以及一个用于建设性的二进制标签。该数据集适用于训练BERT及其衍生模型。它采用MIT许可证。

创建时间：

2024-10-02

原始信息汇总

1.5K Steam Reviews Binary Labeled for Constructiveness

数据集概述

该数据集包含1,461条Steam评论，来自10款最受欢迎的游戏。每款游戏拥有大致相同数量的评论。每条评论都标注了一个二元标签，指示评论是否具有建设性。数据集旨在支持与文本分类相关的任务，特别是游戏领域的建设性检测任务。

数据集结构

数据集包含以下列：

id: 每条评论的唯一标识符。
game: 被评论的游戏名称。
review: Steam评论的文本内容。
author_playtime_at_review: 作者在撰写评论时已玩游戏的小时数。
voted_up: 用户是否将评论/游戏标记为正面（True）或负面（False）。
votes_up: 评论从其他用户获得的点赞数。
votes_funny: 评论从其他用户获得的“有趣”投票数。
constructive: 二元标签，指示评论是否具有建设性（1）或不具有建设性（0）。

示例数据

id	game	review	author_playtime_at_review	voted_up	votes_up	constructive
1024	Team Fortress 2	shoot enemy	639	True	1	0
652	Grand Theft Auto V	6 damn years and its still rocking like its g...	145	True	0	0
1244	Terraria	Great game highly recommend for people who like...	569	True	0	1
15	Among Us	So good. Amazing game of teamwork and betrayal...	5	True	0	1
584	Garrys Mod	Jbmod is trash!!!	65	True	0	0

标注标准

Constructive (1): 提供有用的反馈、改进建议、建设性批评或对游戏的详细见解的评论。
Non-constructive (0): 不提供有用反馈、内容空洞、模糊、离题、无关或恶搞的评论。

注意事项

请注意，数据集不平衡。**63.04%的评论被标记为不具有建设性，而36.96%**被标记为具有建设性。在使用数据集时请考虑这一点。

许可证

该数据集在MIT许可证下发布，允许开放和灵活地使用数据集，适用于学术和商业用途。

搜集汇总

数据集介绍

构建方式

该数据集从Steam平台上10款最受评论的游戏中共收集了1,461条用户评论，每条评论均经过专家标注，标注内容为二元标签，用于指示评论是否具有建设性。数据集的构建过程注重平衡性，确保每款游戏的评论数量大致相同。此外，数据集还提供了训练集、开发集和测试集的划分，便于模型训练与评估。

使用方法

该数据集适用于文本分类任务，特别是针对游戏评论的建设性检测。用户可通过加载CSV文件直接访问数据，利用提供的训练集、开发集和测试集进行模型训练与评估。数据集特别适合用于BERT及其衍生模型等自然语言处理模型的训练，以提升模型在建设性分类任务中的表现。

背景与挑战

背景概述

在自然语言处理（NLP）领域，文本分类任务一直是研究的核心方向之一，尤其是在用户生成内容（UGC）的分析中，如何有效识别和分类文本的构建性成为了一个重要的研究课题。'steam-reviews-constructiveness-binary-label-annotations-1.5k'数据集由专家团队创建，旨在为游戏领域的文本分类任务提供支持，特别是针对Steam平台上的用户评论进行构建性检测。该数据集包含了来自10款最受欢迎游戏的1461条评论，每条评论均被标注为是否具有构建性。通过这一数据集，研究人员可以训练和评估如BERT及其衍生模型等NLP模型，以提升在构建性检测任务中的表现。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，构建性本身具有主观性，不同标注者可能对同一评论的构建性判断存在差异，这导致标注的一致性和准确性难以保证。其次，数据集的类别不平衡问题显著，非构建性评论占比高达63.04%，而构建性评论仅占36.96%，这可能导致模型在训练过程中偏向于预测多数类，影响分类性能。此外，评论内容的多样性和复杂性，如包含俚语、讽刺或非正式表达，进一步增加了模型理解和分类的难度。最后，数据集规模相对较小，可能限制了模型在更广泛场景下的泛化能力。

常用场景

经典使用场景

在自然语言处理领域，该数据集被广泛用于训练和评估文本分类模型，特别是针对游戏评论的构建性检测任务。通过分析Steam平台上的用户评论，研究者能够开发出能够自动识别和分类评论是否具有建设性的算法。这种应用不仅限于游戏领域，还可以扩展到其他需要用户反馈分析的行业。

解决学术问题

该数据集解决了在用户生成内容（UGC）分析中，如何有效识别和分类具有建设性反馈的评论这一学术问题。通过提供带有二进制标签的评论数据，研究者可以训练模型来区分哪些评论提供了有价值的反馈，哪些则没有。这对于改进产品和服务，以及增强用户体验具有重要意义。

实际应用

在实际应用中，该数据集可以用于开发自动化的评论分析工具，帮助游戏开发者快速识别和响应有价值的用户反馈。此外，这种技术也可以应用于电商平台、社交媒体等，用于监控和提升用户生成内容的质量。

数据集最近研究