five

steam-reviews-constructiveness-binary-label-annotations-1.5k

收藏
Hugging Face2024-10-09 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/abullard1/steam-reviews-constructiveness-binary-label-annotations-1.5k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1,461条来自10款最受欢迎游戏的Steam评论,每条评论都带有二进制标签,指示评论是否具有建设性。数据集设计用于文本分类任务,特别是游戏领域中的建设性检测任务。它包括游戏名称、评论文本、作者的游戏时间以及各种投票计数等特征,以及一个用于建设性的二进制标签。该数据集适用于训练BERT及其衍生模型。它采用MIT许可证。
创建时间:
2024-10-02
原始信息汇总

1.5K Steam Reviews Binary Labeled for Constructiveness

数据集概述

该数据集包含1,461条Steam评论,来自10款最受欢迎的游戏。每款游戏拥有大致相同数量的评论。每条评论都标注了一个二元标签,指示评论是否具有建设性。数据集旨在支持与文本分类相关的任务,特别是游戏领域的建设性检测任务。

数据集结构

数据集包含以下列:

  • id: 每条评论的唯一标识符。
  • game: 被评论的游戏名称。
  • review: Steam评论的文本内容。
  • author_playtime_at_review: 作者在撰写评论时已玩游戏的小时数。
  • voted_up: 用户是否将评论/游戏标记为正面(True)或负面(False)。
  • votes_up: 评论从其他用户获得的点赞数。
  • votes_funny: 评论从其他用户获得的“有趣”投票数。
  • constructive: 二元标签,指示评论是否具有建设性(1)或不具有建设性(0)。

示例数据

id game review author_playtime_at_review voted_up votes_up votes_funny constructive
1024 Team Fortress 2 shoot enemy 639 True 1 0 0
652 Grand Theft Auto V 6 damn years and its still rocking like its g... 145 True 0 0 0
1244 Terraria Great game highly recommend for people who like... 569 True 0 0 1
15 Among Us So good. Amazing game of teamwork and betrayal... 5 True 0 0 1
584 Garrys Mod Jbmod is trash!!! 65 True 0 0 0

标注标准

  • Constructive (1): 提供有用的反馈、改进建议、建设性批评或对游戏的详细见解的评论。
  • Non-constructive (0): 不提供有用反馈、内容空洞、模糊、离题、无关或恶搞的评论。

注意事项

请注意,数据集不平衡。**63.04%的评论被标记为不具有建设性,而36.96%**被标记为具有建设性。在使用数据集时请考虑这一点。

许可证

该数据集在MIT许可证下发布,允许开放和灵活地使用数据集,适用于学术和商业用途。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集从Steam平台上10款最受评论的游戏中共收集了1,461条用户评论,每条评论均经过专家标注,标注内容为二元标签,用于指示评论是否具有建设性。数据集的构建过程注重平衡性,确保每款游戏的评论数量大致相同。此外,数据集还提供了训练集、开发集和测试集的划分,便于模型训练与评估。
使用方法
该数据集适用于文本分类任务,特别是针对游戏评论的建设性检测。用户可通过加载CSV文件直接访问数据,利用提供的训练集、开发集和测试集进行模型训练与评估。数据集特别适合用于BERT及其衍生模型等自然语言处理模型的训练,以提升模型在建设性分类任务中的表现。
背景与挑战
背景概述
在自然语言处理(NLP)领域,文本分类任务一直是研究的核心方向之一,尤其是在用户生成内容(UGC)的分析中,如何有效识别和分类文本的构建性成为了一个重要的研究课题。'steam-reviews-constructiveness-binary-label-annotations-1.5k'数据集由专家团队创建,旨在为游戏领域的文本分类任务提供支持,特别是针对Steam平台上的用户评论进行构建性检测。该数据集包含了来自10款最受欢迎游戏的1461条评论,每条评论均被标注为是否具有构建性。通过这一数据集,研究人员可以训练和评估如BERT及其衍生模型等NLP模型,以提升在构建性检测任务中的表现。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,构建性本身具有主观性,不同标注者可能对同一评论的构建性判断存在差异,这导致标注的一致性和准确性难以保证。其次,数据集的类别不平衡问题显著,非构建性评论占比高达63.04%,而构建性评论仅占36.96%,这可能导致模型在训练过程中偏向于预测多数类,影响分类性能。此外,评论内容的多样性和复杂性,如包含俚语、讽刺或非正式表达,进一步增加了模型理解和分类的难度。最后,数据集规模相对较小,可能限制了模型在更广泛场景下的泛化能力。
常用场景
经典使用场景
在自然语言处理领域,该数据集被广泛用于训练和评估文本分类模型,特别是针对游戏评论的构建性检测任务。通过分析Steam平台上的用户评论,研究者能够开发出能够自动识别和分类评论是否具有建设性的算法。这种应用不仅限于游戏领域,还可以扩展到其他需要用户反馈分析的行业。
解决学术问题
该数据集解决了在用户生成内容(UGC)分析中,如何有效识别和分类具有建设性反馈的评论这一学术问题。通过提供带有二进制标签的评论数据,研究者可以训练模型来区分哪些评论提供了有价值的反馈,哪些则没有。这对于改进产品和服务,以及增强用户体验具有重要意义。
实际应用
在实际应用中,该数据集可以用于开发自动化的评论分析工具,帮助游戏开发者快速识别和响应有价值的用户反馈。此外,这种技术也可以应用于电商平台、社交媒体等,用于监控和提升用户生成内容的质量。
数据集最近研究
最新研究方向
在游戏评论分析领域,Steam评论的构建性分类已成为自然语言处理(NLP)研究的热点之一。该数据集通过专家标注的1,461条Steam评论,为构建性检测任务提供了宝贵的资源。近年来,研究者们利用BERT、RoBERTa等预训练模型,结合该数据集进行微调,显著提升了构建性分类的准确率,达到了约80%的预测精度。这一进展不仅推动了游戏评论的情感分析和内容质量评估,还为游戏开发者提供了有价值的用户反馈,助力游戏优化和用户体验提升。此外,该数据集的不平衡性也为研究者提供了探索数据增强和模型鲁棒性的机会,进一步拓展了NLP在游戏领域的应用前景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作