亚马逊用户评论数据集
收藏帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-25937.html
下载链接
链接失效反馈官方服务:
资源简介:
Data Set Information: 数据集来自亚马逊商业网站上查看作者身份识别。以前的大多数研究都对两到十位作者进行了鉴定实验。但在在线环境下,待识别的评论通常有更多的潜在作者,通常分类算法不适合大量的目标类。为了检验分类算法的稳健性,我们确定了50个最活跃的用户(由唯一的ID和用户名表示),他们经常在这些新闻组中发布评论。我们为每位作者收集的评论数量为30篇。 Attribute Information: 归因包括作者的语言风格,如数字的使用、标点符号的使用、单词和句子的长度以及单词的使用频率等 Relevant Papers: Sanya Liu, Zhi Liu, Jianwen Sun, Lin Liu, 'Application of Synergetic Neural Network in online Writeprint Identification', JDCTA: International Journal of Digital Content Technology and its Applications, Vol. 5, No. 3, pp. 126 ~ 135, 2011 Jianwen Sun, Zongkai Yang, Pei Wang, Sanya Liu, 'Variable Length Character N-Gram Approach for online Writeprint Identification,' mines, pp.486-490, 2010 International Conference on Multimedia Information Networking and Security, 2010 Citation Request: Please refer to the Machine Learning Repository's citation policy
数据集信息:本数据集源自亚马逊商务网站,用于作者身份识别任务。过往多数相关研究仅针对2至10位作者开展身份鉴定实验,但在线场景中待识别评论的潜在作者数量往往更多,常规分类算法难以适配大规模目标类别场景。为验证分类算法的鲁棒性,我们选取了50名最活跃的用户(以唯一ID与用户名标识),这些用户常在该类新闻组发布评论,且为每位作者收集了30篇评论样本。
属性信息:本数据集的属性涵盖作者的语言风格特征,例如数字使用习惯、标点符号使用偏好、词汇与句子长度,以及词汇使用频率等。
相关论文:
1. Sanya Liu、Zhi Liu、Jianwen Sun、Lin Liu,《协同神经网络(Synergetic Neural Network)在在线书写印记识别(online Writeprint Identification)中的应用》,《JDCTA:数字内容技术及其应用国际期刊》,2011年,第5卷第3期,第126~135页。
2. Jianwen Sun、Zongkai Yang、Pei Wang、Sanya Liu,《面向在线书写印记识别的变长字符N元语法(N-Gram)方法》,2010年多媒体信息网络与安全国际会议,第486~490页,2010年。
引用要求:请遵循机器学习仓库(Machine Learning Repository)的引用规范。
提供机构:
帕依提提



