Amazon Product Reviews|产品评价数据集|电子商务数据集
收藏
- Amazon首次公开发布Amazon Product Reviews数据集,标志着大规模消费者评论数据的开放获取。
- Amazon Product Reviews数据集首次应用于情感分析研究,推动了自然语言处理领域的发展。
- 该数据集被广泛用于推荐系统研究,特别是在个性化推荐算法中的应用取得了显著成果。
- Amazon Product Reviews数据集成为机器学习和数据挖掘领域的重要基准数据集之一,促进了相关算法的发展。
- 随着数据隐私保护意识的增强,Amazon对数据集进行了更新,增加了匿名化处理,以符合新的数据保护法规。
- 1From Amateurs to Connoisseurs: Modeling the Evolution of User Expertise through Online ReviewsCornell University · 2013年
- 2Sentiment Analysis of Amazon Product Reviews Using Machine Learning TechniquesUniversity of California, Irvine · 2020年
- 3A Comparative Study of Sentiment Analysis Techniques on Amazon Product ReviewsUniversity of Waterloo · 2019年
- 4Exploring the Impact of Review Helpfulness on Product Sales Using Amazon Product ReviewsUniversity of Pennsylvania · 2018年
- 5Predicting Product Success Using Sentiment Analysis on Amazon ReviewsUniversity of Michigan · 2017年
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
FSDD
FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。
github.com 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录