five

Discretize and Classification Dataset

收藏
github2019-10-05 更新2024-05-31 收录
下载链接:
https://github.com/akashungarala/Discretize-And-Classification-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
构建了一个包含Saatchi艺术画廊网站上列出的绘画的数据库,并使用Python将结构化数据集提取到csv文件中。价格被作为决策特征,并将其离散化为3个区间。为了构建分类器,使用了WEKA并应用不同的算法来选择给出最高精度和最高正确分类实例数的算法。

A database containing paintings listed on the Saatchi Art Gallery website was constructed, and structured data was extracted into a CSV file using Python. Prices were used as decision features and discretized into three intervals. To build the classifier, WEKA was utilized, and different algorithms were applied to select the one that provided the highest accuracy and the greatest number of correctly classified instances.
创建时间:
2017-01-27
原始信息汇总

Discretize and Classification Dataset 概述

数据集构建

  • 数据来源:Saatchi艺术画廊网站
  • 数据提取:使用Python从网站提取结构化数据并存储为CSV文件
  • 决策特征:价格
  • 数据处理:将价格特征离散化为3个区间

分类器构建

  • 工具:WEKA
  • 方法:应用多种算法,选择最高精度和最多正确分类实例的算法

技术平台

  • 编程语言:Python
  • 数据分析工具:WEKA
搜集汇总
数据集介绍
main_image_url
构建方式
在艺术作品分类领域,本数据集通过爬取名为Saatchi的画廊网站上的画作信息,运用Python编程语言将其结构化并导出为csv文件。在特征选择上,将价格作为决策特征,并将其离散化分为三个区间,以适应分类器的构建需求。在分类器的构建过程中,研究者采用WEKA平台,并运用多种算法以确定精确度最高且正确分类实例最多的算法。
使用方法
用户可通过克隆项目到本地机器的方式获取数据集,访问链接为https://github.com/akashungarala/Discretize-And-Classification-Dataset。在获取数据集后,用户可利用WEKA平台进行进一步的数据分析与模型构建。针对数据集的使用,用户需具备一定的Python编程能力以及WEKA平台的使用经验,以便能够有效地对数据集进行处理与分析。
背景与挑战
背景概述
Discretize and Classification Dataset是一个基于Saatchi艺术画廊网站上的绘画作品构建的数据集。该数据集的创建旨在为艺术品价格分类提供一种数据驱动的方法,其创建时间未明确指出,但可推断为近年来。主要研究人员为GitHub用户akashungarala,其通过Python脚本从网站抓取结构化数据,并转化为CSV格式文件。该数据集以艺术品的价格为决策特征,并将其离散化为三个区间,以供分类器构造使用。此数据集对艺术品价格预测与分类领域的研究具有一定的参考价值,为相关研究提供了实验数据基础。
当前挑战
在数据集构建过程中,研究人员面临了诸多挑战。首先,数据抓取过程中需克服网站结构变化、数据格式不一致等问题。其次,在特征选择上,如何确定价格区间以最大化分类器的精度和正确分类实例的数量,是构建过程中的关键挑战。此外,不同的分类算法对数据集的适应性亦是一大挑战,需通过算法选择和参数调优以达到最佳分类效果。
常用场景
经典使用场景
在艺术市场研究领域,Discretize and Classification Dataset数据集的经典使用场景在于借助数据挖掘技术,对艺术品的定价区间进行分类。该数据集通过抓取Saatchi艺术画廊网站的绘画作品信息,并将价格这一决策特征离散化,为研究艺术市场的价格分布与分类提供了基础。
解决学术问题
该数据集解决了艺术品价格分类的学术难题,为艺术品价格区间划分提供了量化标准,有助于艺术经济学研究者分析艺术品市场的价格规律,并促进了艺术品交易市场的合理评估与定价。
实际应用
在现实应用中,Discretize and Classification Dataset数据集可被艺术拍卖行、画廊及艺术投资顾问用于指导艺术品定价策略,通过分析价格区间,更精准地定位市场,优化艺术品的营销与投资。
数据集最近研究
最新研究方向
在艺术作品价值评估领域,Discretize and Classification Dataset数据集通过采集Saatchi艺术画廊网站上的画作信息,并利用Python将其结构化数据转化为CSV文件,为研究提供了基础数据资源。近期研究主要围绕价格特征的离散化处理,采用WEKA平台及多种分类算法,致力于寻找在精确度和正确分类实例数量上表现最优的算法。此类研究对于艺术市场的数字化分析具有显著影响,不仅推动了艺术品交易市场决策过程的科学化,也为艺术品价格预测和相关政策制定提供了数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作