five

CNAE-9数据集 1080个巴西公司经济活动分析数据

收藏
帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-25995.html
下载链接
链接失效反馈
官方服务:
资源简介:
Data Set Information: 这是一个数据集,包含1080个巴西公司的自由文本业务描述文档,这些文档被归类为国家经济活动分类表(Classifica?§?£国家队 艾维德经济学(micas-CNAE)。原始文本经过预处理以获得当前数据集:最初,仅保留该数据集字母,然后删除文本中的介词。接下来,这些词被转换成它们的标准形式。最后每个文档都表示为一个向量,其中每个单词的权重是其在文档中的频率。这个数据集是高度稀疏(99.22%的矩阵由零填充)。 Attribute Information: In the data set there are 857 attributes, 1 attributes with the class of instance and 856 with word frequency: 1. category: range 1 - 9 (integer) 2 - 857. word frequency: (integer) Relevant Papers: Patrick Marques Ciarelli, Elias Oliveira, 'Agglomeration and Elimination of Terms for Dimensionality Reduction', Ninth International Conference on Intelligent Systems Design and Applications, pp.547-552, 2009 Patrick Marques Ciarelli, Elias Oliveira, Evandro O. T. Salles, 'An Evolving System based on Probabilistic Neural Network', Brazilian Symposium on Artificial Neural Network, 2010 Citation Request: If you have no special citation requests, please leave this field blank. Patrick Marques Ciarelli, pciarelli '@' lcad.inf.ufes.br, Department of Electrical Engineering, Federal University of Espirito Santo Elias Oliveira, elias '@' lcad.inf.ufes.br, Department of Information Science, Federal University of Espirito Santo

数据集信息:本数据集包含1080份巴西企业的自由文本形式业务描述文档,所有文档均已按照巴西国家经济活动分类表(Classificação Nacional de Atividades Econômicas,简称CNAE)完成归类。原始文本已完成如下预处理步骤以生成当前数据集:首先仅保留文本中的字母字符,随后删除文本中的介词;接着将所有词汇转换为标准词形;最终将每份文档表征为向量形式,其中每个单词的权重为其在对应文档中的词频。该数据集的特征矩阵高度稀疏,99.22%的矩阵元素均为零值。 属性说明:本数据集共包含857个属性,其中1个为实例类别属性,其余856个为词频属性:1. 类别:取值范围为1至9,整数类型;2. 第2至857项属性:词频,整数类型。 相关论文:1. 帕特里克·马克斯·恰雷利(Patrick Marques Ciarelli)、埃利亚斯·奥利维拉(Elias Oliveira),《面向降维任务的术语集聚与消去》,第九届智能系统设计与应用国际会议,第547-552页,2009年;2. 帕特里克·马克斯·恰雷利、埃利亚斯·奥利维拉、埃万德罗·O·T·萨莱斯(Evandro O. T. Salles),《基于概率神经网络的演化系统》,巴西人工神经网络研讨会,2010年。 引用要求:若无特殊引用规范,可留空本字段。帕特里克·马克斯·恰雷利,电子邮箱:pciarelli@lcad.inf.ufes.br,圣埃斯皮里图联邦大学电气工程系;埃利亚斯·奥利维拉,电子邮箱:elias@lcad.inf.ufes.br,圣埃斯皮里图联邦大学信息科学系。
提供机构:
帕依提提
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CNAE-9数据集包含1080个巴西公司的业务描述文档,归类为CNAE经济活动分类。文档经过预处理,表示为高度稀疏的词频向量。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务