大数据平台深化设计方案

Name: 大数据平台 深化设计方案
Creator: 学而优（深圳）培训咨询有限共公司
License: 暂无描述

北京国际大数据交易所2024-03-01 收录

下载链接：

https://webs.bjidex.com/sys-bsc-home/#/bscConsole/tradingMarket/detail?id=1462

下载链接

链接失效反馈

官方服务：

资源简介：

一、设计思路1.标准规范及统一架构业务标准规范：按照政务数据共享交换的纲领，总体设计思路严格遵守政务数据共享交换的规范化、标准化原则。遵循国家政务信息资源管理、交换、共享有关标准及国家政策要求。按照系统建设标准与规范设计设计数据内容、数据分类与编码、精度与标准等。建立统一的技术架构：统一的技术路线、统一的产品支撑、统一的技术支撑、统一的业务支撑，为应用系统提供多层面的支撑架构。建立统一的、标准化的应用集成架构，以约束不同开发商的应用服务接口开发。2.松耦合、高灵活、可重用设计政务数据共享交换平台的业务多样，需求复杂，如果按传统的设计思路，就特定问题给出特定方案，将难以满足平台的业务需求的变化及扩展的需求。系统、模块独立化，采用顶层设计原则，自顶向下设计实现，将业务系统高度抽象，归纳，组织为相对独立的子系统，子模块，采用统一的接口标准，统一的数据格式与数据结构标准，将一个复杂的大平台解耦，增加平台扩展性，灵活性与生命力。提供可扩展的功能模块封装，包括数据源管理、编目管理、资源管理、交换管理、共享管理、用户管理、权限管理、数据分析管理，日志管理，等通用模块的封装，提升各业务系统的质量，提高系统的复用性，减少重复投资3.系统、数据的安全性设计数据访问授权，对注册的数据和服务进行访问权限控制。基于账号粒度，控制消费者用户可以访问的信息资源。基于唯一设备ID，控制设备消费者可以访问的信息资源。安全防护，全方位、多角度对系统、数据、服务、设备进行安全防护。证书系统，自带CA认证的证书，各节点通过证书安全的组建网络，保证节点可信、不可抵赖，不可更改等安全特性。4、技术先进性设计1）具有良好的开放性，支持对结构化、非结构化等不同类型数据的查询接口封装，支持关系型数据库、NOSQL数据库、分布式数据库、内存数据库等多种类型数据存储模式，符合以 Hadoop/Spark为代表的主流技术发展趋势要求,能够兼容开源 Hadoop体系中的各类组件。2）采用J2EE技术路线，提供在UNIX、Linux等操作系统上部署。3）系统应采用B/S架构，支持兼容JDK1.7及以上版本，支持Websphere、WebLogic、TOMCAT等主流应用服务器。4）版本统一要求，需遵循统一业务规范、统一数据标准、统一数据架构要求。5）系统支持包括IE8及以上版本的IE浏览器、google浏览器、FireFox等主流浏览器。6）系统应遵循公安部关于信息系统管理的各类技术、业务要求、检测标准、功能标准和数据标准。7）系统结构遵循工程统一要求，采用多层结构开发部署，实现业务流程与数据处理相分离，内容与表现相分离，使系统真正具备可扩展性。二、系统架构社会治理大数据应用服务平台是一个为网格化社会治理用户提供社会治理全要素数据服务的大数据平台。平台建设可以分为四个层次。分别为社会治理大数据存储结构、全文检索与分析应用、面向社会治理应用在大数据服务能力，实现省级平台数据级联和共享。2.1 系统体系结构2.1.1 功能架构   社会治理大数据应用平台采用面向服务架构设计技术，平台总体分层架构由大数据汇集、大数据整合、大数据存储计算分析平台、大数据资源池、大数据研判分析、大数据服务、大数数据可视化展示、大数据管理等7大核心部分组成。其中大数据存储计算分析平台依托Hadoop开源生态技术栈搭建分布式存储和计算框架。提供基于离线计算、实时计算、内存计算、图计算等计算框架开发社会治理大数据分析应用。提供关系型数据库、列式数据库、图数据库、内存数据库和全文检索数据库五种数据库，以存储各种类型的社会治理数据资源。提供数据资源的存储、转换、增量导入、数据清洗等功能。经导入和清洗的数据资源，根据其不同的性质、数量和应用方式，将数据存放在相应的数据库系统中。提供标签管理、数据分析模型管理功能，使用图形化的数据建模环境，通过数据分析过程和算法编排形成数据分析计算工作流，完成数据建模应用的开发。2.1.2 技术架构技术架构，平台系统功能可分为4个层次：数据服务层、数据计算层、数据存储层DWS、数据采集层。另外加上数据源层ODS层，数据源层为系统外部业务系统、业务数据库、业务文档库提供。为共享数据交换平台提供数据的支撑。数据源ODS层：从业务系统，异构结构化数据如公安、人社、民政、政法，和非结构化数据，如新浪微博、百度帖吧、论坛，新闻新点抽取数据到数据湖中存储。作数据规约化，标准化处理。数据ETL采集层：u 数据采集层使用可视化的开发开具，通过图形化拖拉拽，敏捷开发模式，集数据建模和 ETL 设计于一体，能快速响应开发，灵活应对，需求变动，开发者与应用者视角隔离，支持多人协同定义，共享资料库，内置数仓分层结构，提供数仓全局一体化视图，可视化管理和可视化定义，内置丰富的清洗、转换、抽取，支持多种文件格式，如TXT、EXCEL 多种数据库类型，关系型数据库Oracle、MySql、 SQLService、非关系数据HIVE, HBase,Elasticseach,消息中心件Kafka、MQActive， ETL 定义支持数据抽样，转换过程支持边设置边预览，基于时间或事件的调度触发模式，批量加载和并行计算机制。u 数据抽取是根据预设的抽取机制从原始数据中读取数据，包括结构化数据的抽取和非结构化数据的抽取。抽取机制支持定时抽取、全量抽取、增量抽取、时间戳抽取、触发抽取等。u 预处理层支持对结构化与非结构化数据的数据去重处理；对于结构化数据，判断在指定时间窗口内，所有字段如果相同，则合并为一条记录。对于非结构化数据，在指定时间窗口内，对非结构化数据指定范围计算md5值，相同MD5值的文件体只保留一个原始文件。数据存储DWS层：u 基础库：基础库包含HBase数据库和HDFS。前者用于存储生产库中关系型数据库数据，后者存储生产环境中的结构化数据和非结构化数据，包括文本、视频、图片、网页等。u HBase数据库：基础库中的HBase数据库可以看做是生产库中关系型数据库的镜像库，其数据结构按照关系型数据库中表结构建设，如下图： col1、col2等，与生产库表字段保持一致，统一在一个列组（列组名为F）下。Rowkey采用hashcode的算法生成散列的hash值。表名的命名采用B_来源_tablename的方式，其中B代表Basic DB，是基础库的意思，来源是生产库用途的拼音的大写缩写，例如来源是旅馆，那么其缩写就是LG。tablename取自生产库本身的表名。数据计算层：大数据计算层是从大量的原始数据中抽取有价值的信息，即数据转换成信息的过程。主要对所输入的各种形式的数据进行加工整理，这一过程包含对数据的收集、存储、加工、分类、归并、计算、排序、转换、检索和传播的演变与推导。大数据计算层包括两大基本因素：数据处理和数据管理。如下图所示：    数据服务层：数据服务层通过数据接口如API，RESTFUL接口对外提供数据服务。同时通过数据服务提供BI Dashboard指标功能展示，及前端的大屏展示。基础设施层：包括计算设施、存储设施、网络设施、安全设施等。是所有上层软件能力的物理承載，提供了强大的计算能力、大数据量访问与可靠的存储能力、高吞吐的能力、安全可靠的服务能力。2.1.3 物理组架构奉贤综治数据应用服务平台是由web服务，数据库服务，hadoop和es的集群环境组成

提供机构：

学而优（深圳）培训咨询有限共公司

搜集汇总

数据集介绍