财神彩票

大数据产品平台方案当前位置 您的位置:首页 > 方案 > 大数据 > 大数据 > 大数据产品平台方案
财神大数据产品平台方案
财神大数据产品方案

随着近年来企业信息化建设的不断深化、社会化网络的兴起,以及移动互联网等新一代信息技术的广泛应用,全球数据规模及其存储容量正在迅速增长,数据的类型也变得复杂多样。海量多样化的数据对信息的有效存储、快速读取、检索提出了挑战;且其中所蕴藏的巨大商业价值也引发了对数据处理、分析的巨大需求。当前,大数据已逐渐渗透到各个行业和业务职能领域,数据成为企业战略资产,企业战略逐渐从"业务驱动"转向"数据驱动"。如何通过收集和分析大量内部和外部的数据,获取有价值的信息将成为指导企业经营决策、业务运作中的核心环节。

cpfa.png

  • 数据采集:实现将异构数据从系统外部采集并传输到大数据平台的过程,包括数据爬取、提取、清洗、转换和装载等,保证数据获取和验证数据的有效性。
  • 数据存储与分析:负责海量多态数据的存储及处理,以混搭架构模式实现多种数据存储策略;对经过存储和处理后的数据进行分析,主要包括自然语言处理、数据统计分析以及数据挖掘。
  • 数据服务:将屏蔽底层针对各类数据服务需求的数据处理过程,将加工后的数据、应用等通过集中的数据服务提供功能,为外部合作伙伴提供数据服务能力,简化数据共享逻辑,集约化数据分析能力。
  • 数据应用:通过固定报表、多维分析等方式展现数据,对内支撑企业管理分析、经营分析、服务分析、销售分析及产品开发;对外支撑产品化的数据服务以及数据提供。
  • 数据管控:实现数据全生命周期管理,提升企业数据标准、数据质量、数据安全、元数据管理等基础数据管控能力。
数据采集

sjcj.png

数据存储

从大数据的数据特征可知,其数据结构复杂多样,且体量巨大,需要改变目前以结构化为主体的单一存储方案。要求满足不同的存储需求,支持SMP、MPP、RDBMS等多种架构的数据库以及内容数据库、分布式缓存数据库等技术能力。本方案将采用如下的策略:

  • 对非结构化数据采用分布式文件系统进行存储;
  • 对结构松散无模式的半结构化数据采用面向文档的分布式key/value存储引擎;
  • 对海量的结构化数据采用shared-nothing的分布式并行数据库系统存储;
  • 支持行、列混合存储;支持存储的在线、线性扩展;
  • 构建各存储引擎之间的连接器(DaaS),使得非结构化数据在处理成结构化信息后,能方便的和分布式数据库中的关系型数据快速融通,保证大数据分析的敏捷性。
数据分析

数据分析层主要是对经过存储和处理后的数据进行OLAP分析、搜索引擎、专题分析、数据挖掘、标签分析等:

  • 基于Apache Hadoop框架,具备分布式并发的大规模计算能力;有效集成Impala运算框架,实现互动式的查询,查询效率比Hive有数量级的提升,提供实时的大量数据并行处理;
  • 支持非结构化数据分析能力(如文本分析和挖掘技术、视频分析技术,网络爬虫关键字分析技术、客户标签化处理等);
  • 支持对非结构化数据向结构化数据转换的处理能力,实现基于结构化数据和非结构化数据混合环境下的数据分析处理;
  • 提供数据分析模型管理和分析应用创建能力;实现对各种数据分析能力通过良好的技术封装,形成数据分析组件,为上层提供数据分析服务。
数据展现

数据展现能够迅速和有效地简化与提炼数据流,帮助用户交互筛选大量的数据,可视化所提供的洞察力有助于使用者更快更好地从复杂数据中得到新的发现:

  • 本平台有效集成HighCharts、D3.js可视化展现技术,支撑柱状图、散点图、分层条形图、圆图、树图、分支图等近20种图形的展示;
  • 本方案可以将数据源、分析过程及挖掘结果进行可视化规范化,采用了层叠式和拓展式的互动方式让用户去探索图形。
平台技术特性
  • 高效数据采集:支持对结构化数据、半结构化数据、非结构化数据的采集适配,采用缓存、读写分离、传输压缩等机制实现对各类数据的高效传输,支持Oracle、Mysql、Hdfs、SysbaseIQ、GreenPlum等主流数据库高效数据采集;
  • 多种数据存储策略:支持SMP、MPP、RDBMS等多种架构的数据库以及内存数据库、分布式缓存等,实现分布式文件系统、分布式key/value存储、shared-nothing、行/列混合存储等多种存储策略;
  • 充分融合主流挖掘模型:有效集成Rhadoop、Mahout等开源挖掘工具,大大丰富分析手段;
  • 数据服务能力封装:屏蔽底层针对各类数据服务需求的数据处理过程,将加工后的数据、应用等通过集中的数据服务提供功能,为外部应用提供数据服务能力,简化数据共享逻辑,集约化数据分析能力;
  • 自动化的数据分析过程:实现将采集、存储、处理、分析等核心处理环节实现集中化、自动化的分布式作业调度,图形化的调度处理机制,使得分析过程可配置、可监控、可审计。