大數據智能分析平臺
發布日期:2016-06-24 來源:研發中心

平臺概述

    從產品定位上,主要為行業大數據提供處理能力,是一個數據分析挖掘平臺。因此,天誠大數據智能分析平臺的客戶目標定位為具備大數據場景的行業客戶。該面向服務的大數據分析平臺以區域性智能數據中心及高速互聯網為基礎設施,以互聯網服務體系為架構,以大數據存儲、處理、挖掘和交互式可視化分析等關鍵技術為支撐,通過多樣化移動智能終端及移動互聯網為用戶提供數據存儲、管理及分析服務。

    大數據分析平臺所采用的技術路線和應用模式融合了智能分析技術、高可擴展計算技術、非結構化數據處理技術和軟件即服務(SaaS)應用模式,符合當前國際大數據產業的發展趨勢和產業化應用要求。一方面,系統通過互聯網服務方式向用戶提供高可用、高易用和一站式的海量數據分析服務,可有效降低企業應用門檻和成本,通過專業化服務外包滿足企業個性化需求。另一方面,由于是開放架構的系統平臺,商業用戶和其他軟件提供商可通過系統提供的互聯網服務開發接口(Open API)開發面向行業商務智能應用的解決方案,孵化新型咨詢公司、軟件公司和信息服務公司,有助于形成以平臺為核心的大數據分析產業生態環境。

平臺構架


平臺功能

(1)管理子系統:主要包括集群管控、元數據管理、調度管理、數據服務管理、系統管理五個功能模塊。

(2)ETL子系統:以元數據驅動的方式提供強大的抽取、轉換盒加載(ETL)能力。

(3)計算子系統:以HDFS Federation和YARN為核心,在YARN集成了各種計算組件,包括HBase、Hive、Storm、Kafka等。

(4)服務配置工具:通過可配置式個性化開發,大大降低了平臺實施和使用的技術門檻,對平臺的大部分二次開發不再需要專業的開發人員,業務人員就可以實現對數據計算的定義、腳本實現并通過定義規則驅動數據計算。

(5)報表和分析工具:包括自定義報表工具和自定義分析工具。

(6)數據服務子系統:對外提供各種數據服務,開放多種數據接口,外部系統/用戶可通過服務認證、數據API等方式按權限訪問相應的數據。

平臺關鍵技術

 天誠面向服務的大數據分析平臺,采用的一系列關鍵技術(如圖所示),主要包括:

1. 平臺層

  (1)大數據分布式存儲系統:針對數據不斷增長的挑戰,需要研究大規模、非結構化數據的存儲問題,突破大數據的存儲、管理和高效訪問關鍵技術,當前需要構建至少 PB 級存儲能力的大數據平臺才能滿足一般的科研和應用需求。

  (2)分布式數據挖掘運行時系統:針對大數據挖掘算法運行的挑戰,突破 MapReduce 技術的局限,研究有效支持迭代、遞歸、層次及集成機制的海量數據挖掘編程模型和運行時系統,構建大數據運行時系統。

  (3)智能數據中心聯合調度技術:針對大數據存儲和挖掘的挑戰,研究多數據中心的智能聯合調度、負載均衡技術,整合多個數據中心的存儲和計算資源,構建基于多智能中心的大數據服務平臺。

2. 功能層

  (1)高可擴展性大數據挖掘算法:針對大數據挖掘的挑戰,研究基于云計算的分布式大數據處理與挖掘算法,構建高可擴展的大數據處理與挖掘算法庫,實現 TB 級數據的建模能力。

  (2)大數據安全與隱私保護技術:針對數據挖掘“軟件即服務”(SaaS)模式的需求,研究開發數據挖掘在云環境下的隱私保護、數據審計和節點數據挖掘技術,確保大數據挖掘過程中的數據安全,保證用戶的隱私不被泄露。

  (3)分布式工作流引擎:針對大數據挖掘分布式調度的挑戰,研究基于云計算的分布式工作流調度、負載均衡技術,構建高效分布式工作流執行引擎。

  (4)交互式可視化分析技術:針對傳統分析方法交互性和可理解性不足的問題,研究啟發式、人機交互、可視化數據挖掘新技術,實現大數據挖掘的高度人機交互功能。

3. 服務層

  (1)基于 Web 的大數據挖掘技術:突破傳統的基于單機軟件的數據挖掘技術,創新基于 Web 的大數據挖掘方法和流程,實現易于使用的基于 Web 的大數據挖掘技術,構建基于 Web 的大數據分析環境。

  (2)基于 Open API 的大數據挖掘技術:突破傳統的基于軟件的數據挖掘技術,創新基于 Open API 的大數據挖掘方法,研究大數據挖掘開放接口、開放流程,構建基于 Open API 的大數據分析模式。

產品特征

1、高負載和海量數據處理能力 

以云存儲為基石,以云計算為處理核心,建立了海量的數據業務支撐的大數據平臺。每天可以承受千萬級PV的訪問壓力,支撐億級用戶及E8級各類數據存儲如日志文件、圖片、文檔、影音等。基于此大數據支撐平臺,不僅可以處理日以繼夜增長的TB級數據增量,更能滿足各類實時業務需求。

2業界領先的實時性 

在實時處理領域實現秒級突破,可以對各項業務數據驚醒實時查看與統計,方便客戶快速做出決策和即時響應,適應當今快節奏發展趨勢。如傳統監控對年、月、周、日的頻次統計,我們可以實現24小時內的實時監控,和管理當前實時變化的統計儀表盤數據,更能實現7*24的用戶實時行為監測及秒級分析。

3、全面運營監控指標體系 

不僅擁有常見的接入站點的運營監控流量指標如UV、PV、IP、新舊訪客數,還建立了行為質量指標如用戶訪問停留時間、訪問次數、訪問深度、跳出次數等,并對此進行了立體性匯總,如平均停留時間、平均加載時間、跳出率等以便進行全局分析。該平臺具備業務所需的自定義業務指標,并可在此基礎之上加入客戶行為分析、網站訪客背景分析、鼠標點擊行為等高智能的分析功能,從而為業務發展及運營策略提供了有力的數據支撐。

4、對用戶來源的深入挖掘與分析 

通過該平臺不僅可以看到接入網站用戶的基本信息(跳出率、回訪次數、回訪頻率、國家分析、省份分析、城市分析、網絡位置、瀏覽器、移動終端等),還可以了解到客戶來源(如來源頁面、網站、搜索引擎、關鍵字等)。并且在此基礎上可以了解到客戶訪問路徑,對數據進行多維鉆取,進而對網站客戶數據信息的采集、挖掘更加深入。

5、統一數據接入平臺

數據接入層采用分布式日志系統,實現推拉模式的各種主流方式,并可按需升級為統一數據接入平臺,不僅支持日志及頁面源碼數據,還可以實現各類接口數據的無縫可視化接入,如關系型和非關系型數據、各種主流非結構化數據等。

6、立體推薦及算法可替換平臺

可以結合用戶群體特征、個性行為歷史及各種顯式、隱式反饋進行人腦分析,實現個體用戶和群體用戶的立體推薦和全過程的人工干預。 以算法平臺為支撐,建立了可視化的算法訓練和推薦結構的過濾植入,以增強客戶個性化服務配置。實現了各種算法的替換、組合和深度學習,如傳統的UCF、ICF及業務創新的二度人脈剪枝算法等,以盡符合人腦思維習慣。

7、多種風格統計分析數據展現方式

對數據統計分析實現人性化的各種瀏覽器體驗,傳統風格如線性、柱形、餅狀分析圖為企業對不同時段網站訪問量、網站不同模塊的訪問量、針對訪客的不同分類進行更加直觀的分析。創新風格如熱力圖,更形象、視覺化的體現網站頁面不同位置客戶點擊密度,實時反映出群體用戶的興趣特征,增強運營。

8、可視化強 

統計分析數據以圖表,熱圖等方式體現,方便客戶對比判斷,在使用時更舒適、方便,提供客戶體驗度。各種操作過程如算法訓練、人工干預、數據ETL等均實現可視化,根本性解決了手工代碼操作的問題。


日本中文字幕在线,深夜激情,在线h片,大西瓜av在线,激情图库