【廣告】
項目數(shù)據分析是通過對項目數(shù)據的科學分析來評估項目的可行性,為投資方決策項目提供科學、嚴謹?shù)囊罁?,降低項目投資的風險。
為履行我國加入世貿的承諾,適應世界經濟一體化的進程,結束我國專業(yè)技術考核行業(yè)中缺少"項目數(shù)據分析師"的現(xiàn)狀,出臺《關于規(guī)范長期投資項目數(shù)據分析方法及國際接軌的總體精神》,2003年底國家電子行業(yè)職業(yè)技能鑒定指導中心正式設立"項目數(shù)據分析師"考試認證項目并制定出我國項目數(shù)據分析師培訓、考試及管理辦法。項目數(shù)據分析行業(yè)在中國正式形成。對于一個希望獲取并分析大數(shù)據的組織來說,光有存儲容量是不夠的。
我們可以發(fā)現(xiàn)現(xiàn)有的數(shù)據處理技術都存在著一定的缺陷。
早期應用的數(shù)據系統(tǒng)架構設計時,應用直接訪問數(shù)據庫系統(tǒng),簡單的存取數(shù)據就可以滿足業(yè)務需求。但是,當用戶訪問量增加或是數(shù)據量不斷增大時,從而導致數(shù)據庫服務器無法及時響應用戶請求,出現(xiàn)超時的錯誤。
當數(shù)據訪問負載持續(xù)增加時,就需要考慮讀寫分離技術(Master-Slave)架構,以及分庫分表技術。但讀寫分離和分庫分表帶來了應用層面的復雜性,應用程序需要在設計開發(fā)階段就考慮到數(shù)據的拆分。能否識別正確的基礎設施來支持快速的數(shù)據可用性和高性能查詢就意味著成功還是失敗。分庫分表后,不僅限制了查詢的靈活性,并且隨著數(shù)據量繼續(xù)增長到PB級,單個數(shù)據庫實例的處理能力會成為整個系統(tǒng)的性能瓶頸。
當基于分布式存儲計算的大數(shù)據處理技術出現(xiàn)后,我們所面對的則是來自離線和在線的多個不同數(shù)據流,系統(tǒng)需要實時響應數(shù)據查詢請求,還需要處理分布式系統(tǒng)的分區(qū)和問題,以及滿足高容錯和可擴展的要求,于是就有了lambda架構,但其也存在著不足之處:整體架構比較復雜,資源開銷比較大,對軟硬件的需求較高;越來越多的風險投資機構把項目數(shù)據分析報告作為其判斷項目是否可行及是否值得投資的重要依據。很多分析場景實現(xiàn)困難,增加了應用開發(fā)難度;數(shù)據流水線較長,系統(tǒng)運維復雜。
通過以上可以發(fā)現(xiàn),現(xiàn)有的數(shù)據處理技術都存在一定缺陷,在面對今天日益復雜的企業(yè)大數(shù)據分析需求時顯得力不從心,如何采用架構技術來解決這些問題,這也是數(shù)據分析廠商所面對的挑戰(zhàn)。