智慧城市是以數(shù)據為中心、由數(shù)據驅動的城市大數(shù)據生態(tài)系統(tǒng)。數(shù)據只有充分集中、達到一定量級才是大數(shù)據。從我國東部發(fā)達地區(qū)的實踐來看,數(shù)據匯聚是政府大數(shù)據發(fā)展的難點所在,已成為大數(shù)據主管部門的共識。
沒有匯聚就沒有大數(shù)據
建設城市級大數(shù)據中心,必將面對數(shù)據匯聚帶來的挑戰(zhàn)——數(shù)據源越來越廣、數(shù)據類型越來越多、數(shù)據量級越來越大。所謂大數(shù)據,必須在技術上可管理,才能可利用。
大數(shù)據中心除了承載部門應用系統(tǒng)的傳統(tǒng)“小”數(shù)據之外,還將歸集日常工作產生的電子文檔和多媒體等新型“大”數(shù)據,并將引入城市視頻監(jiān)控和物聯(lián)網傳感器產生的流式數(shù)據,乃至獲取企事業(yè)單位和互聯(lián)網的社會數(shù)據資源,必須解決怎么采集、怎么存儲、怎么管理的難題。如果不能做到“落得下、管得住、看得懂、拿得到”,就不能保證“一次匯聚、多次分享”。

實踐證明,大數(shù)據中心如果只是簡單拷貝雜亂無序的海量數(shù)據,無異于數(shù)據沼澤。大數(shù)據主要是非結構化數(shù)據,針對結構化數(shù)據的政務信息資源目錄體系與交換體系跟不上十多年來政府信息化的發(fā)展和變化,技術和管理上的局限性日益凸顯。
政府大數(shù)據要走自己的路
大數(shù)據技術發(fā)源于互聯(lián)網企業(yè),但是,政府大數(shù)據與互聯(lián)網大數(shù)據有很大不同。政府大數(shù)據的基本特征是多源異構、分散無序。政府數(shù)據源并非同一來源和單一類型,數(shù)據存儲并非高度集中和完全同構,采用人工編目方式無法承受為海量數(shù)據進行元數(shù)據標注的巨大壓力,必須升級到大數(shù)據架構。政府大數(shù)據是社會公有屬性,外部價值大于內部價值,外部利用是優(yōu)先方向,重點是公用數(shù)據集開發(fā)和資源化服務。忽略政府大數(shù)據的分散多樣性和價值取向,照搬互聯(lián)網企業(yè)經驗,無法從根本上解決數(shù)據匯聚問題。
通常認為,大數(shù)據是關注數(shù)據分析結果的A范式(分析型應用)。實際上,大數(shù)據并非只有A范式,還有關注數(shù)據內容本身的D范式(公用數(shù)據集)。在數(shù)據資源尚未充分集中形成規(guī)模量級的情況下,大部分政府應該是優(yōu)先發(fā)展D范式,而不應不切實際地追求A范式的突飛猛進。
數(shù)據湖是什么?
2010年,James Dixon提出數(shù)據湖(Data Lake)的概念。數(shù)據湖是與數(shù)據倉庫相對的概念,初衷是破解數(shù)據倉庫的局限性:一是只能回答預先設定的問題,二是數(shù)據已經被篩選包裝好,無法看見其原始狀態(tài)。James Dixon說:“如果數(shù)據集市是一個商店的瓶裝水,數(shù)據被過濾包裝結構化以供使用——數(shù)據湖則是在更自然狀態(tài)下的大量的水。數(shù)據湖中的數(shù)據來源于不同地方,用戶可以進入數(shù)據湖中按需提取所需要的數(shù)據”。
數(shù)據湖的核心原則是集中存儲原始的、未經改變的全量數(shù)據,在提取數(shù)據時才進行轉換。數(shù)據湖存儲各種類型數(shù)據,重點是非結構化和半結構化數(shù)據,通過統(tǒng)一視圖提供開放訪問。數(shù)據湖必須具有強大的元數(shù)據管理能力,可保證所存儲數(shù)據資源的語義一致性,這是進行大數(shù)據分析的基本前提。
數(shù)據湖與政府大數(shù)據價值鏈密切相關
數(shù)據湖處在政府大數(shù)據價值鏈的上游,是數(shù)據即服務和分析型應用的源頭,對應“匯聚”、“標注”、“分發(fā)”三個環(huán)節(jié)。
- 對于匯聚而言,旨在建立統(tǒng)一數(shù)據采集體系和統(tǒng)一大數(shù)據資源池,優(yōu)化大數(shù)據供給側的數(shù)據處理流程。
- 對于標注而言,旨在建立統(tǒng)一元數(shù)據管理體系和全景數(shù)據資源清單,建立對大數(shù)據需求側的強有力支撐。
- 對于分發(fā)而言,旨在建立大數(shù)據應用與數(shù)據湖之間的暢通管道,實現(xiàn)從數(shù)據湖中即取即用。
華為“一云一湖一平臺”整體方案
華為憑借智慧城市建設和自身數(shù)據資產管理變革經驗,以及大數(shù)據和人工智能方面的技術儲備,提出了“一云一湖一平臺”整體解決方案。

華為已率先發(fā)布了智慧城市數(shù)據湖解決方案,致力于打造大數(shù)據生態(tài)永不枯竭的源頭。華為以數(shù)據湖為核心的大數(shù)據整體方案具有三大優(yōu)勢。
- 超前實踐,先行探索。華為有18萬員工,信息系統(tǒng)龐大而復雜,積累了海量數(shù)據資源,面臨著很多現(xiàn)實問題:跨領域數(shù)據獲取困難甚至無權獲取、過程數(shù)據大量丟失、無法滿足數(shù)字化運營和大數(shù)據分析應用要求等。2017年,華為實施了數(shù)據資產管理變革項目,啟動了產品領域數(shù)據湖建設任務,成功實施了IPD數(shù)據湖解決方案,以統(tǒng)一的數(shù)據底座承載主題數(shù)據,實現(xiàn)了集中的數(shù)據資產管理,“打破數(shù)據壁壘、實現(xiàn)數(shù)據聯(lián)接、主動自助服務”。
- 瞄準未來,架構領先。未來所有數(shù)據將平滑遷移到統(tǒng)一政務云,如果綜合考慮先進性和實用性,初期可以傳統(tǒng)小數(shù)據架構(傳統(tǒng)數(shù)據庫)和新型大數(shù)據架構(數(shù)據湖)并行存在,實行統(tǒng)一的元數(shù)據管理。而后期條件成熟時,再將傳統(tǒng)小數(shù)據架構融入新型大數(shù)據架構。
- 自動化,高效率。基于人工智能技術實現(xiàn)元數(shù)據的自動化標注。現(xiàn)有的目錄體系只適用于結構化數(shù)據,主要采用手工編目方法,存在工作量大、復雜性高、質量低等缺點。在納入非結構化和半結構化數(shù)據之后,由于數(shù)據規(guī)模量級之大已不可能再采用手工編目方法,必須引入成熟的人工智能技術,對視頻、語音和電子文檔等采用圖像識別、語音識別和自然語言處理等技術,由機器人“閱讀”和“認知”非結構化數(shù)據,自動提取主題詞、關鍵字和生成標簽,采用機器學習技術不斷提高編目質量。
當前,我國政府帶頭拉動大數(shù)據發(fā)展,智慧城市數(shù)據湖呼之欲出。在智慧高青、北京城市副中心、蘭州新區(qū)等城市大數(shù)據工程項目中,華為復制了自身IPD數(shù)據湖建設的成功經驗,加快推進數(shù)據湖解決方案的落地,力求突破政府大數(shù)據匯聚難題,向智能型城市揚帆起航。
