本文系國脈海洋副總經理王路燕女士于4月21日在國脈互聯舉辦的“2017第二屆政務大數據發展與合作研討會暨數據母體產品發布會”上的演講,內容通過現場速記整理。
非常高興能跟大家分享我們“政務大數據基因系統”構建的一些思路。
一、為什么會做“政務大數據基因系統”?
我們去很多地方介紹這個產品時,客戶問的第一句話就是:“你們作為一家咨詢公司為什么會做這樣一個產品?”其實,我們從2013年開始做政府數據梳理、信息梳理,做了這么多城市的梳理后,我們發現存在很多問題,包括我們在做一些項目咨詢時,很多項目的咨詢規劃非常理想,但最后落地卻跟實際有差距。
我們在做這些項目時積累了很多經驗,我們在想能不能把我們的一些經驗和方法形成一套產品,來實現“咨詢+軟件”這樣一個目標?于是,我們從去年年底開始研發這套系統,到今年2月份發布,這過程中一直都在完善。
二、“政務大數據基因系統”構建思路分享
今天和大家分享以下幾點:第一個是我們前期的理論研究,第二個是對我們整個產品的概述,第三個會講一些具體的場景應用。
(一)理論研究
首先是兩個模型,一個是若蘭模型,另一個是米歇模型,大家做應用系統的應該都非常了解。
諾蘭模型。上世紀80年代,美國著名信息管理專家諾蘭提出,整個計算機的發展應該從六個階段分為計算機時代和信息時代,但在后面大量的實踐中他發現,級層的數據管理是不可分割的。
米歇模型。上世紀90年代,米歇就明確提出“級層程序信息系統的級層本質,就是要做好數據的管理”,于是他提出了“米歇模型”。這個模型對整個信息體系的規劃,包括信息體系的架構,都起到了一個非常基礎的作用。
目前,城市數據面整合面臨一個難題,就是政府各類應用系統林立,形成了一個個的“信息孤島”,“數據整合”的需求可以說非常迫切。但實施起來也是困難重重,在進行系統整合時,隨著不同應用系統的數量呈算術級數增加,資源接口數就會呈N平方增加,進而“資源整合”的投入就會呈指數級數增加,因此,面向應用數據的直接整合,工作量非常龐大。
田景熙教授提出了一個新概念--數據基礎設施(Data Infrastructure - DI)概念。什么是DI?它是一種為滿足社會某種需要而運行的,促進數據共享和消費的數字化基礎設施,其建設和服務體現一定的經濟功能。數據源不直接交換與共享,而是通過“標準數據源”+“接口池”媒介實現。標準數據源和接口池就是“數據基礎設施”,對異構數據源進行交換前的數據治理。
那么,怎么樣去實現?我們也研究了一些模型:
1、信息資源“金字塔模型”。它認為數據、信息、知識、智慧是層層遞進的,我們從數據中獲取信息,而從信息中得到知識,最后從知識中獲取智慧。
2、FEA-DRM聯邦企業架構數據參考模型。它包括五個模型,技術參考模型(TRM)、數據和信息參考模型(DRM)是底層基礎架構。數據參考模型的目標是通過標準的數據描述、通用數據的發現以及統一的數據管理實踐的推廣使得聯邦政府實現跨機構的信息共享和重用。那么,它具體是怎樣來做的呢?它其實是以整個數據元為基礎,通過梳理業務關系、數據分類,實現數據的交換共享。
(二)產品概述
數據基因(DNA)是指基于數據元的標準化編碼上可實現數據自由編輯、抽取、復制和關聯應用的信息技術體系。它是實現數據跨系統共享交換、創新應用的底層邏輯和信息規則。
數據基因系統是通過數據元管理標準化實現數據規范編輯、智能管理、關聯應用和共享開放,以提升數據資源活化和管理能級,旨在為政府建立數據管理體系提供便捷、可靠的工具支撐,幫助梳理數據資產清單、統一數據口徑、建立數據標準、定位數據資源、分析資源關系、設計服務模型。整個系統架構包括資源桌面、資源服務、資源管理和資源模板。
(三)場景應用
下面,我將結合我們做的一些咨詢項目講一下我們這個系統的一些創新服務。
模塊化服務
為什么我們要做模板化服務?我們在做很多項目、去各個部門調研梳理信息資源時,發現沒有一個部門能有人把他這個部門到底有哪些資源講清楚,他需要把業務處的相關人員都叫過來開調研會,然后我們才可能知道這個業務處是負責哪塊業務、都有什么業務資源。于是,我們在想,我們能不能在這么多咨詢項目和經驗的基礎上,來提供一套服務,說清一個城市的核心業務部門能產生哪些核心業務數據。
我們的模塊化服務,是圍繞基礎類、主題類、部門類提供數據元、信息資源模板制作、導入、生成功能,對比篩選設計出城市核心業務部門的核心業務信息資源作為整個系統核心數據元、信息資源模型,通過模板庫各單位可直接使用數據元、信息資源模板,以直接沿用或是自定義修改的方式對模板進行選擇性的編目,達到各部門政務信息資源快速梳理、信息資源體系快速架構的目標。
資產化服務
為什么做資產化服務?我們對很多城市部門系統進行調研時發現,部門應用系統非常多,網絡也非常多,有專網、外網、內網,同時這些應用系統的數據庫、數據字段也非常多,且相互之間的關系都不清楚。
因此,我們做了個資產化服務,數據基因系統通過對城市機房、服務器、應用系統、數據庫等數據資產的梳理,建立部門數據資產清單,通過系統建立之間的相互關系,理清楚系統與系統之間、系統與數據庫、表之間、數據與數據之間的關系,實現數據-數據表-數據庫-應用系統-服務器-機房(云)的關系展現,建立部門數據資產地圖。
標準化服務
我們現在存在“一義多詞”,即使用同種文字的人們也經常用多種不同的數據組合表示同一種概念;還存在“一詞多義”,即在不同場合用同一數據的組合來表示不同的意義。在信息系統里,前者會導致數據冗余浪費計算機資源,后者會因為數據的不一致導致語義理解的偏差。兩者共同影響著信息集成與交換能力,成為當前信息化建設的關鍵問題。
數據元標準化是信息技術標準化的重要組成部分,是信息交換的前提,是信息系統建設的基礎和運行的保證。那么,我們怎么做到數據元、數據字段的標準化?讓數據元在不同環境、不同應用場景下都能夠實現快速交換和共享?
我們做了幾個事情。(1)重復清洗比對。就是能告訴你存在哪些重復的字段,這些字段的定義、長度、格式是不是一致?系統會幫你自動判斷。(2)根據同異配置進行梳理,系統能夠主動地判別出存在哪些同異,比如日期對應的業務是否一樣?姓名對應的標準是否一樣?(3)跟國家標準去比對。
數據元的標準化是形成以標準數據元為基礎構建的穩定數據環境的途徑,是實現系統間高層次的集成,從根本上克服“數字鴻溝”,解決“信息孤島”問題。數據源的標準化,不是說中國所有應用系統里面所有的字段都要進行標準化,要進行標準化的是針對各個部門都要交換共享到的核心業務數據,比如最基本的人口信息、法人信息等,這些信息是要標準化的,是不能夠存在不一致現象的。
數據基因系統數據元池的建立,梳理分析各部門、各應用系統中出現的相同的、近義的數據字段,通過分析其頻率、數據定義及數據相互之間關系(數據來源、數據流向等),了解各應用系統之間數據標準體系的建設情況,輔助數據質量問題分析。未來各個部門在新建應用系統時,采用標準化的數據元池,字段要在標準數據元池里進行勾選;新建的應用系統不用做接口,因為數據的格式、定義都是一致的。
智能化服務
現在很多城市已建了很多的數據庫,人口庫、交換共享平臺等,但這些數據庫的運行效果怎么樣?到底有哪些資源在里面、在交換、在共享?其實,現在很多都是不清楚的,那么,我們怎么樣快速地實現把這些數據庫、各個應用系統中的數據、資源形成數據資源體系呢?
首先,我們做了數據庫的直接采集;其次,根據數據庫采集過來的數據表結構、數據字典,快速地生成信息資源,通過跟前面的標準、模板去比對,我們能夠快速地把它匹配出來,形成資源目錄,告訴其他部門我有哪些資源可以提供,有條件共享、無條件共享或是可開放。不是我們做到字段級的共享,而是可以針對一個數據里面只有某個字段去進行共享,某幾個字段不能進行共享。
模型化服務
現在大家可以看到交換共享是在做,但是很多交換共享平臺只是為了交換而交換,做了各種各樣的交換平臺,這些平臺之間沒有進行打通,接口非常混亂且難以擴展,把原來小的“信息孤島”變成現在大的“交換孤島”。那么我們怎么來解決這樣的一個現象,我們能不能做到系統與數據的一個分離?
我們基于前面的基礎,提供一個模型化服務。未來各個部門可以在數據基因系統上,去構建自己各種各樣的模型庫。比如,可以分析地區房價與學區、人流量之間的關系;可以基于這個模型的基礎上去做很多數據庫的設計,做整個數據框架的設計,因為我們的數據云字段在這里面都提供了。我們相當于在業務人員和技術人員之間通過數據基因系統架了一座橋梁,業務人員可以更好地去了解技術,同時技術人員能夠快速的去理解需求。我們可以快速的把我們設計的模型導成表結構的形式、各種各樣模型的形式。
最后我講一下我們上述各種服務的客戶價值:模板化服務能夠幫助客戶快速地建立信息資源體系,資產化服務能幫助客戶建立城市數據資產地圖,標準化服務能輔助數據標準落地,模型化服務可實現系統與數據分離,智能化服務能輔助數據質量問題分析。
我們希望數據基因能在更多的城市使用,幫助城市實現底層數據基礎扎實的工作。