1.研究背景
隨著近年我國半導體產業(yè)快速發(fā)展,人工智能技術不斷積累迭代,軟硬一體的智能芯片等核心技術研究取得重要突破,AI也在數字時代扮演著越來越重要的角色,正加速融入電信運營商、能源交通、醫(yī)療、教育、制造業(yè)、物流、直播等多個領域,加之“東數西算”新基建相關云計算數據中心大規(guī)模投入使用,帶來 AI 算力的大幅提升,算力充沛,不斷賦能創(chuàng)造出新業(yè)態(tài)、新模式行業(yè)場景,實現大數據集成的迭代創(chuàng)新,多場景智能應用,提高生產過程自動數字化程度,同時推動經濟社會發(fā)展全要素智能化革新,釋放數據要素紅利,創(chuàng)新美好未來。
社會生產能夠源源不斷地產生海量大數據,但數據作為新型的生產要素,是通過不斷采集、清洗、轉換、分類、打標等流程完成整個數據資產積累過程,在這個過程中機器學習算法,尤其是深度學習算法,通過獲得海量的數據,能夠不間斷進行密集型矩陣計算訓練,訓練可以幫助算法優(yōu)化,實現AI引擎更新和升級,完成AI深度學習模型的進化,豐富行業(yè)知識圖譜,提升數據質量,為AI提供優(yōu)質可靠的“數據燃料”,從而進入到 AI 引擎自我迭代的全新階段。
圖1. AI 引擎分層架構圖
2.AI引擎進入自我迭代階段
當前,我國新基建建設強調產業(yè)融合,除了發(fā)揮數據的生產要素效能,比如:能源上下游產業(yè)打通并帶動車聯(lián)網、物聯(lián)網平臺迅速發(fā)展,節(jié)點傳感器廣泛連接也帶來數據量的暴增,不斷突破,促使數據存儲處理相關的基礎設施加速“擴容”,不僅實現數據在內部流動,甚至跨行業(yè)流動,還要推動數據要素跨越行業(yè)邊界,組成全新的生態(tài)網絡和價值網絡,數據要素是企業(yè)組織數字化轉型的成果。
那么,隨之而來的是企業(yè)組織數字化轉型,是要在解決數據要素生產的迫切需求的同時兼顧數據資產到數據要素的轉化成本,能夠讓企業(yè)組織更快更好實現數據資產化的數據治理安全理論越來越倍受關注和重視,有助于提升數據價值。
根據IDC研究表明,到2025年,全球數據量將會從2016年的16 ZB上升至163ZB。著名研究機構Garter也表示,全球信息量正以59%以上的年增長率快速增長,在這些數據中,結構化數據僅占到全部數據量的20%,其余80%都是以文件形式存在的非結構化和半結構化數據,日志文件、機器數據等又占據非結構化數據的90%。對于企業(yè)組織而言,不僅面對已有的龐大冗余舊數據,未來還會有大幅激增的新類型數據,企業(yè)組織要管理和運用好海量的數據并對這些數據進行有效地挖掘,需要借助數據治理安全平臺落地實踐。因為具備AI引擎自我迭代能力的平臺對數據識別分類的準確率能夠達到90%以上,所以數據治理安全建設離不開AI 引擎助力,不斷自我迭代的AI引擎才能消化掉海量數據。
圖2. AI 引擎的自我迭代
3.AI引擎的自我迭代之路
AI引擎自我迭代的過程是利用機器學習模型,模仿人腦的機制來解釋數據,例如:圖像、聲音和文本,訓練好的AI模型,能夠自動提取字符集、詞級、句子級的特征,結合上下文信息,完整的保留文本中短語級別特征信息,實現多源數據融合、數據采集頻率、數據標準建立、數據質量管理,滿足AI模型所需數據的規(guī)模、質量和時效,以提升模型擬合的效果。
首先是AI引擎早期小樣本數據學習階段?;跈C器學習、自然語言理解和知識圖譜訓練所需的數據原料篩選需要人工監(jiān)督,通過人工不斷地提供結構化、特征化處理和數據質量的優(yōu)化服務,根據數據特征和用戶需求進行動態(tài)調整和反饋,知識圖譜搭建也需要大量半結構化和非結構化數據支持來開展工作,在結構化數據基礎上,將半結構化或非結構化數據納入數據源并支持AI引擎分析使用。
其次是AI引擎進行數據分析階段。數據質量的高度敏感要求,數據質量的優(yōu)劣極大程度影響AI模型的應用效果,必須進行多維度的質量檢查,以及對實時性高要求,實時數據分析、推薦和預警時,數據源更強調具備實時性接入能力。利用深度神經網絡可以實現AI模型的自我更新和優(yōu)化,尤其是視覺圖像識別應用領域。比如:當傳感器檢測到產品存在時,光源觸發(fā)并點亮產品區(qū)域,幀抓取器的數字化設備將這些原始數據轉換成數字輸出,然后這些數據作為數字文件由軟件系統(tǒng)存儲在計算機中,以供進一步對比分析預先輸入的產品參數數據。如果這些數據有缺陷,AI引擎識別問題并學習如何解決,進行數據質量控制。
最后是AI引擎的自我迭代階段。通過打造AI引擎對數據的閉環(huán)流通管理,建立數據采集和回饋分析的閉環(huán)式自學習體系,基于實時數據處理、實時特征開發(fā)和實時應用開發(fā)等數據架構的搭建,將流式數據的接入實時反饋到模型運行輸出,使模型結果更加及時準確。達到AI模型上線后的持續(xù)迭代優(yōu)化。為了讓Al模型的預測結果更加準確,可將模型運行后的結果數據更新反饋給Al模型,利用實時閉環(huán)數據進行自學習,強化反饋回路以優(yōu)化模型算法,防止模型效果因長時間使用而效果變差。比如,數據智能分類分級模型持續(xù)用舊模型預測新數據,不更新閉環(huán)數據反饋的話,隨著時間的流逝,模型將逐漸降低精準分類分級效果,導致數據分類分級的效果越來越差。
一個好的數據治理安全解決方案必須做到算力、算法和數據的象限聚焦。在數據治理安全平臺,通過AI引擎對數據的深度加工與精煉,依賴算力、算法將數據訓練成行業(yè)專用的知識圖譜模型,進而實現包括結構化、半/非結構化數據的自動發(fā)現,數據自動分類分級打標,數據資產化,數據質量在數據字段豐富度、數據分布和數據實時性等維度應用提升。
圖3. 機器學習技術框架應用
4.AI引擎在數據治理安全平臺應用實踐
積累沉淀行業(yè)業(yè)務場景的數據治理和模型開發(fā)經驗,搭建數據治理安全平臺,采用具備自我迭代的AI引擎,能夠自動對AI數據形式進行標準定義,將特征工程標準化、自動化、智能化,快速對接得到可被機器理解的結構化、半/非結構化數據,投喂給AI引擎,縮短掃描敏感數據發(fā)現時間,提高數據自動分類分級打標效率,從而自動改善數據質量。
AI 引擎從全域全量數據自動發(fā)現到暗數據掃描再到數據分類分級的階段,借助文本聚類等技術,對數據進行基于上下文的識別,精準分類分級,快速整理高頻詞根并將數據分類標簽與敏感度自動映射,建立數據分類分級標準和數據安全策略,通過深度學習自動識別數據質量,對數據質量進行效果評估和智能修復,并根據數據量和業(yè)務階段的變化進行動態(tài)更新;建立起業(yè)務部門與系統(tǒng)之間、多環(huán)節(jié)業(yè)務流程的信息采集、關聯(lián)和交互,提高數據要素流通效率和精確度。
首先是全域全量數據自動接入。接入多源異構數據源,挖掘企業(yè)組織內外部信息,納入結構化數據,半/非結構化數據,提升與AI模型相關的數據積累??紤]到數據訓練規(guī)模擴張,數據類型異構,數據噪聲指數級增加,對此AI 引擎能針對性地進行數據自動發(fā)現。企業(yè)組織存在大量的暗數據無法通過人工完全發(fā)現,被動地通過流量監(jiān)測方法去分析流量中的數據包,僅能使用少量暗數據,企業(yè)組織往往很難具備將大量暗數據的價值進行挖掘的能力,暗數據只能“埋沒在角落里,無人問津”,AI 引擎有助于掃描到這些暗數據,即使是碎片化數據,也能進行聚類分析,最大限度利用。
其次是數據自動分類分級打標。在行業(yè)數據訓練集中,對各數據資源的字段信息進行人工分詞、標注,形成行業(yè)數據分類分級詞庫、語料庫、規(guī)則庫以及模型庫;然后利用規(guī)則引擎實現初步的行業(yè)數據分類分級;再結合深度學習聚類算法,AI 引擎驅動數據分類分級全流程各環(huán)節(jié),對數據分類和分級的規(guī)則進行適配、更新和維護,定期核驗規(guī)則合理性,動態(tài)完善規(guī)則庫,隨規(guī)則變化進行迭代更新,滿足規(guī)則靈活適配和管理要求,實施持續(xù)迭代訓練和學習,使得AI 引擎能夠自動發(fā)現高敏感度、高價值數據,對行業(yè)數據自動智能分類分級打標并能進行動態(tài)調整更新。
最后是數據質量的自動改善。對接入的多源異構數據從數據有效性、數據一致性、數據唯一性、數據時序性、數據完備性、數據完整性、數據合理性和數據準確性六個維度進行質量管理,在數據融合過程中,AI引擎能夠對數據有效性、一致性和唯一性三個維度進行重新判斷,如:非結構化數據在清洗處理后與結構化數據出現實體重復或內容不一致的情況。
場景舉例:海石平臺AI引擎如何解決工業(yè)高頻高價值應用下的數據痛點。由于工業(yè)機理數據具備多樣、時序與復雜性特征,線下海量數據待挖掘,從驅動經濟效益的高頻高價值業(yè)務場景需求出發(fā),使用AI引擎自動發(fā)現數據,對數據整合、數據分類與清洗、模型訓練,優(yōu)化迭代,實現數據資產化目標。
圖4. 數據治理安全平臺AI引擎框架
5.AI引擎在行業(yè)數據治理安全領域的持續(xù)優(yōu)化
由于工業(yè)數據來源眾多,既有經營管理財務數據,還有工業(yè)生產制造數據及傳感器設備的海量數據等,并且數據采集設備種類多、接口復雜。打通數據,讓數據匯聚,可共享流轉應用是工業(yè)數據的數據治理安全痛點。
工業(yè)數字化轉型過程中將產生龐大量級的時序數據,因此對時序數據的測點范圍選取、采集頻率考量、高并發(fā)高吞吐能力、能否支持云邊協(xié)同及實時應用。
在產品的設計加工和生產制造流程中,企業(yè)需對時序數據的采集、存儲、查詢、處理和分析,實時監(jiān)控企業(yè)正常的生產經營過程。
工業(yè)產業(yè)鏈條長及工業(yè)機理復雜,需了解大量工業(yè)技術原理、行業(yè)知識、基礎工藝等,強調對工業(yè)背景的理解。
海石平臺AI引擎利用機器學習技術,工業(yè)機理數據自動發(fā)現,數據分類分級的環(huán)節(jié)更加自動化、智能化,可極大提升數據治理工作效率,同時基于自然語言理解和知識圖譜挖掘關聯(lián)數據的應用價值,解決數據質量管理的傳統(tǒng)難題,使治理后的數據更加契合AI應用的要求,從效率和質量加速AI引擎的自我迭代進程。那么AI引擎不斷優(yōu)化也給企業(yè)組織帶來更多智能化轉型信心,加大相關數據治理安全項目的預算投入,進一步推進了相關數據治理安全體系建設,打造平臺共享數據使用,確保數據安全合規(guī),釋放價值。
結論:當下數據生產要素已成為中國數字經濟轉型、工業(yè)智能化、實現高質量發(fā)展重要驅動力,數據共享使用無疑是正確發(fā)揮數據生產要素價值的最佳途徑,而人工智能則是加快數據共享使用的火箭推進器引擎。如果以人工智能為核心的AI 引擎的能夠不斷自我迭代的話,不僅能夠加快企業(yè)組織數據治理安全的效能,而且會對各行各業(yè)乃至中國數字經濟和整體社會發(fā)展都有著至關重要的戰(zhàn)略意義。
圖5. 數據治理安全平臺可視化展示