陳純院士:大數據將進入實時智能分析處理時代

2019-10-23 17:35 稿源:用戶投稿  0條評論

“數據中所蘊藏的價值就在于分析的過程。隨著移動互聯網、物聯網,尤其是5G的到來,帶有時間序列的大數據將具有無與倫比的價值,是最近幾年研究的重點。大數據分析處理技術將進入實時智能時代。”

2019 年 10 月 21 日,中國工程院院士、浙江大學陳純教授在第六屆世界互聯網大會上提出的觀點。當天,陳純院士做了題為“時序大數據實時智能處理技術及網絡安全應用”的報告,分析了時序大數據實時智能處理技術需要突破的技術難點,并介紹了該項技術目前的應用情況。

何為時序大數據?

大數據時代使領域和行業邊界愈加模糊,數據作為一種資產為企業帶來新的商業價值,數據開放讓政府治理和個人福祉都面臨著機遇和挑戰。

在互聯網以前,我們只有人類社會和物理世界,然后才有了數據產品及信息空間。在信息空間,包括云計算、人工智能、VR/AR都非常重要,產生了很多數據。但大數據并非僅“大”有價值,與普通數據相比,最大特點是帶有時間戳,即時序大數據。

舉個例子:

我們把數據當做水庫的話,水庫里的存在的水就是批式大數據,進來的水是流式大數據,即實時的大數據。

時序大數據就是以前的歷史數據,加上實時的數據,是帶有時間標簽(按照時間的順序變化,即時間序列化)的數據。此外數據會形成關系圖譜、關聯圖譜,就像社交,以前的關聯圖譜不帶有時間。而基于時序大數據,不僅把歷史數據都留下來,現在的數據也時刻流進來。數據剛產生時價值最好,及時分析處理,最能體現它在應用上的價值。

如何通過實時數據打造智能分析處理平臺?

大數據實時智能平臺是基于實時計算和人工智能,集知識產生和知識應用為一體的集中式技術平臺體系。以實現熱數據價值最大化為基礎理念,支撐不同業務場景價值的高效挖掘與應用為核心目標。

在這套完整的技術體系里,需要融合實時指標計算、智能學習、智能決策、關聯圖譜四大平臺子系統,來提供全方位的知識產生與知識應用能力。實時指標平臺需要解決從原始的流水到指標的實時計算和指標的快速存儲、快速讀取問題;同時,也要有底層技術來解決實時的指標采集和清洗問題。

只要是智能的平臺,一定會有智能模型,智能學習平臺中,智能模型不僅僅指深度學習,深度學習最大的貢獻之一是能利用大數據進行訓練,從而獲得多層次的數據特征,利用這些特征可以大大提升模型對數據的分類精度。

現實社會織起了一個龐大而復雜的關系網,比起傳統的關系型數據庫,關聯圖譜更擅長建立復雜的關系網絡。在復雜的關系網絡中,當我們涉及到多層次關聯查詢時,基于關聯圖譜的查詢效率可高出幾千倍甚至上萬倍。關聯圖譜平臺通過數據抽取工具,多維度的數據挖掘,計算圖譜中各實體間關系,從而實現秒級數據運算與匹配,并通過圖譜的可視化方式展示出來。

分析計算結合智能模型,便構成了時序大數據實時智能技術架構,可以進行實時采集、實時加工、實時分析、實時決策,也即智能決策平臺的實時決策。

時序大數據實時智能分析技術需要突破哪些難題?

陳純表示,研發具有快速、高效、智能且自主可控的時序大數據實時處理技術與平臺,面臨諸多技術難點。

關鍵技術一:復雜統計指標的增量計算。大數據的分析,一些統計指標特征計算是非常重要的,均值、方差等。簡單算法、靜態取數、容器類算法、復雜算法、CEP等分別如何實現?增量計算中如何進行退單等常見場景的逆向計算?事件亂序抵達如何確保增量計算的結果一致?這些數理統計算法中的增量計算、可逆計算、亂序計算等問題需要考慮。

關鍵技術二:時序數據處理的動態時間窗口。時間窗口需提供滾動、滑動的漂移能力,支持長周期時間窗口的動態精度控制,支持基于彈性時間窗口的實時ADHoc查詢。

關鍵技術三:基于流的事件序列識別(復雜事件處理 CEP)。事件模式的增量匹配、疊加通用算法的增量統計等支持CEP的增量匹配及數理統計問題。

關鍵技術四:動態時序圖譜的實時分析計算。大規模時序圖譜如何提供百萬tps的建圖能力;時序圖譜的分布式處理, 10 億頂點, 100 億邊( 10 億時序復雜邊)的前提下, 3 層以上查詢如何控制在秒級;大規模時序圖譜如何秒級的圖搜索(最短路徑、Page Rank、Louvain、LPA等)能力;面向時序圖譜的查詢語言,支持動態時序圖譜的時間維度Ad Hoc查詢分析能力?

目前陳純院士及團隊,在大數據實時智能處理領域研究中已突破多項業界難題,取得多項科研成果。依托浙江大學,浙江邦盛科技有限公司等一批產學研平臺都在致力于實時智能技術的研究,自主研發的大數據實時智能處理平臺“流立方”,已經投入到多家金融機構及政府公共服務部門等的實際應用中。

時序大數據在哪些領域能發揮價值?

陳純表示,目前基于“流立方”的時序大數據實時智能處理平臺已經在近 400 家大中型單位成功應用,行業涵蓋金融、交通、政務、電信、公安等領域。

以金融風控反欺詐場景為例,部署“流立方”風控系統僅需在交易前端增加風控探頭,將實時交易數據旁路接入系統。“流立方”風控系統根據融合了專家知識和機器學習結果的幾千條規則對每筆交易進行風險評估,判斷是否允許進行該筆交易。

在網絡自動化攻擊防御場景中,基于“流立方”的實時機器防御系統通過多服務器訪問流水關聯決策、長周期數據決策、復雜規則爬蟲識別、設備維度爬蟲識別、人機識別等技術,實現了微秒級(400~800μs)的識別時延,能夠攔截業務系統中占原有訪問總流量80%~90%的來自網絡機器人的訪問流量,使得其業務系統服務器的壓力降為原來的10%。

陳純表示,數字經濟建設中,采用“事中”甚至“事前”模式實現感知、分析、判斷、決策等功能的智能系統都需要大數據實時智能處理平臺的支撐。


本文由站長之家用戶投稿,未經站長之家同意,嚴禁轉載。如廣大用戶朋友,發現稿件存在不實報道,歡迎讀者反饋、糾正、舉報問題(反饋入口)。

免責聲明:本文為用戶投稿的文章,站長之家發布此文僅為傳遞信息,不代表站長之家贊同其觀點,不對對內容真實性負責,僅供用戶參考之用,不構成任何投資、使用建議。請讀者自行核實真實性,以及可能存在的風險,任何后果均由讀者自行承擔。

聲明:本文轉載自第三方媒體,如需轉載,請聯系版權方授權轉載。協助申請

相關文章

相關熱點

查看更多
?
四川快乐12官方计划