機器學習:網絡攻防新利器
亞信網絡安全產業(yè)技術研究院副院長童寧做《機器學習驅動網絡安全發(fā)展》的分享
在人工智能時代,各行各業(yè)最怕聽到的是“取代”:人工智能被認為將一步步取代法官、取代速記員,取代建筑工人和出租車司機……不過,目前在許多行業(yè),人工智能仍然只能扮演配角,網絡安全就是其中之一。
“就安全領域來講,我們把人工智能當成一種幫助安全專家更有效地工作的一個工具。在可見的未來,還是需要領域專家和網絡安全專家來主導。”7月6日~7日,在成都召開的C3安全峰會上,亞信安全通用安全產品中心總經理、亞信網絡安全產業(yè)技術研究院副院長童寧在接受《中國科學報》記者專訪時表示,機器學習的確提供了強有力的幫助,但在當前網絡攻防態(tài)勢下,機器學習也難以“一肩挑”。
不過,隨著對機器學習這件工具開發(fā)、利用得逐漸深入,網絡安全正在進入網絡攻防的新階段。
充分條件和必要條件
機器學習技術應用于網絡安全早已有之。童寧指出,早在1986年,美國斯坦福研究中心就提出用數據統計來檢測網絡非法入侵。“利用機器學習算法對垃圾郵件進行分類,也已是20年前的事情。”
童寧介紹說,隨著移動互聯網的發(fā)展,大量的設備產生了各式各樣的日志文件。特別是在2000年以后,在日志管理和分析方面,機器學習算法有了長足的發(fā)展。比如IBM等大型互聯網企業(yè)就在這些方面使用了大量的機器學習算法,包括關聯分析等。
“2000年以來,機器學習所帶來的變革——比如利用機器學習算法對用戶的異常行為進行分析等開始普及起來。”童寧說。
趨勢科技資深數據科學家張佳彥從技術發(fā)展和經濟原因兩方面,向《中國科學報》記者展示了機器學習介入網絡安全的“充分條件”和“必要條件”。
“從2006年開始,網絡病毒開始急劇增加,直到2012年達到第一個高峰期。而2012年開始進入第二個循環(huán),更多的新病毒大量出現。” 張佳彥援引一組數據提出:“以2007年的數字為例,每年有約600萬個新病毒出現,也就是每天出現1.6萬個病毒。在這種情況下僅靠網絡安全專家分析和阻擋是不夠的,這就為機器學習的出現提供了充分條件。”
然而事實是,2006~2012年間,一些機器學習技術已經被用來嘗試助陣網絡安防,但直到2013年機器學習技術才逐漸被安全專家所討論和強調。這背后的原因是什么?張佳彥認為其中牽涉不只是技術問題,還有經濟原因。
原來,2006~2012年這期間,病毒的制造者已經從單一黑客演化到有組織的黑客犯罪系統,目標就是為了竊取受感染電腦的資訊進行販賣。此時病毒的變種已經非常繁多,網絡安全公司已開始使用機器學習對抗病毒。
然而,在這期間,用戶還不能接受機器學習的手段——這一階段的許多病毒都有潛伏期,由于沒有立即性危害,許多用戶雖已中毒但并不知情。而相比其他解決方案(如1:N病毒碼),誤判率更高的機器學習算法顯然給用戶帶來了困擾。
“這個時候即使已經用了機器學習方案,但大家也不愿大張旗鼓地說。” 張佳彥告訴記者。
“劇情”在2012年后出現急轉。到了勒索軟件為代表的“網絡威脅時代”,緊跟著此后不易追蹤的比特幣等的出現,勒索病毒所造成的立即性損失(的重要性)已經超過了機器誤判帶來的困擾,“這為機器學習參與網絡攻防提供了必要條件。” 張佳彥表示。
有監(jiān)督學習和無監(jiān)督學習
對于機器學習來講,最主要的兩個概念分別是“有監(jiān)督學習”和“無監(jiān)督學習”。百度安全首席架構師武廣柱解釋說:“有監(jiān)督學習就是人們‘告訴’機器‘哪些數據是屬于哪一類的’,然后進行數據訓練;反之,無監(jiān)督學習就是不‘告訴’機器,直接由人們對最終輸出的結果進行定義。”
“有監(jiān)督的學習一開始就有人為的因素在里面,如果訓練結果不盡人意,工程師可以進行算法調整,直至它的結果達到人們的要求以后,再投入生產使用。”童寧介紹說。
一個有監(jiān)督學習常用的例子是,從房地產中介商處拿到一些房屋原始數據:年代、面積、位置、成交價等,交給機器去“學習”。產生的模型就可以對后來的購房者提供參考:比如輸入其預算多少錢,得出該客戶能夠在什么區(qū)位買到什么樣的房子。
童寧表示,有監(jiān)督學習的這種能力可以用于網絡攻防中對惡意程序、垃圾郵件的識別和對勒索病毒的防治,特別是在需要多維度識別的情況下,能夠大幅提高識別速度和效率。
無監(jiān)督學習所用的方法與有監(jiān)督學習有些不同。“機器直接根據數據自身的特征進行自動分類,但機器并不知曉所分類、聚合的特征是什么。人們再行標注具體屬性。”童寧說,無監(jiān)督學習“聚類”的優(yōu)勢,可以輕易挑出“少數派”,幫人們監(jiān)控到一些人所不易察覺的異常行為。
“通過這有監(jiān)督和無監(jiān)督學習的兩個例子,可以發(fā)現機器學習關鍵是,首先必須要有持續(xù)性的、高質量的數據。因為整個的網絡環(huán)境一直在變,機器需要學習的內容也要隨之而變。”童寧半開玩笑說,“機器跟我們人類一樣,需要‘活到老,學到老’,從而保證它的學習能力。”
更重要的一點是,無論有監(jiān)督學習還是無監(jiān)督學習,對特征的抽取和概括總結,都是由網絡安全專家和領域專家所區(qū)別出來的,因此,“必須要有解決問題的領域專家”。
“我們的客戶常常問:是不是有數據專家、網絡安全專家就夠了?答案是否定的。必須要有領域內的專家,否則抽取的特征很難去把握。”童寧指出,只有三種元素(持續(xù)高質量的安全數據、領域專家-網絡安全專家、機器學習數據專家)協作,機器學習在網絡安全方面的應用才能獲得更好的效果。
張佳彥也提出,在傳統機器學習所必不可缺的三大要素——數據、特征、算法之中,“最花時間的”就是網絡安全專家如何產生有效的特征:“這需要非常有經驗的專家,還要經過反復不斷的測試,才能得到良好的結果。”
機器學習不是“萬靈丹”
不過,在張佳彥看來,除了對安全專家的依賴,機器學習還存在一個軟肋:誤判率。
“對我來說機器學習就像‘原子彈’,它的威力無窮,但如果用得不好會傷敵一千,自損八百。”張佳彥指出:“訓練出來的模型某種程度上有不可避免的誤判率,所以我認為機器學習的重點,不僅在于可以把誤判率降低多少,更在于承認它一定有誤判率的存在。”
他認為,如何將誤判率對用戶造成的傷害和困擾降到最低,是當前機器學習更重要的議題。
“機器學習在垃圾郵件分類、惡意程序查殺方面,已經比較成熟了。有時分錯一些郵件相對來講還可以接受,但一旦查殺錯‘惡意程序’,后果就嚴重了。”童寧作為一線安全專家深知,機器學習即便再強大也不能對其押上所有賭注。
“我們強調機器學習技術也是強調它多維識別很強,但我們并沒有放棄第一代的黑白名單、第二代的行為監(jiān)控等技術,機器學習技術再強大也只是輔助工具,這些手段綜合起來利用效果才更好。”童寧告訴《中國科學報》記者,“網絡攻防是永恒的主題,我們唯一能做的就是拿出各種武器,跟黑客戰(zhàn)斗到底。”
四川新華電腦學院專業(yè)職業(yè)規(guī)劃師為你提供更多幫助【在線咨詢】
上一篇:分享經濟推動中國“無處不分享”
下一篇: 2017全球十大新興技術