網路資訊/企業IT平台在雲端 APM如何管住應用效能

作/狄恩

雲端、巨量資料以及分散式運算可說是系統的煉獄,而這能否透過應用效能管理來冷卻其複雜性呢?

以為自己充分掌握了系統的應用效能?亞馬遜(Amazon)也這麼想,不過他們的電子商務曾當機了49分鐘。另外納斯達克(Nasdaq)也出現了狀況,8月時因為技術故障,導致系統3小時無法交易,讓USA Today等報紙猜測伊朗駭客可能癱瘓了美國證券交易市場。

[廣告] 請繼續往下閱讀.

他們還在調查真正原因,不過基於這些組織擁有非常先進的基礎設施,可以想像,能夠癱瘓他們設備的人,絕非那些只會關掉網路數據機的泛泛之輩。

要管理整個企業的應用(applications)從來不是件簡單的事,更不用說還要管理網路與伺服器虛擬化、雲端應用與基礎建設、巨量資料與因素分析診斷,若一不小心有個閃失,貴公司也可能會遭遇嚴重的問題,進而失去控制。

是什麼阻礙APM的發展? 

有些IT專家已經放棄了應用效能管理系統(applications performance management,以下簡稱APM),因為他們認為這些系統已經無法應付當今各種分散的應用,尤其是各種資源與資料根本四散各處。

[廣告] 請繼續往下閱讀..

幾年前用的應用效能管理系統,如今已經不敷需求,而InformationWeek《2013年應用效能管理調查》顯示,IT人員確實感到無力。

從2010年開始調查以來,使用應用效能管理系統的受訪者持續微幅下滑;當問到為何不使用這類系統時,回答「佔用太多員工時間」者大幅跳升,從32%增加到51%。另外,缺乏相關專業則是位居第2的因素,佔40%。 

總括來說,資料的數量與種類變化,以及架構的複雜度,從2010年以來大幅上升,而部分應用效能管理業者並沒有跟上這個潮流。

各家公司的資訊長就算花錢也解決不了問題,只能硬著頭皮解決。不過,先別急著放棄應用效能管理系統。許多大型業者,包括BMC、CA、惠普(HP)與IBM等,都透過併購得到了相關能力,足以解決終端使用者的問題。

[廣告] 請繼續往下閱讀...

如果使用這些APM的公司,不僅僅只設定臨界值、延遲中斷與監控反應時間等基本功能外,還能向下挖掘,或許會發現一些好東西,像是即時反映趨勢的圖表。這會需要一些實驗,而且必須與業者的顧問團隊深入交涉,不過結果應會讓人非常驚喜。 

第3個阻礙APM的因素就是成本,有33%的受訪者提到這個因素(2010年為41%)。當然,即使有些時候,許多配置在內部已投入了大量時間,但仍需要外在的協助。筆者有個客戶的專案就是如此,他們一開始不想使用專業服務,但最後仍被迫重新分配資金,以達到APM業者的要求。 

基本上,如果企業想要獲得正式支援,必須雇用業者來評估環境。這次只有10%的APM用戶表示,他們的系統規格超出預期,低於2010年的18%。

筆者發現,無論是APM用戶或是業者,他們都無法了解,現今的虛擬化系統與雲端系統怎麼會產生如此巨大、複雜的營運資料。

解決雲端與巨量資料的複雜性 

為了監控、管理虛擬網路,現在伺服器虛擬化工具被大量使用,也使得資料點和資料測量變得更複雜。比起5年前,當時實體伺服器的輪詢間隔(Polling intervals)約為10到15分鐘,如今虛擬伺服器大約是2到5分鐘,有時還得更頻繁。

並不是所有蒐集到的資料都有用,但為了確保高度虛擬化系統的應用效能,企業應該找出關鍵的資料流,並找到適合的應用效能管理系統進行整理,以產出有用的資訊。在尋找的過程中,企業可能會遇到下列2個阻礙。 

1.使用混合雲的IT團隊其應用服務通常橫跨了雲端業者和內部網路,而且彼此獨立運作。要仔細監控這些共享資源,幾乎不太可能。

必須使用新方法來解決這個問題,例如從雲端服務與管理業者取得應用程式介面(API)。不過,儘管多數API是以REST為基礎、使用XML語言,但API通常無法在基礎設施、平台或SaaS層次上跨越不同的雲。

Simple Cloud API希望降低雲之間的障礙,解決供應商鎖定問題,但筆者只能說:祝他們好運。雲端管理系統業者(BMC、CA、HP、IBM)必須持續強化他們與公有雲、混合雲的介面,但他們必須等待雲端業者的API。 

2.龐大的資料來源包括記錄檔、封包擷取、SNMP、XML資料、企業回應時間量表等。筆者對於APM的未來,有不同看法:如果可以利用這些資料來源,把目前的應用效能問題與未來可能碰到的問題獨立出來,將頭痛問題變成自己的利器。

不過,要得到這樣的好處,傳統隨意查詢與產生歷史資料報表的方法,也必須跟著改變,例如開始使用NoSQL查詢法。 

這會產生兩種重大風險。

第一,就是沒有足夠的儲存空間。

第二,如果APM系統吃掉太多網路與運算資源,那麼它不但無法提升效能,反而會傷害效能。

現在企業應該審慎思考,究竟要使用多少資料來源。在近期一項計畫中,筆者想要設定一個大數量的應用紀錄。結果,當筆者用類似生產負載量測試該應用時,才發現資料處理的時間過長;所以,只好減少資料紀錄量。

如果貴公司也遇到相同狀況,即設定了太長的資料留存時間,則應該思考如何選擇對的資料,因為這才是重點。