A. 物聯網解決方案中的大數據

作者 | 網路大數據

來源 | raincent_com

隨著物聯網的演變和發展,所有可以想像到的東西(或事物)和產業都將變得更加智能:智能家居和智慧城市、智能製造機械、智能汽車、智能健康等等。無數被授權收集和交換數據的東西正在形成一個全新的網路——物聯網——一個可以在雲中收集數據、傳輸數據和完成用戶任務的物理對象網路。

物聯網和大數據正在走向勝利之路。不過,要想從這一創新中獲益,還需要解決一些挑戰和問題。在本文中,我們很高興與大家分享多年來在物聯網咨詢領域積累的知識。

物聯網大數據如何應用

首先,有多種方法可以從物聯網大數據中獲益:在某些情況下,通過快速分析就足夠了,而一些有價值的見解只有在經過深入的數據處理之後才能獲得。

實時監測。通過連網設備收集的數據可以用於實時操作:測量家中或辦公室的溫度、跟蹤身體活動(計算步數、監測運動)等;實時監測在醫療保健中被廣泛應用(例如,獲取心率、測量血壓、糖分等);它還成功地應用於製造業(用於控制生產設備)、農業(用於監測牛和作物)和其他行業。

數據分析。在處理物聯網生成的大數據時,我們有機會超越監測,並從這些數據中獲得有價值的見解:識別趨勢,揭示看不見的模式並找到隱藏的信息和相關性。

流程式控制制和優化。來自感測器的數據提供了額外的上下文情境信息,以揭示影響性能和優化流程的重要問題。

▲交通管理:跟蹤不同日期和時間的交通負荷,以制定出針對交通優化的建議,例如,在特定時間段增加公共汽車的數量,看看是否有改觀,以及建議引入新的交通信號燈方案和修建新的道路,以減少街道的交通擁堵狀況。

▲零售:跟蹤超市貨架中商品的銷售情況,並在商品快賣完之前及時通知工作人員補貨。

▲農業:根據感測器的數據,在必要時給作物澆水。

預測性維護。通過連網設備收集的數據可以成為預測風險、主動識別潛在危險狀況的可靠來源,例如:

▲醫療保健:監測患者健康狀態並識別風險(例如,哪些患者有糖尿病、心臟病發作的風險),以便及時採取措施。

▲製造業:預測設備故障,以便在故障發生之前及時解決。

還應注意的是,並非所有的物聯網解決方案都需要大數據(例如,如果智能家居擁有者要藉助智能手機來關燈,則可以在沒有大數據的情況下執行此操作)。重要的是要考慮減少處理動態數據的工作量,並避免存儲將來沒有用處的大量數據。

物聯網中的大數據挑戰

除非處理大量數據以獲取有價值的見解,否則這些數據完全沒用。此外,在數據收集、處理和存儲方面還有各種挑戰。

▲數據可靠性。雖然大數據永遠不會100%准確,但在分析數據之前,請務必確保感測器工作正常,並且用於分析的數據質量可靠,且不會因各種因素(例如,機器運行的不利環境、感測器故障)而損壞。

▲要存儲哪些數據。連網設備會產生萬億位元組的數據,選擇存儲哪些數據和刪除哪些數據是一項艱巨的任務。更重要的是,一些數據的價值還遠遠沒有顯現出來,但將來您可能需要這些數據。如果您決定為將來存儲數據,那麼面臨的挑戰就是以最小的成本做到這一點。

▲分析深度。一旦並非所有大數據都很重要,就會出現另一個挑戰:什麼時候快速分析就足夠了,什麼時候需要進行更深入的分析以帶來更多價值。

▲安全。毫無疑問,各個領域的連網事物可以讓我們的生活變得更加美好,但與此同時,數據安全也成一個非常重要的問題。網路罪犯可以侵入數據中心和設備,連接到交通系統、發電廠、工廠,並從電信運營商那裡竊取個人數據。物聯網大數據對於安全專家來說還是一個相對較新的現象,相關經驗的缺失會增加安全風險。

物聯網解決方案中的大數據處理

在物聯網系統中,物聯網體系架構的數據處理組件因輸入數據的特性、預期結果等而不同。我們已經制定了一些方法來處理物聯網解決方案中的大數據。

數據來自與事物相連的感測器。「事物」可以是任何物體:烤箱、汽車、飛機、建築、工業機器、康復設備等。數據可以是周期性的,也可以是流式的。後者對於實時數據處理和迅速管理事物至關重要。

事物將數據發送到網關,以進行初始數據過濾和預處理,從而減少了傳輸到下一個物聯網系統中的數據量。

邊緣分析。在進行深入數據分析之前,有必要進行數據過濾和預處理,以選擇某些任務所需的最相關數據。此外,此階段還可以確保實時分析,以快速識別之前在雲中通過深度分析所發現的有用模式。

對於基本協議轉換和不同數據協議之間的通信,雲網關是必需的。它還支持現場網關和中央物聯網伺服器之間的數據壓縮和安全數據傳輸。

連網設備生成的數據以其自然格式存儲在數據湖中。原始數據通過「流」進入數據湖。數據保存在數據湖中,直到可以用於業務目的。清理過的結構化數據存儲在數據倉庫中。

機器學習模塊根據之前積累的歷史數據生成模型。這些模型定期(例如,一個月一次)用新數據流更新。輸入的數據被累積並應用於訓練和創建新模型。當這些模型經過專家的測試和批准後,控制應用程序就可以使用它們,以響應新的感測器數據發送命令或警報。

總結

物聯網產生大量數據,可用於實時監控、分析、流程優化和預測性維護等。然而,應該記住,從各種格式的海量數據中獲得有價值的見解並不是一件容易事情:您需要確保感測器工作正常,數據得到安全傳輸和有效處理。此外,始終存在一個問題:哪些數據值得存儲和處理。

盡管存在一些挑戰和問題,但應記住,物聯網的發展勢頭強勁,並可以幫助多個行業的企業開辟新的數字機遇。

B. 如何發展大數據與物聯網

大數據時代的出現確切的說是移動互聯網、物聯網產生了海量的數據,大數據計專算技術完美地解決屬了海量數據的收集、存儲、計算、分析的問題。大數據時代開啟人類社會利用數據價值的另一個時代。

但是中國目前的大數據應用環境和技術相對於美國而言,在整體技術水平、應用環境、國民意識、商業環境、技術廠商、技術平台上面相差超過5年左右。在大數據應用的國家戰略層面落後的也較多。

需要通過政府自身投資來建立大數據平台,吸引中小企業將信息系統及數據放到政府主導的數據平台上,政府將利用此平台來挖掘數據信息,提供數據信息報告。另外一個大數據應用是地方政府請一些大數據公司來開發輿情檢測系統,及時了解社會輿論。無論是大數據產業園還是輿情監控。沒有抓住大數據優勢的核心,大數據產業園的管理機制和創新動力不足,無法發揮大數據計算的優勢,反而浪費了大量的投資,效率較低。輿情監控本身就無法發揮大數據的商業應用優勢,反而阻礙大數據產業的商業應用。我們應該提供大數據產業優惠政策,在資金、場地、稅收、科研方面提供外部支持,讓企業自身投入到大數據產業建設之中,從企業自身商業需求出發,投入資金來發展大數據產業。

C. 物聯網時代的大數據策略

物聯網時代的大數據策略

互聯網時代,PC、Pad、智能手機等設備無處不在,數以億計的用戶通過微博、微信、SNS、博客等途徑產生大量的自媒體數據,電商、新聞類網站、搜索引擎每時每刻都在記錄著豐富的用戶行為信息,海量的數據促進了雲計算,分布式技術的發展,而這些技術反過來不僅推動了Web和移動互聯網的革新,也推動了物聯網的飛速前進。現在,我們正逐漸邁入物聯網時代,實現萬物互聯的願景,如果說之前人是信息生產的主體,那麼或許不久的將來設備將成為主角,它們將源源不斷地產生與人相關的衣食住行信息,這些信息會通過雲計算、數據挖掘等技術實現價值的升華從而為用戶提供更優質、貼心的服務。那麼物聯網時代會產生什麼樣的數據,應該採用什麼樣的大數據策略呢?
THINKstrategies 的總經理 Jeff Kaplan 在自己的博文《 當物聯網遇見大數據 》中寫道:
「你不能使用現在的策略,因為可以被捕獲、管理並利用的數據將更加多樣化,同時用例也會更加豐富。附加到各種設備和對象上的感測器會產生各種類型的數據。這些數據將會用於各種響應式的、主動的或者 創造性的目的 。IT部門的任務就是與業務部門一起工作,完全理解物聯網方面的用例,然後尋找滿足業務需求的技術。特別是,IT部門必須識別出最優的分析平台和工具,讓業務用戶能夠獲取到需要的數據,分析數據的含義並快速地做出響應。」
Gartner公司的副總裁、著名分析師 Joe Skorupa 認為:
「分布在世界各地的物聯網設備將產生大量的輸入數據,將所有的數據傳送到一個位置進行處理無論從技術上還是從經濟上都是無法實現的。最近的趨勢——將應用程序集中起來以便於降低成本並增強安全性——並不適合物聯網。組織必須將數據集中到多個分布式的小型數據中心中,在此對數據進行初步的處理並發送到一個中心站點進行額外的處理。數據中心管理員需要在這些區域部署更加具有前瞻性的容量以滿足業務發展的需要。」
Patrick McFadin則在自己的博文《 物聯網:數據都去了哪裡? 》中闡述了一個具體的數據策略解決方案。他認為整個過程可以分為三個階段:產生數據並通過Internet傳遞、中央系統收集並組織數據、持續的數據分析與使用。
第一階段需要決定數據創建的標准以及如何通過網路進行傳遞。Patrick McFadin認為可以通過HTTP、MQTT和CoAP三種常用的標准協議傳遞數據。HTTP通用程度高,但是它的頭中包含大量冗餘信息,不太適合帶寬比較低的場景。MQTT基於發布/訂閱模型,新的設備或者服務能夠非常容易地連到中央系統上消費消息。另外,它在消息大小上比HTTP更輕量,但是缺點是不包含加密標准。CoAP適合於低功耗、低帶寬的場景,與MQTT的訂閱模式相比它更側重於一對一的連接。
第二階段則需要根據設備、網路以及功耗的限制決定是實時地收集數據還是在某個時間批量收集,同時還需要決定如何存儲數據。如果是實時收集,那麼必須要考慮資料庫的寫入速度,這對於傳統的資料庫而言可能是一個挑戰,但是像 Cassandra 這樣的NoSQL資料庫卻能夠輕松應對。
一旦完成了數據的收集與存儲,接下來就是分析了,這才是整個過程最核心的部分。此時需要考慮需要何時使用分析結果,是否需要立即或近乎實時的分析,還是僅僅需要對歷史數據進行處理。越來越多的人在使用Apache Spark分析大數據,使用Spark Streaming滿足近乎實時的要求,如果將這些技術與Cassandra這樣的NoSQL資料庫結合在一起使用,那麼開發者就能夠處理並分析大規模、快速移動的數據集。
那麼是不是所有的物聯網廠商都需要自己去構建相關的數據解決方案呢?也不盡然,在雲計算的時代大可以利用雲服務提供商的資源,以降低相關的成本,對小公司或初創公司更是如此。
Mike Kavis最近在自己的博文《 物聯網將徹底改變你的大數據策略 》中闡述了自己的方案,他認為:
「在物聯網時代,面對PB級的數據,企業將難以以一己之力完成基礎設施的建設。物聯網所產生的大量數據不僅會驅動現在的數據中心發生根本性的變化,同時也會驅動相關企業採用新的大數據策略。由於缺乏相關技能以及持續增長的數據對基礎設施采購的需求,企業將逐步放棄DIY模式,轉而使用PaaS和託管的解決方案,藉助於資料庫即服務(例如Amazon的Redshift、Hortonworks和Cloudera的企業級Hadoop)、託管的大數據服務(例如Treasure Data)以及矩陣式的數據中心服務(例如GoGrid)實現自己的物聯網數據分析方案。
總之,物聯網的價值在於數據。企業對數據的分析工作啟動地越快,挖掘出的業務價值就越多。而雲服務提供商的目的就是通過加大相關的投入,消除數據收集、管理的風險以及復雜性,讓客戶能夠專注於分析。」

以上是小編為大家分享的關於物聯網時代的大數據策略的相關內容,更多信息可以關注環球青藤分享更多干貨