大數據概念和特點 |
|||
來源: | 發布時間:2015年05月19日|||
摘要:
|
|||
大數據(big data),指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資 訊。在維克托?邁爾-舍恩伯格及肯尼斯?庫克耶編寫的《大數據時代》中,大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據的方法。 “大數據”這個術語最早期的引用可追溯到apache org的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨著Google Map&Reduce和Google File System (GFS)的發布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。 美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指 人們在互聯網上發布的信息,全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質 的變化,也產生了海量的數據信息。 “大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。 大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。 從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘,但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。 大 數據的特點有四個層面:第一,數據體量巨大,從TB級別,躍升到PB級別;第二,數據類型繁多,包含網絡日志、視頻、圖片、地理位置信息等等;第三,處理 速度快,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同;第四,只要合理利用數據并對其進行正確、準確的分 析,將會帶來很高的價值回報。業界將其歸納為4個 “V” ——Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。 |
|||
|