大數據引擎

大數據引擎

所謂大數據引擎,也稱百度大數據引擎,指的是對大數據進行收集、存儲、計算、挖掘和管理,並通過深度學習技術和數據建模技術,使數據具有“智慧型”。大數據引擎主要包含三大組件:開放雲、數據工廠和百度大腦。

概念

百度推出“大數據引擎”,將為擁有海量數據的傳統企業提供大數據基礎設施。百度推出“大數據引擎”,將為擁有海量數據的傳統企業提供大數據基礎設施。
“大數據引擎(BIGENGINE)”是百度公司2014年4月在第四屆“技術開放日”活動上提出的概念。

百度在開發和運營一整套自主研發的大數據引擎系統,包括數據中心伺服器設計、數據中心規劃和設計、大規模機器學習、分散式存儲、超大規模集群自動化運維、數據管理、數據安全、機器學習(特別是深度學習)、大規模GPU並行化平台等方面,百度“大數據引擎”具有先進性和安全性。

組成

百度大數據引擎一共分三個部分。

開放雲:百度的大規模分散式計算和超大規模存儲雲。過去的百度雲主要面向開發者,大數據引擎的開放雲則是面向有大數據存儲和處理需求的“大開發者”。

百度的開放雲擁有超過1.2萬台的單集群,超過阿里飛天計畫的5k集群。百度開放雲還擁有CPU利用率高、彈性高、成本低等特點。百度是全球首家大規模商用ARM伺服器的公司,而ARM架構的特徵是能耗小和存儲密度大,同時百度還是首家將GPU(圖形處理器)套用在機器學習領域的公司,實現了能耗節省的目的。

數據工廠:開放雲是基礎設施和硬體能力,你可以把數據工廠理解為百度將海量數據組織起來的軟體能力。就像資料庫軟體的位置一樣。只不過數據工廠是被用作處理TB級甚至更大的數據。

百度數據工廠支持單詞百TB異構數據查詢,支持SQL-like以及更複雜的查詢語句,支持各種查詢業務場景。同時百度數據工廠還將承載對於TB級別大表的並發查詢和掃描,大查詢、低並發時每秒可達百GB,在業界已經是很領先的能力了。

百度大腦:有了大數據處理和存儲的基礎之後,還得有一套能夠套用這些數據的算法。圖靈獎獲得者N.Wirth(沃斯)提出過“程式=數據結構+算法”的理論。如果說百度大數據引擎是一個程式,那么它的數據結構就是數據工廠+開放雲,而算法則對應到百度大腦。

百度大腦將百度此前在人工智慧方面的能力開放出來,主要是大規模機器學習能力和深度學習能力。此前它們被套用在語音、圖像、文本識別,以及自然語言和語義理解方面,被套用在不少App,還通過百度Inside等平台開放給了智慧型硬體。現在這些能力將被用來對大數據進行智慧型化的分析、學習、處理、利用。百度深度神經網路擁有200億個參數,是全球規模最大的,它擁有獨立的深度學習研究院(IDL)和較早的布局,在人工智慧上百度已經快了一步,現在貢獻給業界表明了它要開放的決心。

套用

百度大數據引擎採取邀請和免費模式,將在政府、NGO製造醫療金融零售娛樂教育等傳統領域率先開展項目合作。合作機構和傳統企業將能夠線上使用百度的大數據架構,改造和最佳化傳統行業的企業管理、產品服務設計、商業模式等,為創新發展裝上新動力。

交通運輸管理部門的部分套用計畫遷移至百度開放雲平台,利用大數據引擎對行業監測數據進行挖掘分析。

中國疾病預防控制中心(CDC)在傳染病防控方面也與百度開展了大數據合作,雙方將結合疾控大數據與百度大數據,藉助大數據引擎的技術力量,建成中國首個流感預測系統。

相關搜尋

熱門詞條

聯絡我們