大數據引擎:所謂大數據引擎，也稱百度大數據引擎，指的是對大數據進行收集、 -百科知識中文網

概念

“大數據引擎（BIGENGINE）”是百度公司2014年4月在第四屆“技術開放日”活動上提出的概念。

百度在開發和運營一整套自主研發的大數據引擎系統，包括數據中心伺服器設計、數據中心規劃和設計、大規模機器學習、分散式存儲、超大規模集群自動化運維、數據管理、數據安全、機器學習（特別是深度學習）、大規模GPU並行化平台等方面，百度“大數據引擎”具有先進性和安全性。

組成

百度大數據引擎一共分三個部分。

開放雲：百度的大規模分散式計算和超大規模存儲雲。過去的百度雲主要面向開發者，大數據引擎的開放雲則是面向有大數據存儲和處理需求的“大開發者”。

百度的開放雲擁有超過1.2萬台的單集群，超過阿里飛天計畫的5k集群。百度開放雲還擁有CPU利用率高、彈性高、成本低等特點。百度是全球首家大規模商用ARM伺服器的公司，而ARM架構的特徵是能耗小和存儲密度大，同時百度還是首家將GPU（圖形處理器）套用在機器學習領域的公司，實現了能耗節省的目的。

數據工廠：開放雲是基礎設施和硬體能力，你可以把數據工廠理解為百度將海量數據組織起來的軟體能力。就像資料庫軟體的位置一樣。只不過數據工廠是被用作處理TB級甚至更大的數據。

百度數據工廠支持單詞百TB異構數據查詢，支持SQL-like以及更複雜的查詢語句，支持各種查詢業務場景。同時百度數據工廠還將承載對於TB級別大表的並發查詢和掃描，大查詢、低並發時每秒可達百GB，在業界已經是很領先的能力了。

百度大腦：有了大數據處理和存儲的基礎之後，還得有一套能夠套用這些數據的算法。圖靈獎獲得者N.Wirth(沃斯)提出過“程式=數據結構+算法”的理論。如果說百度大數據引擎是一個程式，那么它的數據結構就是數據工廠+開放雲，而算法則對應到百度大腦。

百度大腦將百度此前在人工智慧方面的能力開放出來，主要是大規模機器學習能力和深度學習能力。此前它們被套用在語音、圖像、文本識別，以及自然語言和語義理解方面，被套用在不少App，還通過百度Inside等平台開放給了智慧型硬體。現在這些能力將被用來對大數據進行智慧型化的分析、學習、處理、利用。百度深度神經網路擁有200億個參數，是全球規模最大的，它擁有獨立的深度學習研究院（IDL）和較早的布局，在人工智慧上百度已經快了一步，現在貢獻給業界表明了它要開放的決心。

套用

百度大數據引擎採取邀請和免費模式，將在政府、NGO、製造、醫療、金融、零售、娛樂、教育等傳統領域率先開展項目合作。合作機構和傳統企業將能夠線上使用百度的大數據架構，改造和最佳化傳統行業的企業管理、產品服務設計、商業模式等，為創新發展裝上新動力。

交通運輸管理部門的部分套用計畫遷移至百度開放雲平台，利用大數據引擎對行業監測數據進行挖掘分析。

中國疾病預防控制中心（CDC）在傳染病防控方面也與百度開展了大數據合作，雙方將結合疾控大數據與百度大數據，藉助大數據引擎的技術力量，建成中國首個流感預測系統。

大數據引擎

概念

組成

套用

相關搜尋

熱門詞條