當前位置：首頁 » 數據智能 » 大數據中心基礎資料庫

大數據中心基礎資料庫

發布時間: 2021-03-05 15:02:55

『壹』什麼是四大國家基礎資料庫

「四大基礎資料庫」在國家電子政務建設中具有重要的地位和作用，是國家信息化和電子政務建設的一項重要基礎設施。無論在政務領域，還在企業領域，「四大基礎資料庫」有著廣泛的應用場景和共享需求，四大基礎資料庫的建設不僅能實現數據的共享，同時在建設的過程本身也推進著各業務流程的整合及優化。

四大基礎庫分別是：人口基礎資料庫、法人資料庫、宏觀經濟資料庫，自然資源與空間地理資料庫，也有的專家稱「四大基礎資料庫」是國家層面四大主資料庫。

1、人口信息資料庫

人口信息庫的主體包括公民身份號碼、姓名、性別、民族、出生地等基本信息，還包括各部門業務系統在利用人口基本信息過程中產生的、其他部門存在共享需求的人口信息。

人口信息資料庫主要來自公安局、人社局、民政局、衛生局、教育局等，另外我市在綜治辦、市民卡中心、便民服務中心也有部分數據。

2、法人單位信息資料庫

法人單位信息資料庫的數據主要來源於市場監督局的企業注冊登記庫和組織機構代碼庫，編辦的事業單位注冊登記、民政局的社會團體登記庫、國稅地稅的稅務資料庫，以及統計局的基本單位普查庫等。

3、自然資源和空間地理信息資料庫

自然資源和空間地理信息資料庫是以電子地圖為基礎，整合道路、行政區劃、建築、植被、地下管線等基礎數據，以及土地利用、規劃用地、園林綠化、生態環境、自然資源等專題數據。

4、宏觀經濟基礎信息資料庫

宏觀經濟基礎信息數據包括全市主要經濟指標、地方財政收入、稅收完成情況、金融機構信貸情況、各鎮（區）主要經濟指標等信息，以統計經濟信息為基礎。

(1)大數據中心基礎資料庫擴展閱讀

近年來，全國各地都已開始積極建設「四大基礎資料庫」，並在「四大基礎資料庫」基礎上建設「數字城市」，有些發達地區的地方政府已開始從「數字城市」向「智慧城市」轉型升級，進入「大數據」時代。

習近平總書記指出「沒有信息安全，就沒有國家安全，沒有信息化就沒有現代化」，李克強總理也提出了「互聯網+」概念，這充分說明了信息化的重要性。

「四大基礎資料庫」正是政府信息化建設的基礎，對電子政務具有非常重要意義，既能加強政務資源的整合、共享與交換，打破信息孤島，避免重復建設，又能推進政府職能部門業務協同，強化服務意識，通過數據加工和挖掘還能為政府決策提供知識依據和大數據的支持。

『貳』大數據平台建設的基礎有哪些

首先要有大數據方面的專業知識，從最基礎的java，linux，mysql開始學起，在就是Hadoop等大數據的工具了，去搭建大數據的平台。導入數據，進行分析和挖掘，大數據培訓檸檬學院。

『叄』大數據中心是什麼中國最大的大數據中心在哪裡

按理說，對抄於一個問題，其分析的數襲據量越多，得出的結果就會越准確。這就是大數據的高性能分析魅力十足的原因。對於一家公司來說，理論上它可以用充足的時間去收集大量數據，然後進行分析，從中得到一些獨特的見解，從而做出企業的最優決策。但是通常情況下，這種理想情況在現實生活中是不會發生的。

大數據分析包含巨大的潛力，但如果分析的不準確，它就會轉變成阻礙。由於技術限制和其他商業因素的考慮，數據分析公司解析數據得出的結果可能並不能反映實際情況。如果企業想要確保通過大數據分析得出的結論是他們想要的結果，他們就需要提高大數據分析的准確性。

在
理想的世界裡，企業會收集大量的數據，分析它，並生成到他們要面對的問題的解決方案。但我們都知道，我們並沒有生活在一個理想的世界。大數據分析結果往往
要在短時間內獲得，一個企業可能沒有足夠先進的技術快速處理這么多的數據信息。這些限制導致許多企業對數據進行抽樣分析。換句話說，他們不看所有的數據，
而是分析小部分的數據樣品。盡管這可能是很多企業的戰略，但這些分析結果非常可能是不準確的。

從上面的例子可以看出，大數據的中心就是保證大數據的准確性！！！

『肆』大數據時代的資料庫怎麼做

未至科技數據中心解決方案是以組織價值鏈分析模型為理論指導，結合組織戰專略規劃和面向對象的方法論，屬對組織信息化戰略進行規劃重造立足數據，以數據為基礎建立組織信息化標准，提供面向數據採集、處理、挖掘、分析、服務為組織提供一整套的基礎解決方案。未至數據中心解決方案採用了當前先進的大數據技術，基於Hadoop架構，利用HDFS、Hive、Impala等大數據技術架構組件和公司自有ETL工具等中間件產品，建立了組織內部高性能、高效率的信息資源大數據服務平台，實現組織內數億條以上數據的秒級實時查詢、更新、調用、分析等信息資源服務。未至數據中心解決方案將，為公安、教育、旅遊、住建等各行業業務數據中心、城市公共基礎資料庫平台、行業部門信息資源基礎資料庫建設和數據資源規劃、管理等業務提供了一體化的解決方案。

『伍』什麼是基礎數據信息平台

一直想整理一下這塊內容，既然是漫談，就想起什麼說什麼吧。我一直是在互聯網行業，就以互聯網行業來說。
先大概列一下互聯網行業數據倉庫、數據平台的用途：

整合公司所有業務數據，建立統一的數據中心；
提供各種報表，有給高層的，有給各個業務的；
為網站運營提供運營上的數據支持，就是通過數據，讓運營及時了解網站和產品的運營效果；
為各個業務提供線上或線下的數據支持，成為公司統一的數據交換與提供平台；
分析用戶行為數據，通過數據挖掘來降低投入成本，提高投入效果；比如廣告定向精準投放、用戶個性化推薦等；
開發數據產品，直接或間接為公司盈利；
建設開放數據平台，開放公司數據；
。。。。。。

上面列出的內容看上去和傳統行業數據倉庫用途差不多，並且都要求數據倉庫/數據平台有很好的穩定性、可靠性；但在互聯網行業，除了數據量大之外，越來越多的業務要求時效性，甚至很多是要求實時的，另外，互聯網行業的業務變化非常快，不可能像傳統行業一樣，可以使用自頂向下的方法建立數據倉庫，一勞永逸，它要求新的業務很快能融入數據倉庫中來，老的下線的業務，能很方便的從現有的數據倉庫中下線；

其實，互聯網行業的數據倉庫就是所謂的敏捷數據倉庫，不但要求能快速的響應數據，也要求能快速的響應業務；

建設敏捷數據倉庫，除了對架構技術上的要求之外，還有一個很重要的方面，就是數據建模，如果一上來就想著建立一套能兼容所有數據和業務的數據模型，那就又回到傳統數據倉庫的建設上了，很難滿足對業務變化的快速響應。應對這種情況，一般是先將核心的持久化的業務進行深度建模（比如：基於網站日誌建立的網站統計分析模型和用戶瀏覽軌跡模型；基於公司核心用戶數據建立的用戶模型），其它的業務一般都採用維度+寬表的方式來建立數據模型。這塊是後話。

整體架構下面的圖是我們目前使用的數據平台架構圖，其實大多公司應該都差不多：

邏輯上，一般都有數據採集層、數據存儲與分析層、數據共享層、數據應用層。可能叫法有所不同，本質上的角色都大同小異。

我們從下往上看：

數據採集數據採集層的任務就是把數據從各種數據源中採集和存儲到數據存儲上，期間有可能會做一些簡單的清洗。

數據源的種類比較多：

網站日誌：

作為互聯網行業，網站日誌占的份額最大，網站日誌存儲在多台網站日誌伺服器上，

一般是在每台網站日誌伺服器上部署flume agent，實時的收集網站日誌並存儲到HDFS上；

業務資料庫：

業務資料庫的種類也是多種多樣，有Mysql、Oracle、SqlServer等，這時候，我們迫切的需要一種能從各種資料庫中將數據同步到HDFS上的工具，Sqoop是一種，但是Sqoop太過繁重，而且不管數據量大小，都需要啟動MapRece來執行，而且需要Hadoop集群的每台機器都能訪問業務資料庫；應對此場景，淘寶開源的DataX，是一個很好的解決方案（可參考文章《異構數據源海量數據交換工具-Taobao DataX 下載和使用》），有資源的話，可以基於DataX之上做二次開發，就能非常好的解決，我們目前使用的DataHub也是。

當然，Flume通過配置與開發，也可以實時的從資料庫中同步數據到HDFS。

來自於Ftp/Http的數據源：

有可能一些合作夥伴提供的數據，需要通過Ftp/Http等定時獲取，DataX也可以滿足該需求；

其他數據源：

比如一些手工錄入的數據，只需要提供一個介面或小程序，即可完成；

數據存儲與分析毋庸置疑，HDFS是大數據環境下數據倉庫/數據平台最完美的數據存儲解決方案。

離線數據分析與計算，也就是對實時性要求不高的部分，在我看來，Hive還是首當其沖的選擇，豐富的數據類型、內置函數；壓縮比非常高的ORC文件存儲格式；非常方便的SQL支持，使得Hive在基於結構化數據上的統計分析遠遠比MapRece要高效的多，一句SQL可以完成的需求，開發MR可能需要上百行代碼；

當然，使用Hadoop框架自然而然也提供了MapRece介面，如果真的很樂意開發Java，或者對SQL不熟，那麼也可以使用MapRece來做分析與計算；Spark是這兩年非常火的，經過實踐，它的性能的確比MapRece要好很多，而且和Hive、Yarn結合的越來越好，因此，必須支持使用Spark和SparkSQL來做分析和計算。因為已經有Hadoop Yarn，使用Spark其實是非常容易的，不用單獨部署Spark集群，關於Spark On Yarn的相關文章，可參考：《Spark On Yarn系列文章》

實時計算部分，後面單獨說。

數據共享這里的數據共享，其實指的是前面數據分析與計算後的結果存放的地方，其實就是關系型資料庫和NOSQL資料庫；

前面使用Hive、MR、Spark、SparkSQL分析和計算的結果，還是在HDFS上，但大多業務和應用不可能直接從HDFS上獲取數據，那麼就需要一個數據共享的地方，使得各業務和產品能方便的獲取數據；和數據採集層到HDFS剛好相反，這里需要一個從HDFS將數據同步至其他目標數據源的工具，同樣，DataX也可以滿足。

另外，一些實時計算的結果數據可能由實時計算模塊直接寫入數據共享。

數據應用
業務產品

業務產品所使用的數據，已經存在於數據共享層，他們直接從數據共享層訪問即可；

報表

同業務產品，報表所使用的數據，一般也是已經統計匯總好的，存放於數據共享層；

即席查詢

即席查詢的用戶有很多，有可能是數據開發人員、網站和產品運營人員、數據分析人員、甚至是部門老大，他們都有即席查詢數據的需求；

這種即席查詢通常是現有的報表和數據共享層的數據並不能滿足他們的需求，需要從數據存儲層直接查詢。

即席查詢一般是通過SQL完成，最大的難度在於響應速度上，使用Hive有點慢，目前我的解決方案是SparkSQL，它的響應速度較Hive快很多，而且能很好的與Hive兼容。

當然，你也可以使用Impala，如果不在乎平台中再多一個框架的話。

OLAP

目前，很多的OLAP工具不能很好的支持從HDFS上直接獲取數據，都是通過將需要的數據同步到關系型資料庫中做OLAP，但如果數據量巨大的話，關系型資料庫顯然不行；

這時候，需要做相應的開發，從HDFS或者HBase中獲取數據，完成OLAP的功能；

比如：根據用戶在界面上選擇的不定的維度和指標，通過開發介面，從HBase中獲取數據來展示。

其它數據介面

這種介面有通用的，有定製的。比如：一個從Redis中獲取用戶屬性的介面是通用的，所有的業務都可以調用這個介面來獲取用戶屬性。

實時計算現在業務對數據倉庫實時性的需求越來越多，比如：實時的了解網站的整體流量；實時的獲取一個廣告的曝光和點擊；在海量數據下，依靠傳統資料庫和傳統實現方法基本完成不了，需要的是一種分布式的、高吞吐量的、延時低的、高可靠的實時計算框架；Storm在這塊是比較成熟了，但我選擇Spark Streaming，原因很簡單，不想多引入一個框架到平台中，另外，Spark Streaming比Storm延時性高那麼一點點，那對於我們的需要可以忽略。

我們目前使用Spark Streaming實現了實時的網站流量統計、實時的廣告效果統計兩塊功能。

做法也很簡單，由Flume在前端日誌伺服器上收集網站日誌和廣告日誌，實時的發送給Spark Streaming，由Spark Streaming完成統計，將數據存儲至Redis，業務通過訪問Redis實時獲取。

任務調度與監控在數據倉庫/數據平台中，有各種各樣非常多的程序和任務，比如：數據採集任務、數據同步任務、數據分析任務等；

這些任務除了定時調度，還存在非常復雜的任務依賴關系，比如：數據分析任務必須等相應的數據採集任務完成後才能開始；數據同步任務需要等數據分析任務完成後才能開始；這就需要一個非常完善的任務調度與監控系統，它作為數據倉庫/數據平台的中樞，負責調度和監控所有任務的分配與運行。

前面有寫過文章，《大數據平台中的任務調度與監控》,這里不再累贅。

總結在我看來架構並不是技術越多越新越好，而是在可以滿足需求的情況下，越簡單越穩定越好。目前在我們的數據平台中，開發更多的是關注業務，而不是技術，他們把業務和需求搞清楚了，基本上只需要做簡單的SQL開發，然後配置到調度系統就可以了，如果任務異常，會收到告警。這樣，可以使更多的資源專注於業務之上。

『陸』資料庫和大數據的區別

在大數據處理當中，資料庫提供底層支持，實現了穩固的大數據存儲，才能更好地支持下一步的大數據計算。今天的大數據基礎知識分享，我們來聊聊大數據當中，資料庫和數據倉庫的區別，怎麼去理解這兩者，又該怎麼去應用？首先，資料庫是什麼？

從定義上來說，資料庫是用來存放數據的倉庫，資料庫由很多表組成，表是二維的，一張表裡面有很多欄位。欄位一字排開，對數據就一行一行的寫入表中。

資料庫的表，在於能夠用二維表現多維的關系，如：oracle、DB2、MySQL、Sybase、MSSQL Server等，都是典型的資料庫。

那麼，數據倉庫又是什麼？

數據倉庫，可以理解為是資料庫概念的升級。從邏輯上理解，資料庫和數據倉庫沒有區別，都是通過資料庫軟體實現存放數據的地方，只不過從數據量來說，數據倉庫要比資料庫更龐大。

資料庫和數據倉庫的區別：

1.資料庫只存放在當前值，數據倉庫存放歷史值；

2.資料庫內數據是動態變化的，只要有業務發生，數據就會被更新，而數據倉庫則是靜態的歷史數據，只能定期添加、刷新；

3.資料庫中的數據結構比較復雜，有各種結構以適合業務處理系統的需要，而數據倉庫中的數據結構則相對簡單；

4.資料庫中數據訪問頻率較高，但訪問量較少，而數據倉庫的訪問頻率低但訪問量卻很高；

5.資料庫中數據的目標是面向業務處理人員的，為業務處理人員提供信息處理的支持，而數據倉庫則是面向高層管理人員的，為其提供決策支持；

6.資料庫在訪問數據時要求響應速度快，其響應時間一般在幾秒內，而數據倉庫的響應時間則可長達數幾小時。

關於，資料庫基礎，大數據資料庫和數據倉庫的區別，以上就是詳細的介紹了。在大數據當中，資料庫和數據倉庫的知識的，都是值得關注的，也是在學習當中需要去重視的。

『柒』大數據平台是什麼什麼時候需要大數據平台如何建立大數據平台

首先我們要了解Java語言和Linux操作系統，這兩個是學習大數據的基礎，學習的順序不分前後。

Java ：只要了解一些基礎即可，做大數據不需要很深的Java 技術，學java SE 就相當於有學習大數據基礎。

Linux：因為大數據相關軟體都是在Linux上運行的，所以Linux要學習的扎實一些，學好Linux對你快速掌握大數據相關技術會有很大的幫助，能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置，能少踩很多坑，學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。

Hadoop：這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞，所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN，HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面，MapRece是對數據進行處理計算的，它有個特點就是不管多大的數據只要給它時間它就能把數據跑完，但是時間可能不是很快所以它叫數據的批處理。

Zookeeper：這是個萬金油，安裝Hadoop的HA的時候就會用到它，以後的Hbase也會用到它。它一般用來存放一些相互協作的信息，這些信息比較小一般不會超過1M，都是使用它的軟體對它有依賴，對於我們個人來講只需要把它安裝正確，讓它正常的run起來就可以了。

Mysql：我們學習完大數據的處理了，接下來學習學習小數據的處理工具mysql資料庫，因為一會裝hive的時候要用到，mysql需要掌握到什麼層度那?你能在Linux上把它安裝好，運行起來，會配置簡單的許可權，修改root的密碼，創建資料庫。這里主要的是學習SQL的語法，因為hive的語法和這個非常相似。

Sqoop：這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個，直接把Mysql數據表導出成文件再放到HDFS上也是一樣的，當然生產環境中使用要注意Mysql的壓力。

Hive：這個東西對於會SQL語法的來說就是神器，它能讓你處理大數據變的很簡單，不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。

Oozie：既然學會Hive了，我相信你一定需要這個東西，它可以幫你管理你的Hive或者MapRece、Spark腳本，還能檢查你的程序是否執行正確，出錯了給你發報警並能幫你重試程序，最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的，不然你看著那一大堆腳本，和密密麻麻的crond是不是有種想屎的感覺。

Hbase：這是Hadoop生態體系中的NOSQL資料庫，他的數據是按照key和value的形式存儲的並且key是唯一的，所以它能用來做數據的排重，它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。

Kafka：這是個比較好用的隊列工具，隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理，這樣與你協作的其它同學不會叫起來，你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來，你別怪他因為他不是搞大數據的，你可以跟他講我把數據放在隊列里你使用的時候一個個拿，這樣他就不在抱怨了馬上灰流流的去優化他的程序去了，因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS，這時你可以與一個叫Flume的工具配合使用，它是專門用來提供對數據進行簡單處理，並寫到各種數據接受方(比如Kafka)的。

Spark：它是用來彌補基於MapRece處理數據速度上的缺點，它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算，所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它，因為它們都是用JVM的。

『捌』如何查詢大資料庫數據存在

傳統資料庫處理大數據很困難吧，不建議使用傳統資料庫來處理大數據。
建議研究版下，Hadoop，Hive等，可處理大數據。權
如果有預算，可以使用一些商業大數據產品，國內的譬如永洪科技的大數據BI產品，不僅能高性能處理大數據，還可做數據分析。
當然如果是簡單的查詢，傳統資料庫如果做好索引，可能可以提高性能。

『玖』我有資料庫基礎，大數據學習要多久學出來能找到工作嗎

大數據的抄話，基本上很高襲端的技術領域通過培訓也是達不到的。參加這類學習可以讓你有一個入門，學習之後達到一個可以從事大數據工作的一般水平線。更多的還是要靠你自己的勤奮和汗水，去不斷實踐，提升。才能有更好的平台去發揮你的技能。

閱讀全文

大數據中心基礎資料庫

與大數據中心基礎資料庫相關的閱讀推薦