⑴ 資料庫與數據倉庫的區別

資料庫是面向事務的設計,數據倉庫是面向主題設計的。資料庫一般存儲回在線交易數答據,數據倉庫存儲的一般是歷史數據。

「與時間相關」:資料庫保存信息的時候,並不強調一定有時間信息。數據倉庫則不同,出於決策的需要,數據倉庫中的數據都要標明時間屬性。決策中,時間屬性很重要。同樣都是累計購買過九車產品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對於決策者意義是不同的。

「不可修改」:數據倉庫中的數據並不是最新的,而是來源於其它數據源。數據倉庫反映的是歷史信息,並不是很多資料庫處理的那種日常事務數據(有的資料庫例如電信計費資料庫甚至處理實時信息)。因此,數據倉庫中的數據是極少或根本不修改的;當然,向數據倉庫添加數據是允許的。

拓展資料:

數據倉庫的出現,並不是要取代資料庫。數據倉庫,是在資料庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它決不是所謂的「大型資料庫」。

目前,大部分數據倉庫還是用關系資料庫管理系統來管理的。可以說,資料庫、數據倉庫相輔相成、各有千秋。

⑵ BI,數據倉庫,ETL,大數據開發工程師有什麼區別

這幾個職位都是跟數據有關的工作。
BI 是商業智能,職位包括etl,數據倉庫,數據展示工作。
數據倉庫,是按設定好的一種資料庫模型
ETL,負責清洗原始數據的一個過程,清洗完之後將數據載入至數據倉庫。
大數據開發,數據量較大,上千萬乃至億級的數據量開發

⑶ 大數據ETL開發是做什麼的

也是科研人員的錐心之痛,實事求是

⑷ 大數據存儲系統 用etl用什麼方式 清洗數據

一、ODS區的數據採集:最主要作用為了盡量減少對業務系統的影響。表結構可以不必和DW一致。根據具體業務需求和數據量情況,將數據源的數據放入ODS有各種不同的方法,比如Oracle的資料庫鏈路,表復制,SQL*LOADER,Teradata的Fastload,Sysbase的BCP等等。 需要解決的問題包括: a、數據的時間差異性問題 在抽取舊有數據時,要將不同時期的數據定義統一,較早的數據不夠完整或不符合新系統的數據規范,一般可以根據規則,在存入中轉區的過程中予以更新或補充。 b、數據的平台多樣性問題 在抽取舊有數據時,大部分數據都可採用表復制方式直接導入數據中轉區集中,再做處理,但有部分數據可能需要轉換成文本文件或使用第三方工具如Informatica等裝載入數據中轉區。這部分數據主要是與數據中轉區資料庫平台不一致的資料庫數據,或非存儲於資料庫內的文本、excel等數據。 c 、數據的不穩定性問題 對於重要信息的完整歷史變更記錄,在抽取時可以根據各時期的歷史信息,在抽取需要信息等基本屬性的舊有數據時,要與相應時段的信息關聯得到真實的歷史屬性。 d 、數據的依賴性問題 舊有業務系統的數據關聯一般已有約束保證,代碼表和參照表等數據也比較准確,但仍有少量數據不完整,對這部分數據,需根據地稅的需求採取清洗策略,保證數據倉庫各事實表和維表之間的關聯完整有效。 數據倉庫各事實表和維表的初始裝載順序有先後關系,要有一個集中的數據裝載任務順序方案,確保初始數據裝載的准確。這可以通過操作系統或第三方工具的任務調度機制來保證。

⑸ bi工程師,數據倉庫工程師,etl工程師有什麼區別

BI工程師、數據倉庫工程師、ETL工程師都屬於大數據工程技術人員,三種的主要區別如下:

一、工作內容不同

1、BI工程師:主要是報表開發,負責開發工作。

2、資料庫工程師:主要負責業務資料庫從設計、測試到部署交付的全生命周期管理。

3、ETL工程師:從事系統編程、資料庫編程與設計。

二、要求不同

1、BI工程師:要有一定的資料庫經驗,掌握SQL查詢優化方法,精通Oracle、SQLServer、MySQL等主流資料庫的應用設計、性能調優及存儲過程的開發。

2、資料庫工程師:理解數據備份/恢復與災難恢復;工具集的使用。

3、ETL工程師:要掌握各百種常用的編程語言。

三、特點不同

1、BI工程師:熟悉ETL邏輯、OLAP設計和數據挖掘相關演算法。

2、資料庫工程師:凡是關繫到資料庫質量、效率、成本、安全等方面的工作,及涉及到的技術、組件,都在資料庫工程師的技術范疇里。

3、ETL工程師:海量數據的ETL開發,抽取成各種數據需求。

⑹ ETL針對大數據的存儲類型CLOB應該怎麼映射

相同的資料庫還是不同資料庫,如果沒有的話看有沒有text 類型

⑺ 大數據可以用傳統的etl工具嗎

可以的。etl工具還是用的很多的,畢竟數據轉換是一個常見的需求,越是大數據時代,對這一塊的需求越多

⑻ 有哪位大蝦知道資料庫方面有關ETL和EL的區別謝謝!

E L 是Expression Language的縮寫,目的是為了使JSP寫起來更加簡單。表達式語言的靈感來自於 ECMAScript 和 XPath 表達式語言,它提供了在 JSP 中簡化表達式的方法。它是一種簡單的語言,基於可用的命名空間(PageContext 屬性)、嵌套屬性和對集合、操作符(算術型、關系型和邏輯型)的訪問符、映射到 Java 類中靜態方法的可擴展函數以及一組隱式對象。EL 提供了在 JSP 腳本編制元素范圍外使用運行時表達式的功能。腳本編制元素是指頁面中能夠用於在 JSP 文件中嵌入 Java 代碼的元素。它們通常用於對象操作以及執行那些影響所生成內容的計算。JSP 2.0 將 EL 表達式添加為一種腳本編制元素。

ETL

ETL:Extract-Transform-Load的縮寫,數據抽取(Extract)、轉換(Transform)、裝載(Load)的過程。
DW:Data Warehousing,根據Bill.Inmon的定義,「數據倉庫是面向主題的、集成的、穩定的、隨時間變化的,主要用於決策支持的資料庫系統」。
Metadata:元數據。描述數據的數據,指在數據倉庫建設過程中所產生的有關數據源定義,目標定義,轉換規則等相關的關鍵數據。
2、 ETL是數據倉庫建立的核心過程
數據倉庫系統先天不足,是在業務系統的基礎上發展而來的,其內部存儲的數據來自於事務處理的業務系統和外部數據源。而企業內各源數據缺少統一的標准,因企業的業務系統是在不同時期、不同背景、面對不同應用、不同開發商等各種客觀前提下建立的,其數據結構、存儲平台、系統平台均存在很大的異構性。因而其數據難以轉化為有用的信息,原始數據的不一致性導致決策時其可信度的降低。
ETL是BI/DW的核心和靈魂,按照統一的規則集成並提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。如果說數據倉庫的模型設計是一座大廈的設計藍圖,數據是磚瓦的話,那麼ETL就是建設大廈的過程。在整個項目中最難部分是用戶需求分析和模型設計,而ETL規則設計和實施則是工作量最大的,其工作量要佔整個項目的60%-80%,這是國內外從眾多實踐中得到的普遍共識。
3、 ETL過程的主要目的
就是以最小代價(包括對日常操作的影響和對技能的要求) 將針對日常業務操作的數據轉化為針對數據倉庫而存儲的決策支持型數據。

⑼ 【轉載or抄襲】資料庫:什麼是BI,ETL和OLAP

ETLETL即數據抽取(Extract)、轉換(Transform)、裝載(Load)的過程。它是構建數據倉庫的重要環節。數據倉庫是面向主題 的、集成的、穩定的且隨時間不斷變化的數據集合,用以支持經營管理中的決策制定過程。數據倉庫系統中有可能存在著大量的雜訊數據,引起的主要原因有:濫用 縮寫詞、慣用語、數據輸入錯誤、重復記錄、丟失值、拼寫變化等。即便是一個設計和規劃良好的資料庫系統,如果其中存在著大量的雜訊數據,那麼這個系統也是 沒有任何意義的,因為「垃圾進,垃圾出」(garbage in, garbage out),系統根本就不可能為決策分析系統提供任何支持。為了清除雜訊數據,必須在資料庫系統中進行數據清洗。目前有不少數據清洗研究和ETL研究,但是 如何在ETL過程中進行有效的數據清洗並使這個過程可視化,此方面研究不多。 聯機事務處理OLTP 聯機分析處理 (OLAP) 的概念最早是由關系資料庫之父E.F.Codd於1993年提出的,他同時提出了關於OLAP的12條准則。OLAP的提出引起了很大的反響,OLAP作為一類產品同聯機事務處理 (OLTP) 明顯區分開來。 當今的數據處理大致可以分成兩大類:聯機事務處理OLTP(on-line transaction processing)、聯機分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統的關系型資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。OLAP是數據倉庫系統的主要應用,支 持復雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。 OLAP是使分析人員、管理人員或執行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟體技術。