當前位置：首頁 » 數據智能 » 大數據bitmap

大數據bitmap

發布時間: 2021-03-22 03:30:20

❶ entity framework6適合開發大數據量系統嗎為什麼

public class MyLocationOverlayProxy extends com.amap.mapapi.map.MyLocationOverlay{

private Location mLocation;
protected final Paint mPaint = new Paint();
protected final Paint mCirclePaint = new Paint();
private Bitmap gps_marker=null;
private Point mMapCoords = new Point();
private final float gps_marker_CENTER_X;
private final float gps_marker_CENTER_Y;
private final LinkedList mRunOnFirstFix = new LinkedList();
public MyLocationOverlayProxy(amap amap, MapView mMapView) {

super(amap, mMapView);
gps_marker = ((BitmapDrawable) amap.getResources().getDrawable(
R.drawable.marker_gpsvalid)).getBitmap();
gps_marker_CENTER_X = gps_marker.getWidth() / 2 - 0.5f;
gps_marker_CENTER_Y= gps_marker.getHeight() / 2 - 0.5f;
}

❷ PHP的演算法可以實現大數據分析嗎

1.Bloom filter

適用范圍：可以用來實現數據字典，進行數據的判重，或者集合求交集

基本原理及要點：
對於原理來說很簡單，位數組+k個獨立hash函數。將hash函數對應的值的位數組置1，查找時如果發現所有hash函數對應位都是1說明存在，很明顯這個過程並不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字，因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是 counting Bloom filter，用一個counter數組代替位數組，就可以支持刪除了。

還有一個比較重要的問題，如何根據輸入元素個數n，確定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大於E的情況下，m至少要等於n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些，因為還要保證bit數組里至少一半為 0，則m 應該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數)。

舉個例子我們假設錯誤率為0.01，則此時m應大概是n的13倍。這樣k大概是8個。

注意這里m與n的單位不同，m是bit為單位，而n則是以元素個數為單位(准確的說是不同元素的個數)。通常單個元素的長度都是有很多bit的。所以使用bloom filter內存上通常都是節省的。

擴展：
Bloom filter將集合中的元素映射到位數組中，用k（k為哈希函數個數）個映射位是否全1表示元素在不在這個集合中。Counting bloom filter（CBF）將位數組中的每一位擴展為一個counter，從而支持了元素的刪除操作。Spectral Bloom Filter（SBF）將其與集合元素的出現次數關聯。SBF採用counter中的最小值來近似表示元素的出現頻率。

問題實例：給你A,B兩個文件，各存放50億條URL，每條URL佔用64位元組，內存限制是4G，讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢？

根據這個問題我們來計算下內存的佔用，4G=2^32大概是40億*8大概是340億，n=50億，如果按出錯率0.01算需要的大概是650億個 bit。現在可用的是340億，相差並不多，這樣可能會使出錯率上升些。另外如果這些urlip是一一對應的，就可以轉換成ip，則大大簡單了。

2.Hashing

適用范圍：快速查找，刪除的基本數據結構，通常需要總數據量可以放入內存

基本原理及要點：
hash函數選擇，針對字元串，整數，排列，具體相應的hash方法。
碰撞處理，一種是open hashing，也稱為拉鏈法；另一種就是closed hashing，也稱開地址法，opened addressing。 (http://www.my400800.cn)

擴展：
d-left hashing中的d是多個的意思，我們先簡化這個問題，看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半，分別叫做T1和T2，給T1和T2分別配備一個哈希函數，h1和h2。在存儲一個新的key時，同時用兩個哈希函數進行計算，得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置，哪一個位置已經存儲的（有碰撞的）key比較多，然後將新key存儲在負載少的位置。如果兩邊一樣多，比如兩個位置都為空或者都存儲了一個key，就把新key 存儲在左邊的T1子表中，2-left也由此而來。在查找一個key時，必須進行兩次hash，同時查找兩個位置。

問題實例：
1).海量日誌數據，提取出某日訪問網路次數最多的那個IP。

IP的數目還是有限的，最多2^32個，所以可以考慮使用hash將ip直接存入內存，然後進行統計。

3.bit-map

適用范圍：可進行數據的快速查找，判重，刪除，一般來說數據范圍是int的10倍以下

基本原理及要點：使用bit數組來表示某些元素是否存在，比如8位電話號碼

擴展：bloom filter可以看做是對bit-map的擴展

問題實例：

1)已知某個文件內包含一些電話號碼，每個號碼為8位數字，統計不同號碼的個數。

8位最多99 999 999，大概需要99m個bit，大概10幾m位元組的內存即可。

2)2.5億個整數中找出不重復的整數的個數，內存空間不足以容納這2.5億個整數。

將bit-map擴展一下，用2bit表示一個數即可，0表示未出現，1表示出現一次，2表示出現2次及以上。或者我們不用2bit來進行表示，我們用兩個bit-map即可模擬實現這個2bit-map。

4.堆

適用范圍：海量數據前n大，並且n比較小，堆可以放入內存

基本原理及要點：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我們比較當前元素與最大堆里的最大元素，如果它小於最大元素，則應該替換那個最大元素。這樣最後得到的n個元素就是最小的n個。適合大數據量，求前n小，n的大小比較小的情況，這樣可以掃描一遍即可得到所有的前n元素，效率很高。

擴展：雙堆，一個最大堆與一個最小堆結合，可以用來維護中位數。

問題實例：
1)100w個數中找最大的前100個數。

用一個100個元素大小的最小堆即可。

5.雙層桶劃分 ----其實本質上就是【分而治之】的思想，重在「分」的技巧上！

適用范圍：第k大，中位數，不重復或重復的數字

基本原理及要點：因為元素范圍很大，不能利用直接定址表，所以通過多次劃分，逐步確定范圍，然後最後在一個可以接受的范圍內進行。可以通過多次縮小，雙層只是一個例子。

擴展：

問題實例：
1).2.5億個整數中找出不重復的整數的個數，內存空間不足以容納這2.5億個整數。

有點像鴿巢原理，整數個數為2^32,也就是，我們可以將這2^32個數，劃分為2^8個區域(比如用單個文件代表一個區域)，然後將數據分離到不同的區域，然後不同的區域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁碟空間，就可以很方便的解決。

2).5億個int找它們的中位數。

這個例子比上面那個更明顯。首先我們將int劃分為2^16個區域，然後讀取數據統計落到各個區域里的數的個數，之後我們根據統計結果就可以判斷中位數落到那個區域，同時知道這個區域中的第幾大數剛好是中位數。然後第二次掃描我們只統計落在這個區域中的那些數就可以了。

實際上，如果不是int是int64，我們可以經過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區域，然後確定區域的第幾大數，在將該區域分成2^20個子區域，然後確定是子區域的第幾大數，然後子區域里的數的個數只有2^20，就可以直接利用direct addr table進行統計了。

6.資料庫索引

適用范圍：大數據量的增刪改查

基本原理及要點：利用數據的設計實現方法，對海量數據的增刪改查進行處理。
擴展：
問題實例：

7.倒排索引(Inverted index)

適用范圍：搜索引擎，關鍵字查詢

基本原理及要點：為何叫倒排索引？一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。

以英文為例，下面是要被索引的文本：
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
我們就能得到下面的反向文件索引：
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
檢索的條件"what", "is" 和 "it" 將對應集合的交集。

正向索引開發出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中，文檔占據了中心的位置，每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞，而反向索引則是單詞指向了包含它的文檔，很容易看到這個反向的關系。

擴展：

問題實例：文檔檢索系統，查詢那些文件包含了某單詞，比如常見的學術論文的關鍵字搜索。

8.外排序

適用范圍：大數據的排序，去重

基本原理及要點：外排序的歸並方法，置換選擇敗者樹原理，最優歸並樹

擴展：

問題實例：
1).有一個1G大小的一個文件，裡面每一行是一個詞，詞的大小不超過16個位元組，內存限制大小是1M。返回頻數最高的100個詞。

這個數據具有很明顯的特點，詞的大小為16個位元組，但是內存只有1m做hash有些不夠，所以可以用來排序。內存可以當輸入緩沖區使用。

9.trie樹

適用范圍：數據量大，重復多，但是數據種類小可以放入內存

基本原理及要點：實現方式，節點孩子的表示方式

擴展：壓縮實現。

問題實例：
1).有10個文件，每個文件1G，每個文件的每一行都存放的是用戶的query，每個文件的query都可能重復。要你按照query的頻度排序。

2).1000萬字元串，其中有些是相同的(重復),需要把重復的全部去掉，保留沒有重復的字元串。請問怎麼設計和實現？

3).尋找熱門查詢：查詢串的重復度比較高，雖然總數是1千萬，但如果除去重復後，不超過3百萬個，每個不超過255位元組。

10.分布式處理 maprece

適用范圍：數據量大，但是數據種類小可以放入內存

基本原理及要點：將數據交給不同的機器去處理，數據劃分，結果歸約。

擴展：

問題實例：

1).The canonical example application of MapRece is a process to count the appearances of

each different word in a set of documents:
void map(String name, String document):
// name: document name
// document: document contents
for each word w in document:
EmitIntermediate(w, 1);

void rece(String word, Iterator partialCounts):
// key: a word
// values: a list of aggregated partial counts
int result = 0;
for each v in partialCounts:
result += ParseInt(v);
Emit(result);
Here, each document is split in words, and each word is counted initially with a "1" value by

the Map function, using the word as the result key. The framework puts together all the pairs

with the same key and feeds them to the same call to Rece, thus this function just needs to

sum all of its input values to find the total appearances of that word.

2).海量數據分布在100台電腦中，想個辦法高效統計出這批數據的TOP10。

3).一共有N個機器，每個機器上有N個數。每個機器最多存O(N)個數並對它們操作。如何找到N^2個數的中數(median)？

經典問題分析

上千萬or億數據（有重復），統計其中出現次數最多的前N個數據,分兩種情況：可一次讀入內存，不可一次讀入。

可用思路：trie樹+堆，資料庫索引，劃分子集分別統計，hash，分布式計算，近似統計，外排序

所謂的是否能一次讀入內存，實際上應該指去除重復後的數據量。如果去重後數據可以放入內存，我們可以為數據建立字典，比如通過 map，hashmap，trie，然後直接進行統計即可。當然在更新每條數據的出現次數的時候，我們可以利用一個堆來維護出現次數最多的前N個數據，當然這樣導致維護次數增加，不如完全統計後在求前N大效率高。

如果數據無法放入內存。一方面我們可以考慮上面的字典方法能否被改進以適應這種情形，可以做的改變就是將字典存放到硬碟上，而不是內存，這可以參考資料庫的存儲方法。

當然還有更好的方法，就是可以採用分布式計算，基本上就是map-rece過程，首先可以根據數據值或者把數據hash(md5)後的值，將數據按照范圍劃分到不同的機子，最好可以讓數據劃分後可以一次讀入內存，這樣不同的機子負責處理各種的數值范圍，實際上就是map。得到結果後，各個機子只需拿出各自的出現次數最多的前N個數據，然後匯總，選出所有的數據中出現次數最多的前N個數據，這實際上就是rece過程。

實際上可能想直接將數據均分到不同的機子上進行處理，這樣是無法得到正確的解的。因為一個數據可能被均分到不同的機子上，而另一個則可能完全聚集到一個機子上，同時還可能存在具有相同數目的數據。比如我們要找出現次數最多的前100個，我們將1000萬的數據分布到10台機器上，找到每台出現次數最多的前 100個，歸並之後這樣不能保證找到真正的第100個，因為比如出現次數最多的第100個可能有1萬個，但是它被分到了10台機子，這樣在每台上只有1千個，假設這些機子排名在1000個之前的那些都是單獨分布在一台機子上的，比如有1001個，這樣本來具有1萬個的這個就會被淘汰，即使我們讓每台機子選出出現次數最多的1000個再歸並，仍然會出錯，因為可能存在大量個數為1001個的發生聚集。因此不能將數據隨便均分到不同機子上，而是要根據hash 後的值將它們映射到不同的機子上處理，讓不同的機器處理一個數值范圍。

而外排序的方法會消耗大量的IO，效率不會很高。而上面的分布式方法，也可以用於單機版本，也就是將總的數據根據值的范圍，劃分成多個不同的子文件，然後逐個處理。處理完畢之後再對這些單詞的及其出現頻率進行一個歸並。實際上就可以利用一個外排序的歸並過程。

另外還可以考慮近似計算，也就是我們可以通過結合自然語言屬性，只將那些真正實際中出現最多的那些詞作為一個字典，使得這個規模可以放入內存。

❸ 在Android開發中，有哪些好的內存優化方式

可以考慮使用ArrayMap/SparseArray而不是HashMap等傳統數據結構。通常的HashMap的實現方式更加消耗內存，因為它需要一個額外的實例對象來記錄Mapping操作。另外，SparseArray更加高效，在於他們避免了對key與value的自動裝箱（autoboxing），並且避免了裝箱後的解箱。
2. 避免在Android裡面使用Enum
Android官方培訓課程提到過「Enums often require more than twice as much memory as static constants. You should strictly avoid using enums on Android.」，具體原理請參考《Android性能優化典範（三）》，所以請避免在Android裡面使用到枚舉。
3. 減小Bitmap對象的內存佔用
Bitmap是一個極容易消耗內存的大胖子，減小創建出來的Bitmap的內存佔用可謂是重中之重，，通常來說有以下2個措施：
inSampleSize：縮放比例，在把圖片載入內存之前，我們需要先計算出一個合適的縮放比例，避免不必要的大圖載入。
decode format：解碼格式，選擇ARGB_8888/RBG_565/ARGB_4444/ALPHA_8，存在很大差異
4.Bitmap對象的復用
縮小Bitmap的同時，也需要提高BitMap對象的復用率，避免頻繁創建BitMap對象，復用的方法有以下2個措施
LRUCache : 「最近最少使用演算法」在Android中有極其普遍的應用。ListView與GridView等顯示大量圖片的控制項里，就是使用LRU的機制來緩存處理好的Bitmap，把近期最少使用的數據從緩存中移除，保留使用最頻繁的數據，
inBitMap高級特性:利用inBitmap的高級特性提高Android系統在Bitmap分配與釋放執行效率。使用inBitmap屬性可以告知Bitmap解碼器去嘗試使用已經存在的內存區域，新解碼的Bitmap會嘗試去使用之前那張Bitmap在Heap中所佔據的pixel data內存區域，而不是去問內存重新申請一塊區域來存放Bitmap。利用這種特性，即使是上千張的圖片，也只會僅僅只需要佔用屏幕所能夠顯示的圖片數量的內存大小
4. 使用更小的圖片
在涉及給到資源圖片時，我們需要特別留意這張圖片是否存在可以壓縮的空間，是否可以使用更小的圖片。盡量使用更小的圖片不僅可以減少內存的使用，還能避免出現大量的InflationException。假設有一張很大的圖片被XML文件直接引用，很有可能在初始化視圖時會因為內存不足而發生InflationException，這個問題的根本原因其實是發生了OOM。

5.StringBuilder
在有些時候，代碼中會需要使用到大量的字元串拼接的操作，這種時候有必要考慮使用StringBuilder來替代頻繁的「+」。
6.避免在onDraw方法裡面執行對象的創建
類似onDraw等頻繁調用的方法，一定需要注意避免在這里做創建對象的操作，因為他會迅速增加內存的使用，而且很容易引起頻繁的gc，甚至是內存抖動。
7. 避免對象的內存泄露
類的靜態變數持有大數據對象
靜態變數長期維持到大數據對象的引用，阻止垃圾回收。
非靜態內部類存在靜態實例
非靜態內部類會維持一個到外部類實例的引用，如果非靜態內部類的實例是靜態的，就會間接長期維持著外部類的引用，阻止被回收掉。
資源對象未關閉
資源性對象比如（Cursor，File文件等）往往都用了一些緩沖，我們在不使用的時候，應該及時關閉它們，以便它們的緩沖及時回收內存。它們的緩沖不僅存在於java虛擬機內，還存在於java虛擬機外。如果我們僅僅是把它的引用設置為null,而不關閉它們，往往會造成內存泄露。
解決辦法：比如SQLiteCursor（在析構函數finalize（）,如果我們沒有關閉它，它自己會調close()關閉），如果我們沒有關閉它，系統在回收它時也會關閉它，但是這樣的效率太低了。因此對於資源性對象在不使用的時候，應該調用它的close()函數，將其關閉掉，然後才置為null. 在我們的程序退出時一定要確保我們的資源性對象已經關閉。程序中經常會進行查詢資料庫的操作，但是經常會有使用完畢Cursor後沒有關閉的情況。如果我們的查詢結果集比較小，對內存的消耗不容易被發現，只有在常時間大量操作的情況下才會復現內存問題，這樣就會給以後的測試和問題排查帶來困難和風險，記得try catch後，在finally方法中關閉連接
Handler內存泄漏
Handler作為內部類存在於Activity中，但是Handler生命周期與Activity生命周期往往並不是相同的，比如當Handler對象有Message在排隊，則無法釋放，進而導致本該釋放的Acitivity也沒有辦法進行回收。

❹ android intent跳轉怎樣傳輸大數據

在Activity或者組件之前傳遞信息時，一般採用intent綁定bundle的方式傳值，但在使用過程中需要注意的是不要用bundle傳遞大容量數據：

在做項目的過程中，需要將聽寫界面的聽寫結果信息傳遞到聽寫記錄界面供顯示用，但是由於傳遞的數據量過大導致程序ANR，甚至直接報異常（傳遞的信息裡面有bitmap轉換成的byte數組、每一個片語的拼音、詞語、語音信息），經過分析發現是由於bundle不能傳遞大容量的數據信息，在stackoverflow裡面查閱發現有同行遇到類似的問題：

（1）「The size limit of Intent is still pretty low in Jelly Bean, which is somewhat lower than 1MB (around 90K), so you should always be cautious about your data length, even if your application targets only latest Android versions.」

（2）「As per my experience (sometime ago), you are able to put up to 1MB of data in a Bundleencapsulated inside Intent. I think, this restriction was valid up till Froyo or GingerBread.」

所以在通過bundle傳遞數據時只能傳遞較小的數據信息，對於在不同組件之間需要傳遞大容量數據的情況時，有幾種替代方式可以解決不能用bundle傳遞這些數據的問題：

方法一：將需要傳遞的數據寫在臨時文件或者資料庫中，再跳轉到另外一個組件的時候再去讀取這些數據信息，這種處理方式會由於讀寫文件較為耗時導致程序運行效率較低；

方法二：將需要傳遞的數據信息封裝在一個靜態的類中（注意當前組件和要跳轉到的組件必須屬於同一個進程，因為進程之間才能夠共享數據），在當前組件中為類設置內容，然後再跳轉到的組件中去取，這種處理方式效率很高，但是會破壞程序的獨立性。

具體採用哪種替代方式取決於具體的情況，本人建議採取第二種處理方式，因為這樣會大大提高程序的運行效率，至於程序的獨立性，看你怎麼去封裝這個類了。

❺ 朋友發的文件，怎麼打開。見圖片。

CPI 是SONY拍的視頻，買機器的時候，應該帶個轉換或視頻製作的安裝光碟。用隨機附帶的軟體應該可以製作和編輯視頻。
CPI可以用 ColorLab Processed Image bitmap graphics control panel file (Windows 3.x) presentation (Compel) .軟體打開

❻ 如何進行java海量數據處理，下面一段是我摘抄的問題及處理方法

lz沒理解第二步「分而治之」的思想，分治演算法是將一個大問題分解為一系列與大問題性質相同的子問題，所以在分治時不可能把相同的ip分配到不同的文件中，就像你所說的，「按照IP地址的Hash(IP)%1024值，把海量IP日誌分別存儲到1024個小文件中」，通過hash，兩個相同的ip肯定放到同一個文件中了哈

❼ 幾百萬行代碼中有重復的方法,怎麼找到重復方法功能

可以使用向後「查找」的方法：先查第一種方法，有無重復的；再查第二種方法，有無重復的；直到最後第二種方法。

❽ 關於sql大數據查詢時in效率很低的問題

如果可能的抄話，用union，但是你襲說的 in 中的數據項是動態的。故只能考慮動態sql，比較麻煩。
可以考慮，將in中的數據項原先插入到一個表中（固定的表或者臨時表、相關列要有索引），查詢的時候，關聯上這個表試試看。

❾ 什麼是空閑因子

ORACLE與SQL SERVER的區別
體系結構

ORACLE的文件體系結構為：

數據文件 .DBF （真實數據）

日誌文件 .RDO

控制文件 .CTL

參數文件 .ORA

SQL SERVER的文件體系結構為：

.MDF （數據字典）

.NDF （數據文件）

.LDF （日誌文件）

ORACLE存儲結構：

在ORACLE里有兩個塊參數PCTFREE(填充因子)和PCTUSED(復用因子),可控制塊確定塊本身何時有，何時沒有足夠的空間接受新信息(對塊的存儲情況的分析機制)

這樣可降低數據行連接與行遷移的可能性。塊的大小可設置(OLTP塊和DSS塊)

在ORACLE中，將連續的塊組成區，可動態分配區(區的分配可以是等額的也可以是自增長的)可減少空間分配次數

在ORACLEl里表可以分為多個段，段由多個區組成，每個段可指定分配在哪個表空間里(段的類型分為：數據段、索引段、回滾段、臨時段、CASH段。ORACLE里還可對表進行分區，可按照用戶定義的業務規則、條件或規范，物理的分開磁碟上的數據。

這樣大大降低了磁碟爭用的可能性。

ORACLE有七個基本表空間：

·SYSTEM表空間(存放數據字典和數據管理自身所需的信息)

·RBS回滾表空間

·TEMP臨時表空間

·TOOLS互動式表空間

·USERS用戶默認表空間

·INDX索引表空間

·DBSYS福數據表空間

不同的數據分別放在不同的表空間(數據字典與真實數據分開存放),在ORACLE里基表(存儲系統參數信息)是加密存儲，任何人都無法訪問。只能通過用戶可視視圖查看。

SQL SERVER 存儲結構

以頁為最小分配單位，每個頁為8K(不可控制，缺乏對頁的存儲情況的分析機制),

可將8個連續的頁的組成一個『擴展』，以進一步減少分配時所耗用的資源。(分配缺乏靈活性)，在SQL SERVER里數據以表的方式存放，而表是存放在資料庫里。

SQL SERVER有五個基本資料庫：

·master(數據字典)

·mode(存放樣版)

·tempdb(臨時資料庫)

·msdb(存放調度信息和日誌信息)

·pubs(示例資料庫)

真實數據與數據字典存放在一起。對系統參數信息無安全機制。

ORACLE登入管理：

·SYSTEM/MANAGER (初始帳戶)

·SYS/CHANGE_ON_NSTALL

·INSTALL/ORACLE(安裝帳戶)

·SCOTT/TIGER(示例資料庫,測試用)

在ORACLE里默認只有三個系統用戶，ORACLE是通過用戶登入。

SQL SERVER登入管理：

·SQL SERVER身份驗證

·WINDOWS 身份驗證

在SQL SERVER里是通過WINDOWS用戶帳戶或是用SQL SERVER身份驗證連接資料庫的。

SQL不是一種語言，而是對ORACLE資料庫傳輸指令的一種方式。

SQL中NULL既不是字元也不是數字，它是預設數據。ORACLE提供了NVL函數來解決。

ORACLE中的字元串連接為 string1‖string2 ，SQL中為string1+string2.

集合操作：在SQL中只有UNION（並操作），ORACLE中包含MINUS（差操作）、

INTERECT（交操作）、UNION（並操作）。

索引：SQL的索引分為聚集索引和非聚集索引，還包括全文索引；

ORACLE的索引包括：B+樹索引，Bitmap點陣圖索引，函數索引，反序索引，

主鍵索引，散列索引，本地索引。

ORACLE的數據類型比較復雜，有基本數據類型，衍生型，列對象型，表對象型，結構體型；SQL中的數據比較簡單，只有一些簡單的基本數據類型無法提供事務操作。

在SQL中如果一個事務從開始執行到結束時了錯了，它就會回滾到開始之前；

在ORACLE中它採用的是定點回滾，就是該事務函數化和精確錯誤定位，用savepoint標記保存點，用Rollback標記回滾錯誤的保存點。

在SQL中循環只有WHILE一種這用起來不靈活，在ORACLE中有多種循環（LOOP循環、WHILE循環、FOR循環）。

在SQL中游標的使用比較復雜，不能同時打開一個以上的游標，因為它只有一個全局變數@@Fast_statues而且聲明游標也麻煩，關閉游標時也不清除內存的；ORACLE中游標是以提高速度全部統一的單項游標，可以允許多用戶非同步讀取，而且聲明比較簡單，就一句declare cursor游標名 is select 語句就可以了。

容錯機制：SQL中的錯誤機制比較復雜，沒有提供錯誤描述；ORACLE中容錯類型有三種，一個是預定義錯誤，一個是非預定義錯誤，一個是用戶自定義，其中在自定義錯誤中它有兩個是在SQL中不有的，那就是SQLCODE 錯誤號、SQLERRM錯誤描述。

文件體系結構：SQL中有.MDF(主要數據文件)、.NDF（擴展文件，可以有多個）、

.LDF（日誌文件，可以有多個，存放在聯機重做日誌數據，這里的日誌文件有一個缺點就是如果日誌文件已填小巧玲瓏的話，SQL將自動停止運行並等待人工干預，所以要經常監控日誌的情況保證系統的穩定運行）。ORACLE中有.DBF(主要數據文件)、.RDO（日誌文件，用來做災難性的數據備份）、.CTL（控制文件，將資料庫的物理文件映射到了數據字典中的邏輯表空間和連機重做日誌文件上去，確保數據的一致性）、.ORA（參數文件）。

. SQL只能是本機備份本機的資料庫，無法聯機備份，而且備份壓縮很低，佔用了大量空間；ORACLE提供了7種備份機制，具有聯機備份功能，有志門的備份機子。

Oracle的日誌默認有3個，先寫入1號日誌，滿了後再寫入2號日誌，2號滿了再寫入3號日誌，3號滿了後Oracle將自動備分1號日誌的內容，然後清空後寫入新的日誌信息，且Oracle的日誌有多路復用功能，我們可以為日誌創建多個鏡像，把相同的日誌信息同時寫入多個日誌文件中，這樣可以防止磁碟損壞造成的數據丟失。

SQL Server對每個資料庫只能分配一個日誌文件。且當日誌填滿後，日誌將停止工作，等待人工干預，而無法自動重用。

Oracle的控制文件記錄了資料庫文件的物理位置和有效性，在每次打開Oracle系統都將自動對數據進行驗證，查看其有效性，防止數據的丟失，這體現了Oracle對數據管理的嚴密性。

SQL Server無此安全機制，只用在使用到了資料庫的信息後，系統才去查找數據是否存在。

Oracle的參數文件init.ora是可調的，既我們可以根據資料庫的規模調整Oracle對系統資源的使用情況，以達到最合理的資源分配，讓Oracle達到最佳的性能。

SQL Server的配置參數是內定的不可調整，它對系統資源的分配是固定的，不受擁護控制，因此無法同時處理大量用戶的需求，這限制了它只能作為中，小型資料庫。

Oracle以塊為最小存儲單位，以區為單位分配空間，用戶可以根據需要自己定義塊的大小，且區可以按等額或遞增進行分配，這可以大大減少系統的I/O操作提高資料庫的性能。

SQL Server中以頁為單位或使用擴展類型以8頁為一單位進行空間分配而無法人工干預，當遇到頻繁存儲或大數據量存儲時，系統將頻繁進行I/O操作使工作效率低下。

Oracle中的SQL語句書寫規范且提供了完整的函數和數據類型。Oracle提供了健全的錯誤機制，用戶可以輕松的獲得錯誤位置和錯誤原因而加以修改。用戶還可以自己定義所須的錯誤類型，用以檢查邏輯錯誤。Oracle中對數據類型的轉換和游標的定義也十分方便。因此，我們對代碼的書寫和維護也比SQL Server方便許多。

SQL Server使用類C語言，不易維護和查看代碼。SQL Server包含的數據類型太少，無法定義結構體，數組，對象。SQL Server無法定義流程機制，類型轉換也極不方便，SQL Server中對游標定義十分復雜，且當用戶定義的多個游標同時打開時系統卻只有一個游標變數，這是SQL SERVER中一個嚴重的缺陷。

ORACLE中用戶可以根據數據需要在創建塊時定義填充因子(空閑空間的百分比)和復用因子(當塊的存儲數據所佔的空間下降到這個百分比之下時，塊才重新標記為可用)。用戶可以根據記錄變化頻率和數據量的大小設置合適的填充因子和空閑因子。

SQL SERVER只有填充因子，而它的定義與ORACLE剛好相反，它定義的是剩餘可用空間的百分比。而SQL SERVER中沒有復用因子，當頁中數據低於填充因子，但剩餘的空間已經不可能再插入新的數據，但頁還是標記為可用的，當系統要寫入新數據都要訪問這個頁而浪費時間，這種頁稱為廢頁，將使系統插入新數據時浪費大量時間查找可用的頁。

ORACLE在創建表時用戶可以精確定義數據存放的表空間，甚至可以把一張表分開存放在多個表空間中，這樣可以將數據量龐大的表按某些欄位分開存放，這將給查詢帶來極高的效率。

閱讀全文

大數據bitmap

與大數據bitmap相關的閱讀推薦