當前位置：首頁 » 數據智能 » java大數據量的處理

java大數據量的處理

發布時間: 2021-03-25 20:58:27

文件讀取：首先是一個文件上傳，數據入庫，10-200萬條不等，這里主要考慮到一次性讀取，JVM分配出來的棧內存不一定會夠（個人對內存這一塊還是處於一知半解的狀態，所以比較謹慎，若諸位大神有好的認知，希望評論留下地址分享一下），是依行讀取數據，設定一個批量值，當讀取的數據達到一定量之後，執行批量入庫操作，清空集合，再接著讀取。
//讀取文件內容
while((s = br.readLine())!=null){
//判斷是否達到單次處理量
if(num%leadingNum==0&&num!=0){
int a = stencDao.insertBatch(listBean);
if(a!=leadingNum){
flag = false;
}
//清空集合
listBean.clear();
}
String value = s.trim();
//將讀取到的內容放入集合中
if(!value.equals("")){
StencilCustomer bean = new StencilCustomer();
bean.setCustomerPhone(value);
bean.setLinkStencilId(id);
listBean.add(bean);
num ++;
}
}
數據處理：這里的思路也是將數據小化然後處理，這里使用了多線程，設定單個線程處理量，然後開啟多個線程處理，這里需要考慮你的伺服器的承載能力，如果線程開得太多了，處理不過來，會出現蹦死的情況。例如200萬數據，我開了20個線程，單個線程處理600條。
//建立一個線程池 ThreadPoolExecutor threadPool = new ThreadPoolExecutor(
minTaskNumber, maxTaskNumber, 3L, TimeUnit.SECONDS,
new ArrayBlockingQueue<Runnable>(minTaskNumber),
new ThreadPoolExecutor.DiscardOldestPolicy());
//當正在執行的線程數達到最大執行線程數的時候等待
boolean flag = true;
while(flag){
Thread.sleep(1000);//休眠2ms查詢一次
int c = threadPool.getActiveCount();//線程池中活動中的線程數量
if(c<maxTaskNumber){
flag = false;
}
}
上面的代碼是我對線程池的一個控制，控制伺服器一直最大線程執行，Thread.sleep(1000);用while的時候，這個休眠最好不要去掉，去掉之後很影響執行效率

② java大數據量分批處理怎麼實現

讀取數據估計是沒辦法了，重點可以放在寫入的操作上，粗略的認為，你使用框內架進行資料庫寫容入操作還不如用使用java原生的jdbc進行操作然後使用jdbc 的原生的批處理，我覺得肯定比框架快。我記得我當時插入10w條數據，只用了3秒，不過用的是oracle資料庫。進行邊讀取邊插入，這樣佔用的內存也相對小一些

③ Java 大數據量導出，該怎麼解決

對於數據規模太大的，做成任務。

用戶點擊導出，檢查他的數據規模，版超過50W的，提示其數據規模過大，可能需要權 N 小時完成，請稍候再來查詢和下載導出結果。如果用戶點擊確定，你就提示：「任務已進入隊列，點擊此連接查詢導出進度。」

然後你要做兩件事情：
1、給這個用戶記錄個標識，就是他已經啟動某導出任務，不能再啟動新的了（或者限制一個人最多同時啟動幾個導出任務）；
2、後台有個調度程序，開始執行導出工作，並將生成的Excel放在某磁碟目錄或存在資料庫中；這個調度任務可以控制下最大同時並發的導出任務數，以避免任務太多拖垮系統。

另外需要開發界面查詢導出進度以及下載導出結果。導出結果可以考慮一個最大保存周期，比如7天。

④ Java大數據處理問題

每條一行只能一行一行的來了

把文件分段，用多線程處理

⑤ java大數據量處理，30萬txt，每個txt包含三個String，要求相互比較，三個String都相同則取出，怎麼處理好

如果是txt文件，先將將txt文件，用ArrayList讀進內存，如果太大(比如三四十兆的那種)，可以下個分割txt文件的軟體(我這兒就有個很好用的，可以給你發過去)，然後ArrayList里每一條字元串就對應著txt文件里的一行，然後對字元串進行解析處理即可。
mysql就更簡單了，通過jdbc和sql語句，將ResultSet結果集里的全部數據放入ArrayList，同樣ArrayList里每一條字元串，就對應著資料庫表中的一行。

⑥ Java EE開發中大數據處理用什麼技術最好

本身你的問題就不具體

你怎麼讓別人跟你講具體呢

大數據處理無非就是版以下大類

集群分散處權理
緩存
非同步處理

也就是說,java web端要用集群做負載,將高並發分散到不同的伺服器去處理

那麼,由於數據量可能非常大,還需要有單獨的緩存伺服器,將session,資料庫等緩存到某伺服器(緩存伺服器只對內存有要求,CPU及硬碟要求不高)

之勢就是非同步處理數據了,比如說某個界面可能要一次查一萬條數據,你可以在前面用ajax一次查100,非同步的查出來增加到界面,用戶是感覺不出來的

⑦ 有哪些 java 解決大數據量同步的優選方案

建議採用緩存處理，按照你說的這種數據量，基於redis的緩存完全可以滿足，存取速度可以10W+的，另外，擬採用的hashMap 是ConcurrentHashMap還是其他，頁面展示是增量查詢還是直接所有的再查詢一次，socket數據接收你是用的netty還是mina，這都需要經過仔細的斟酌考慮設計的。有這么大的並發的需求，完全可以考慮做分布式集群的，估計這只是領導想要的目標吧

⑧ java如何快速處理大數據

閱讀全文

java大數據量的處理

與java大數據量的處理相關的閱讀推薦