当前位置：首页 » 数据智能 » java大数据量的处理

java大数据量的处理

发布时间: 2021-03-25 20:58:27

文件读取：首先是一个文件上传，数据入库，10-200万条不等，这里主要考虑到一次性读取，JVM分配出来的栈内存不一定会够（个人对内存这一块还是处于一知半解的状态，所以比较谨慎，若诸位大神有好的认知，希望评论留下地址分享一下），是依行读取数据，设定一个批量值，当读取的数据达到一定量之后，执行批量入库操作，清空集合，再接着读取。
//读取文件内容
while((s = br.readLine())!=null){
//判断是否达到单次处理量
if(num%leadingNum==0&&num!=0){
int a = stencDao.insertBatch(listBean);
if(a!=leadingNum){
flag = false;
}
//清空集合
listBean.clear();
}
String value = s.trim();
//将读取到的内容放入集合中
if(!value.equals("")){
StencilCustomer bean = new StencilCustomer();
bean.setCustomerPhone(value);
bean.setLinkStencilId(id);
listBean.add(bean);
num ++;
}
}
数据处理：这里的思路也是将数据小化然后处理，这里使用了多线程，设定单个线程处理量，然后开启多个线程处理，这里需要考虑你的服务器的承载能力，如果线程开得太多了，处理不过来，会出现蹦死的情况。例如200万数据，我开了20个线程，单个线程处理600条。
//建立一个线程池 ThreadPoolExecutor threadPool = new ThreadPoolExecutor(
minTaskNumber, maxTaskNumber, 3L, TimeUnit.SECONDS,
new ArrayBlockingQueue<Runnable>(minTaskNumber),
new ThreadPoolExecutor.DiscardOldestPolicy());
//当正在执行的线程数达到最大执行线程数的时候等待
boolean flag = true;
while(flag){
Thread.sleep(1000);//休眠2ms查询一次
int c = threadPool.getActiveCount();//线程池中活动中的线程数量
if(c<maxTaskNumber){
flag = false;
}
}
上面的代码是我对线程池的一个控制，控制服务器一直最大线程执行，Thread.sleep(1000);用while的时候，这个休眠最好不要去掉，去掉之后很影响执行效率

② java大数据量分批处理怎么实现

读取数据估计是没办法了，重点可以放在写入的操作上，粗略的认为，你使用框内架进行数据库写容入操作还不如用使用java原生的jdbc进行操作然后使用jdbc 的原生的批处理，我觉得肯定比框架快。我记得我当时插入10w条数据，只用了3秒，不过用的是oracle数据库。进行边读取边插入，这样占用的内存也相对小一些

③ Java 大数据量导出，该怎么解决

对于数据规模太大的，做成任务。

用户点击导出，检查他的数据规模，版超过50W的，提示其数据规模过大，可能需要权 N 小时完成，请稍候再来查询和下载导出结果。如果用户点击确定，你就提示：“任务已进入队列，点击此连接查询导出进度。”

然后你要做两件事情：
1、给这个用户记录个标识，就是他已经启动某导出任务，不能再启动新的了（或者限制一个人最多同时启动几个导出任务）；
2、后台有个调度程序，开始执行导出工作，并将生成的Excel放在某磁盘目录或存在数据库中；这个调度任务可以控制下最大同时并发的导出任务数，以避免任务太多拖垮系统。

另外需要开发界面查询导出进度以及下载导出结果。导出结果可以考虑一个最大保存周期，比如7天。

④ Java大数据处理问题

每条一行只能一行一行的来了

把文件分段，用多线程处理

⑤ java大数据量处理，30万txt，每个txt包含三个String，要求相互比较，三个String都相同则取出，怎么处理好

如果是txt文件，先将将txt文件，用ArrayList读进内存，如果太大(比如三四十兆的那种)，可以下个分割txt文件的软件(我这儿就有个很好用的，可以给你发过去)，然后ArrayList里每一条字符串就对应着txt文件里的一行，然后对字符串进行解析处理即可。
mysql就更简单了，通过jdbc和sql语句，将ResultSet结果集里的全部数据放入ArrayList，同样ArrayList里每一条字符串，就对应着数据库表中的一行。

⑥ Java EE开发中大数据处理用什么技术最好

本身你的问题就不具体

你怎么让别人跟你讲具体呢

大数据处理无非就是版以下大类

集群分散处权理
缓存
异步处理

也就是说,java web端要用集群做负载,将高并发分散到不同的服务器去处理

那么,由于数据量可能非常大,还需要有单独的缓存服务器,将session,数据库等缓存到某服务器(缓存服务器只对内存有要求,CPU及硬盘要求不高)

之势就是异步处理数据了,比如说某个界面可能要一次查一万条数据,你可以在前面用ajax一次查100,异步的查出来增加到界面,用户是感觉不出来的

⑦ 有哪些 java 解决大数据量同步的优选方案

建议采用缓存处理，按照你说的这种数据量，基于redis的缓存完全可以满足，存取速度可以10W+的，另外，拟采用的hashMap 是ConcurrentHashMap还是其他，页面展示是增量查询还是直接所有的再查询一次，socket数据接收你是用的netty还是mina，这都需要经过仔细的斟酌考虑设计的。有这么大的并发的需求，完全可以考虑做分布式集群的，估计这只是领导想要的目标吧

⑧ java如何快速处理大数据

阅读全文

java大数据量的处理

与java大数据量的处理相关的阅读推荐