当前位置：首页 » 数据智能 » java导入大数据

java导入大数据

发布时间: 2021-03-24 03:13:18

① java如何导入大数据量excel，现在导入单个excel有几十万的数据，会出现内

用一些好的框架工具 spring batch

② java 从数据库中读取大数据

这样每次去读取上百万条数据，不崩掉才怪，
我的想法是，你分批去查，然后分批导出，
类似于分页，每1000 或者更多为一批
按批次去执行，然后做一个进度条，按有多少批次为进度数进行导出
这样应该会好很多
还可以做个缓存机制，按批次进行存储，下次拿数据就直接从缓存中获取

③ 怎么使用java导出大数据为xml文件

dom4j可以试试，不知道你的数据量有多大，如果太大的话，我没试过
xml文件是有规律的，可以把要导出的数据构造一下，

我有个简单的代码，在这分享一下，希望对LZ有用
package com.test.xml;

import java.io.FileWriter;
import java.io.IOException;
import java.io.Writer;
import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.OutputFormat;
import org.dom4j.io.XMLWriter;
public class Dom4JXML {

public void createXML() {
//用工厂类创建一个document实例
Document doc = DocumentHelper.createDocument();
//创建根元素emps
Element rootEle = doc.addElement("emps");
//添加注释
rootEle.addComment("这是一个dom4j生成的xml文件");
//emps根节点下创建一个emp节点
Element empEle = rootEle.addElement("emp");
//emp添加属性id="1"
empEle.addAttribute("id", "1");
//emp节点下创建一个name节点
Element nameEle = empEle.addElement("name");
//name节点下创建一个文本节点zhangsan
nameEle.setText("zhangsan");
//再为name节点创建一个兄弟节点
Element sexEle = empEle.addElement("sex");
sexEle.setText("man");
//将document中的内容写入文件中
try {
Writer out = new FileWriter("F:\\emps.xml");
//格式化输出,类型IE浏览一样
OutputFormat format = OutputFormat.createPrettyPrint();
//OutputFormat format = OutputFormat.createCompactFormat();
format.setEncoding("UTF-8");
//创建写出对象
XMLWriter writer = new XMLWriter(out,format);
writer.write(doc);
writer.close();
System.out.println("生成emps.xml成功。");
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
System.out.println("失败了。");
}
}

public static void main(String[] args) {
new Dom4JXML().createXML();
}
}

④ 如何用java jdbc 向数据库表插入大数据量

一次性插入大量数据，只能使用循环，
如：游标，while 循环语句
下面介绍While 循环插入数据，
SQL 代码如下：
IF OBJECT_ID('dbo.Nums') IS NOT NULL
DROP TABLE dbo.Nums;
GO
CREATE TABLE dbo.Nums(n INT NOT NULL PRIMARY KEY);
DECLARE @max AS INT, @rc AS INT;
SET @max = 5000000;
SET @rc = 1;
INSERT INTO Nums VALUES(1);
WHILE @rc * 2 <= @max
BEGIN
INSERT INTO dbo.Nums SELECT n + @rc FROM dbo.Nums;
SET @rc = @rc * 2;
END
INSERT INTO dbo.Nums SELECT n + @rc FROM dbo.Nums WHERE n + @rc <= @max;
--以上函数取自Inside SQL Server 2005: T-SQL Query一书。
INSERT dbo.Sample SELECT n, RAND(CAST(NEWID() AS BINARY(16))) FROM Nums

⑤ java poi Excel大数据量导入怎么提高速度

记得有个属性，

POI3.8的SXSSF包是XSSF的一个扩展版本，支持流处理，在生成大数据量的电子表格且堆空间有限时使用。SXSSF通过限制内存中可访问的记录行数来实现其低内存利用，当达到限定值时，新一行数据的加入会引起老一行的数据刷新到硬盘。
比如内存中限制行数为100，当行号到达101时，行号为0的记录刷新到硬盘并从内存中删除，当行号到达102时，行号为1的记录刷新到硬盘，并从内存中删除，以此类推。
rowAccessWindowSize代表指定的内存中缓存记录数，默认为100，此值可以通过
new SXSSFWorkbook(int rowAccessWindowSize)或SXSSFSheet.setRandomAccessWindowSize(int windowSize)来设置。

⑥ 怎样使用Java 开发大数据

未来10年将是大数据，人工智能爆发的时代，到时将会有大量的企业需要借助大数据，而Java最大的优势就是它在大数据领域的地位，目前很多的大数据架构都是通过Java来完成的。
在这个Android、iOS相继没落，PHP相继饱和的时候，只有Java大数据保持着旺盛的需求。那么，Java大数据需要学习什么技术呢？
首先我们要学习Java语言和Linux操作系统。很多人入门编程语言就是Java，你或许还不知道Java的方向有JavaSE、JavaEE、JavaME，学习Java大数据需要学习JavaSE、JavaEE。了解Java怎么连接数据库，掌握JDBC，学习Hibernate/Mybatis的原理，以及API，这样可以增加你对Java操作数据库的理解，因为这两个技术的核心就是Java的反射加上JDBC的各种使用。
接下来就需要学习Linux操作系统，因为大数据相关软件都是在Linux上运行的，学好Linux对你快速掌握大数据相关技术有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本，这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
最后当然是Hadoop的学习，这几乎已经成为大数据的代名词，Hadoop里面包括组件HDFS、MapRece和YARN，HDFS是存储数据的地方，就像电脑的硬盘一样，文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快，所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件，有了它大数据生态体系的其它软件就能在hadoop上运行了，这样就能更好的利用HDFS大存储的优势和节省更多的资源，比如我们就不用再单独建一个spark的集群了，让它直接跑在现有的hadoop yarn上面就可以了。
学了这些，可以胜任初级Java工程师了，当然还是有很有可以提高的地方，比如学习下python，可以用它来编写网络爬虫。这样我们就可以自己造数据了，网络上的各种数据你高兴都可以下载到你的集群上去处理。

⑦ java怎么转大数据

Hadoop之类的去看一下，还有大数据只是个概念具体技术还是要分的

⑧ 怎么利用JAVA导入大数据量的文本文件数据到

首先从文件中读取数据，每当读完一条纪录是，把它转换成oracle的插入语句。你可以执行，也可以存在一个大字符串里，最后一起执行

⑨ Java如何处理大数据的

文件读取：首先是一个文件上传，数据入库，10-200万条不等，这里主要考虑到一次性读取，JVM分配出来的栈内存不一定会够（个人对内存这一块还是处于一知半解的状态，所以比较谨慎，若诸位大神有好的认知，希望评论留下地址分享一下），是依行读取数据，设定一个批量值，当读取的数据达到一定量之后，执行批量入库操作，清空集合，再接着读取。
//读取文件内容
while((s = br.readLine())!=null){
//判断是否达到单次处理量
if(num%leadingNum==0&&num!=0){
int a = stencDao.insertBatch(listBean);
if(a!=leadingNum){
flag = false;
}
//清空集合
listBean.clear();
}
String value = s.trim();
//将读取到的内容放入集合中
if(!value.equals("")){
StencilCustomer bean = new StencilCustomer();
bean.setCustomerPhone(value);
bean.setLinkStencilId(id);
listBean.add(bean);
num ++;
}
}
数据处理：这里的思路也是将数据小化然后处理，这里使用了多线程，设定单个线程处理量，然后开启多个线程处理，这里需要考虑你的服务器的承载能力，如果线程开得太多了，处理不过来，会出现蹦死的情况。例如200万数据，我开了20个线程，单个线程处理600条。
//建立一个线程池 ThreadPoolExecutor threadPool = new ThreadPoolExecutor(
minTaskNumber, maxTaskNumber, 3L, TimeUnit.SECONDS,
new ArrayBlockingQueue<Runnable>(minTaskNumber),
new ThreadPoolExecutor.DiscardOldestPolicy());
//当正在执行的线程数达到最大执行线程数的时候等待
boolean flag = true;
while(flag){
Thread.sleep(1000);//休眠2ms查询一次
int c = threadPool.getActiveCount();//线程池中活动中的线程数量
if(c<maxTaskNumber){
flag = false;
}
}
上面的代码是我对线程池的一个控制，控制服务器一直最大线程执行，Thread.sleep(1000);用while的时候，这个休眠最好不要去掉，去掉之后很影响执行效率

阅读全文

java导入大数据

与java导入大数据相关的阅读推荐