当前位置：首页 » 编程语言 » java抓取页面数据

java抓取页面数据

发布时间: 2021-03-16 05:25:10

『壹』如何用java抓取ajax页面的内容

ajax页面是动态生成了，直接抓不到。不过也不是没有途径的，通常找到该ajax通道地址还是能获取到里面的内容的。

从ajax所在页面可以找到蛛丝马迹，当然每个页面都不一样，所以你别问我要死方法。

我给你指个思路：用火狐浏览器，监控页面信息，当你点击请求时，会有通道地址信息出现。
当然你获得通道信息知识相对某一个请求的，你还得分析出它们的通式。

我拿sina新闻网举个例子你可能好理解一点:某国内新闻，标题，正文，日期我都从爬取的页面获得了，但我还想获得评论的信息(评论是动态生成的)。于是，我解析爬取页面的<meta name="sudameta"> 因为这个标签有改新闻评论通道的两个信息：channel和newsid。等等等等

就是这种思路，最后找到评论页面。比如title------------中纪委:部分干部不想抓不会抓不敢抓致问题拖炸|中纪委|问责_新浪新闻
拼出的评论通道是comment5.news.sina.com.cn/page/info?format=json&channel=gn&newsid=1-1-31456214&group=0&compress=1&ie=gbk&oe=gbk&page=1&page_size=10
然后你去解析这个页面内容，再转码就可以得到评论内容了。

我这么说不知道你明白怎么做了不？

这是我做网络爬虫的一点点心得，曾经尝试了各种方法，包括引入第三方jar也没很好的结局，最终才获得这么些心得，毫无保留的分享给你了。

谢谢

『贰』 Java 关于抓取异步的网页数据

遵循它，看到的AJAX请求是POST方法来模拟数据抓，但这么写代码太针对不具备通用性

『叁』 java 抓取网页数据,要怎么抓取

如果是一般允许抓取的页面用 wget就可以抓取了，
不允许抓取的的爬虫程序可以考虑用HttpClient

『肆』用Java来实现抓取数据的问题

你可以利用jsoup来抓取html页面的信息
Document doc = Jsoup.parse(input,"UTF-8","http://www.oschina.net/");

Elements links = doc.select("a[href]"); // 具有 href 属性的链接
Elements pngs = doc.select("img[src$=.png]");// 所有引用 png 图片的元素

Element masthead = doc.select("div.masthead").first();
// 找出定义了 class=masthead 的元素

Elements resultLinks = doc.select("h3.r > a"); // direct a after h3

『伍』如何用JAVA编程实现抓取某一页面的内容并保存成本地文件

import java.io.*;
import java.net.*;
public class server
{
public static void main(String[] args)
{
System.out.println("server starting.......");
try{
serversocket server=new serverSocker(7777);//listen7777port
Socket st=accpet();
BufferdReader br_net=new BufferdReader(new InputStreamReader)
BufferdReader br_key=new BufferdReader(new InputStreamReader)
printWriter pw=new PrintWriter(st.getOutputStream());
while(true){
String a=br_key.readLine();
pw.println(D:\);
pw.flush();

s=br_net.readLine();
system.out.println("hesays"+s);
}
}catch(Exception e){}

『陆』如何通过Java代码实现对网页数据进行指定抓取

通过Java代码实现对网页数据进行指定抓取方法步骤如下：
1在工程中导入回Jsoup.jar包

2获取网址答url指定HTML或者文档指定的body

3获取网页中超链接的标题和链接

4获取指定博客文章的内容

5获取网页中超链接的标题和链接的结果

『柒』 java开发，抓取html页面，着急，在线等！！！！！

先获取页面
String html = getContent(url, Constants.ENCODING_UTF8);
解析页面 Document doc=Jsoup.parse(html);
然后你获取相应的标签String tag =doc.getElementsByTag("title").first().text();
如果标签很多不一样你就得判断了,还有看看有什么相同的地方吧,我抓取网页数据的时候最烦的就是格式不一样的,好多标签不一样的,只能判断,找到共同点,个别的单个处理,我做了好久了,我根本没想到别的更好的办法,如果你有更好的办法希望你告诉我,我的工作会快很多.嘻嘻.谢谢啊.

『捌』如何在java代码中获取页面内容

import java.io.BufferedReader;
import java.io.DataInputStream;
import java.io.DataOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;public class Test
{
public static void main(String[] args) throws Exception
{
PrintWriter pw = new PrintWriter("d:\\test.xml");//d:\\test.xml是你的xml文件路径
pw.println(getHtmlConentByUrl(" http://www..com"));// http://www..com是你要访问的页面
pw.flush();
pw.close();
}

public static String getHtmlConentByUrl(
String ssourl) {
try {
URL url = new URL(ssourl);
HttpURLConnection con = (HttpURLConnection) url.openConnection();

con.setInstanceFollowRedirects(false);
con.setUseCaches(false);
con.setAllowUserInteraction(false);
con.connect(); StringBuffer sb = new StringBuffer();
String line = "";
BufferedReader URLinput = new BufferedReader(new InputStreamReader(con.getInputStream()));
while ((line = URLinput.readLine()) != null) {
sb.append(line);
}
con.disconnect();

return sb.toString().toLowerCase();
} catch (Exception e) {

return null;
}
}}
在获取到的页面内容是字符串，这里解析有两个办法，一是通过dom4j把字符串转化为dom进行解析，这样最好，但是对方的页面未必规范，符合dom结构。二是通过解析字符串过滤你想要的内容，该方法比较繁琐，需要一些技巧。我有的就是二；

『玖』 java实现次页面的数据抓取

// 获得将DOM文档转化为XML文件的转换器，有类TransformerFactory
// 来实现，类Transformer实现转化API。
TransformerFactory tfactory = TransformerFactory.newInstance();
Transformer transformer = tfactory.newTransformer();
// 将DOM对象转化为DOMSource类对象，该对象表现为转化成别的表达形式的信息容器。
DOMSource source = new DOMSource(document);
// 获得一个StreamResult类对象，该对象是DOM文档转化成的其他形式的文档的容器，可以是XML文件，文本文件，HTML文件。这里为一个XML文件。
StreamResult result = new StreamResult(new File(“text.xml”));
// 调用API，将DOM文档转化成XML文件。
transformer.transform(source,result);

『拾』如何用JAVA获取html网页中我所需要的数据

使用jsoup可以很方便的读取、解析网页内容。

阅读全文

java抓取页面数据

与java抓取页面数据相关的阅读推荐