『壹』 如何用java抓取ajax页面的内容

ajax页面是动态生成了,直接抓不到。不过也不是没有途径的,通常找到该ajax通道地址还是能获取到里面的内容的。

从ajax所在页面可以找到蛛丝马迹,当然每个页面都不一样,所以你别问我要死方法。

我给你指个思路:用火狐浏览器,监控页面信息,当你点击请求时,会有通道地址信息出现。
当然你获得通道信息知识相对某一个请求的,你还得分析出它们的通式。

我拿sina新闻网举个例子你可能好理解一点:某国内新闻,标题,正文,日期我都从爬取的页面获得了,但我还想获得评论的信息(评论是动态生成的)。于是,我解析爬取页面的<meta name="sudameta"> 因为这个标签有改新闻评论通道的两个信息:channel和newsid。等等等等

就是这种思路,最后找到评论页面。比如title------------中纪委:部分干部不想抓不会抓不敢抓致问题拖炸|中纪委|问责_新浪新闻
拼出的评论通道是comment5.news.sina.com.cn/page/info?format=json&channel=gn&newsid=1-1-31456214&group=0&compress=1&ie=gbk&oe=gbk&page=1&page_size=10
然后你去解析这个页面内容,再转码就可以得到评论内容了。

我这么说不知道你明白怎么做了不?

这是我做网络爬虫的一点点心得,曾经尝试了各种方法,包括引入第三方jar也没很好的结局,最终才获得这么些心得,毫无保留的分享给你了。

谢谢

『贰』 Java 关于抓取异步的网页数据

遵循它,看到的AJAX请求是POST方法来模拟数据抓,但这么写代码太针对不具备通用性

『叁』 java 抓取网页数据,要怎么抓取

如果是一般允许抓取的页面用 wget就可以抓取了,
不允许抓取的的爬虫程序可以考虑用HttpClient

『肆』 用Java来实现抓取数据的问题

你可以利用jsoup来抓取html页面的信息
Document doc = Jsoup.parse(input,"UTF-8","http://www.oschina.net/");

Elements links = doc.select("a[href]"); // 具有 href 属性的链接
Elements pngs = doc.select("img[src$=.png]");// 所有引用 png 图片的元素

Element masthead = doc.select("div.masthead").first();
// 找出定义了 class=masthead 的元素

Elements resultLinks = doc.select("h3.r > a"); // direct a after h3

『伍』 如何用JAVA编程实现抓取某一页面的内容并保存成本地文件

import java.io.*;
import java.net.*;
public class server
{
public static void main(String[] args)
{
System.out.println("server starting.......");
try{
serversocket server=new serverSocker(7777);//listen7777port
Socket st=accpet();
BufferdReader br_net=new BufferdReader(new InputStreamReader)
BufferdReader br_key=new BufferdReader(new InputStreamReader)
printWriter pw=new PrintWriter(st.getOutputStream());
while(true){
String a=br_key.readLine();
pw.println(D:\);
pw.flush();

s=br_net.readLine();
system.out.println("hesays"+s);
}
}catch(Exception e){}

『陆』 如何通过Java代码实现对网页数据进行指定抓取

通过Java代码实现对网页数据进行指定抓取方法步骤如下:
1在工程中导入回Jsoup.jar包

2获取网址答url指定HTML或者文档指定的body

3获取网页中超链接的标题和链接

4获取指定博客文章的内容

5获取网页中超链接的标题和链接的结果

『柒』 java开发,抓取html页面,着急,在线等!!!!!

先获取页面
String html = getContent(url, Constants.ENCODING_UTF8);
解析页面 Document doc=Jsoup.parse(html);
然后你获取相应的标签String tag =doc.getElementsByTag("title").first().text();
如果标签很多不一样你就得判断了,还有看看有什么相同的地方吧,我抓取网页数据的时候最烦的就是格式不一样的,好多标签不一样的,只能判断,找到共同点,个别的单个处理,我做了好久了,我根本没想到别的更好的办法,如果你有更好的办法希望你告诉我,我的工作会快很多.嘻嘻.谢谢啊.

『捌』 如何在java代码中获取页面内容

import java.io.BufferedReader;
import java.io.DataInputStream;
import java.io.DataOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;public class Test
{
public static void main(String[] args) throws Exception
{
PrintWriter pw = new PrintWriter("d:\\test.xml");//d:\\test.xml是你的xml文件路径
pw.println(getHtmlConentByUrl(" http://www..com"));// http://www..com是你要访问的页面
pw.flush();
pw.close();
}

public static String getHtmlConentByUrl(
String ssourl) {
try {
URL url = new URL(ssourl);
HttpURLConnection con = (HttpURLConnection) url.openConnection();

con.setInstanceFollowRedirects(false);
con.setUseCaches(false);
con.setAllowUserInteraction(false);
con.connect(); StringBuffer sb = new StringBuffer();
String line = "";
BufferedReader URLinput = new BufferedReader(new InputStreamReader(con.getInputStream()));
while ((line = URLinput.readLine()) != null) {
sb.append(line);
}
con.disconnect();

return sb.toString().toLowerCase();
} catch (Exception e) {

return null;
}
}}
在获取到的页面内容是字符串,这里解析有两个办法,一是通过dom4j把字符串转化为dom进行解析,这样最好,但是对方的页面未必规范,符合dom结构。二是通过解析字符串过滤你想要的内容,该方法比较繁琐,需要一些技巧。我有的就是二;

『玖』 java实现次页面的数据抓取

// 获得将DOM文档转化为XML文件的转换器,有类TransformerFactory
// 来实现,类Transformer实现转化API。
TransformerFactory tfactory = TransformerFactory.newInstance();
Transformer transformer = tfactory.newTransformer();
// 将DOM对象转化为DOMSource类对象,该对象表现为转化成别的表达形式的信息容器。
DOMSource source = new DOMSource(document);
// 获得一个StreamResult类对象,该对象是DOM文档转化成的其他形式的文档的容器,可以是XML文件,文本文件,HTML文件。这里为一个XML文件。
StreamResult result = new StreamResult(new File(“text.xml”));
// 调用API,将DOM文档转化成XML文件。
transformer.transform(source,result);

『拾』 如何用JAVA获取html网页中我所需要的数据

使用jsoup可以很方便的读取、解析网页内容。