当前位置：首页 » 网站代码 » 网页抓取代码

网页抓取代码

发布时间: 2021-03-17 19:03:13

㈠如何通过网页源代码来提取网页中的图片

可以现在网页源码中找到图片的链接，然后将图片在新窗口打开并进行保存。

1、右版击想要提取的图片权，在展开的菜单中点击“检查”按钮打开控制台：

㈡如何抓取网页代码中的URL！

以下代码可以获取到指定URL页面中的所有链接，即所有a标签的href属性：

// 获取链接的html代码
$html = file_get_contents('http://www.example.com');

$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate('/html/body//a');

for ($i = 0; $i < $hrefs->length; $i++) {
$href = $hrefs->item($i);
$url = $href->getAttribute('href');
echo $url.' ';
}
这段代码会获取到所有a标签的href属性，但是href属性值不一定是链接，我们可以在做个过滤，只保留http开头的链接地址：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
// 获取链接的HTML代码
$html = file_get_contents('http://www.example.com');

$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate('/html/body//a');

for ($i = 0; $i < $hrefs->length; $i++) {
$href = $hrefs->item($i);
$url = $href->getAttribute('href');

// 保留以http开头的链接
if(substr($url, 0, 4) == 'http')
echo $url.' ';
}

㈢求抓取网页内容的程序或代码（两层或更多，delphi）

抓取网页内容，通常大家以为到网上偷数据，然后把到收集到的数据挂到自己网上去。其实也可以将采集到的数据做为公司的参考，或把收集的数据跟自己公司的业务做对比等。
目前网页采集多为3P代码为多（3P即ASP、PHP 、JSP）。用得最有代表的就动易科技公司BBS中新闻采集系统，和网上流传的新浪新闻采集系统等都是用ASP程序来使用，但速度从理论上来说不是很好。如果尝试用其它软件的多线程采集是不是更快？答案是肯定的。用DELPHI、VC、VB、JB都可以，PB似乎比较不好做。以下用DELPHI来解释采集网页数据。
一、简单的新闻采集
新闻采集是最简单的，只要识别标题、副题、作者、出处、日期、新闻主体、分页就可以了。在采集之前肯定要取得网页的内容，所以在DELPHI里加入idHTTP控件（在indy Clients面板），然后用idHTTP1.GET 方法取得网页的内容，声明如下：
function Get(AURL: string): string; overload;
AURL参数，是string类型，指定一个URL地址字符串。函数返回也是string类型，返回网页的HTML源文件。比如我们可以这样调用：
tmpStr:= idHTTP1.Get(‘http://www.163.com’);
调用成功后，tmpstr变量里存储的就是网易主页的代码了。
接下来，讲一下数据的截取，这里，我定义了这么一个函数：
function TForm1.GetStr(StrSource,StrBegin,StrEnd:string):string;
var
in_star,in_end:integer;
begin
in_star:=AnsiPos(strbegin,strsource)+length(strbegin);
in_end:=AnsiPos(strend,strsource);
result:=(strsource,in_sta,in_end-in_star);
end;
StrSource：string类型，表示HTML源文件。
StrBegin：string类型，表示截取开始的标记。
StrEnd：string，表示截取结束的标记。
函数返回字符串StrSource中从StrSource到StrBegin之间的一段文本。
比如：
strtmp:=TForm1.GetStr(‘A123BCD’,‘A’,‘BC’);
运行后，strtmp的值为：’123’。
关于函数里用到的AnsiPos和，都是系统定义的，可以从delphi的帮助文件里找到相关说明，我在这里也简单罗嗦一下：
function AnsiPos(const Substr, S: string): Integer
返回Substr在S中第一次出现的位置。
function (strsource,in_sta,in_end-in_star): string;
返回字符串strsource中,从in_sta（整型数据）开始到in_end-in_star（整型数据）结束的字符串。
有了以上函数，我们就可以通过设置各种标记，来截取想要的文章内容了。在程序中，比较麻烦的是我们需要设置许多标记，要定位某一项内容，必须设置它的开始和结束标志。比如要取得网页上的文章标题，必须事先查看网页代码，查看出文章标题前边和后边的一些特征代码，通过这些特征代码，来截取文章的标题。
下面我们来实际演示一下，假设要采集的文章地址为http://www.xxx.com/test.htm
代码为：
<html>
<head>
<meta http-equiv="Content-Language" content="zh-cn">
<meta name="GENERATOR" content="Microsoft FrontPage 5.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>新建网页 1</title>
</head>
<body>
文章标题
<table border="1" cellpadding="0" cellspacing="0" style="border-collapse: collapse" bordercolor="#111111" width="100%" id="AutoNumber1">
<tr><td width="60%">作者</td>
<td width="40%">出处</td></tr>
</table>
这里是文章内容正文。
<a href='..new_pr.asp'>上一页</a> <a href='new_ne.asp'>下一页</a>
</body>
</html>
第一步，我们用StrSource:= idHTTP1.Get(‘http://www.xxx.com/test.htm ’);将网页代码保存在strsource变量中。
然后定义strTitle、strAuthor、strCopyFrom、strContent：
strTitle:= GetStr(StrSource,’ ’,’ ’):
strAuthor:= GetStr(StrSource,’ <tr><td width="60%">’,’ </td>’):
strCopyFrom:= GetStr(StrSource,’ <td width="40%">’,’ </td></tr>’):
strContent:= GetStr(StrSource,’ ,’ ’):
这样，就能把文章的标题、副题、作者、出处、日期、内容和分页分别存储在以上变量中。
第二步，用循环的办法，打开下一页，并取得内容，加到strContent变量中。
StrSource:= idHTTP1.Get(‘new_ne.asp’);
strContent:= strContent +GetStr(StrSource,’ ,’ ’):
然后再判断有没有下一页，如果还有就接着取得下一页的内容。
这样就完成了一个简单的截取过程。从以上的程序代码可以看到，我们使用的截取办法都是找截取内容的头部和尾部的，如果遇到这个头部和尾部有多个怎么办？似乎没办法，只会找到第一个，所以在找之前应该验证一下是不是只有一处有这个截取的内容的前后部。
-------------
希望可以给你些帮助：）

㈣怎么提取网页的代码！

<%
url="要提取网页的网址"
content=getresult(url)
if instr(content,"您的IP地址是：")=0 then
response.write "查无此IP。"
else
content = Mid(content,instr(content,"您的IP地址是："))
address=left(content,instr(content," </td>")-1)
response.write address
end if

Function GetResult(URL)
On Error Resume Next
strReturn = ""
Set oSend = CreateObject("MSXML2.XMLHTTP")
oSend.Open "GET",URL,false
oSend.Send()
Result = oSend.ResponseBody
Set oSend = Nothing
If Err.Number <> 0 Then
Exit Function
End If
For ii = 1 To LenB(Result)
ThisCharCode = AscB(MidB(Result,ii,1))
If ThisCharCode < &H80 Then
strReturn = strReturn & Chr(ThisCharCode)
Else
NextCharCode = AscB(MidB(Result,ii+1,1))
strReturn = strReturn & Chr (CLng(ThisCharCode) * &H100 + CInt(NextCharCode))
ii = ii + 1
End If
Next
GetResult = strReturn
End Function
%>

㈤请问如何提取网页源代码指定内容（最好用批处理）

就是一个采集工具了。建议安装个采集软件试下，破解版的火车头

㈥有什么工具可以抓取网页上指定区域的HTML代码包括CSS代码JS代码

一般用friebug，或者chorme的元素审核都可以看到指定区域用的CSS样式。。

抓取的话，上面这两个，找到了，它是可以直接复制出来，，

㈦如何提取网页源代码中的链接代码

Private Sub Command1_Click()

Dim s As String

s = Text1.Text
s = Replace(Text1.Text, vbCrLf, "") '移除所有回车换行符

'Dim oRegEx As RegExp
'Set oRegEx = New RegExp
'Dim oMatches As MatchCollection
'Dim oMatch As Match

Dim oRegEx As Object
Set oRegEx = CreateObject("VBScript.RegExp")
Dim oMatches As Object
Dim oMatch As Object

With oRegEx
.Global = True '全局匹配
.IgnoreCase = True '忽略大小写
.Pattern = "<a[^>]*?href=[""' ]?(.*?)(?:""|'| ).[^> ]*?>([\s\S]*?)</a>"
'提取所有A标签的正则式,小括号中是子匹配引用组第一个是 (.*?) 第二个是([\s\S]*?)
Set oMatches = .Execute(s)

If oMatches.Count >= 1 Then
Text2.Text = ""

Dim sHref As String, sInnerText As String

Dim i As Integer

Dim sLink As String

'Dim colLinks As Scripting.Dictionary
'Set colLinks = New Scripting.Dictionary

Dim colLinks As Object
Set colLinks = CreateObject("Scripting.Dictionary")

For Each oMatch In oMatches

sHref = oMatch.SubMatches(0) '(.*?)
sInnerText = oMatch.SubMatches(1) '([\s\S]*?)
sInnerText = RemoveTags(sInnerText) '移除A标签(内容)中的多余标签
sInnerText = Replace(sInnerText, " ", "") '移除A标签(内容)中的所有空格
sLink = "<A href=""" & sHref & """>" & sInnerText & "</A>"

If Not colLinks.Exists(sLink) Then
colLinks.Add sLink, sLink
Text2.Text = Text2.Text & sLink & vbNewLine
End If

Next

End If

End With

Set oMatches = Nothing
Set oMatch = Nothing
Set oRegEx = Nothing
Set colLinks = Nothing
End Sub

'这个函数可以去除HTML代码中的标签
Function RemoveTags(ByVal html As String)

'Dim oRegEx As RegExp
'Set oRegEx = New RegExp
Dim oRegEx As Object

Set oRegEx = CreateObject("VBScript.RegExp")

With oRegEx
.Global = True
.IgnoreCase = True
.Pattern = "<[^>]*>"
RemoveTags = .Replace(html, "")
End With

Set oRegEx = Nothing
End Function

㈧怎么获取网页源代码中的文件

获取网页源代码中的文件的具体步骤如下：

1、首先我们在浏览器里随意打开一张网页查看版其源代码。权

㈨如何提取网站代码

上Bai搜索，扒站工具，就可以扒掉网站所有JS，CSS样式表！

㈩求asp抓取网页代码

<%
Function getHTTPPage(urls)
dim objXML
set objXML=server.createobject("MSXML2.XMLHTTP")'定义
objXML.open "GET",urls,false'打开
objXML.send()'发送
If objXML.readystate<>4 then '判断文档是否已经解析完，以做客户端接受返回消息
exit function
End If
getHTTPPage=BytesToBstr(objXML.responseBody)'返回信息，同时用函数定义编码
getHTTPPage=replace(getHTTPPage,"<","<")
'getHTTPPage=bytes2BSTR(objXML.responseBody)'或者返回信息时用函数转换汉字
set objXML=nothing'关闭
if err.number<>0 then err.Clear
End Function
Function BytesToBstr(body)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = "GB2312"
'转换原来默认的UTF-8编码转换成GB2312编码，否则直接用XMLHTTP调用有中文字符的网页得到的将是乱码
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
Dim Urls,Html
Urls="http开头网址"
Html = getHTTPPage(Urls)
response.write(Html)
%>

阅读全文

网页抓取代码

与网页抓取代码相关的阅读推荐