㈠ 如何通過網頁代碼來提取網頁中的圖片

可以現在網頁源碼中找到圖片的鏈接,然後將圖片在新窗口打開並進行保存。

1、右版擊想要提取的圖片權,在展開的菜單中點擊「檢查」按鈕打開控制台:

㈡ 如何抓取網頁代碼中的URL!

以下代碼可以獲取到指定URL頁面中的所有鏈接,即所有a標簽的href屬性:

// 獲取鏈接的html代碼
$html = file_get_contents('http://www.example.com');

$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate('/html/body//a');

for ($i = 0; $i < $hrefs->length; $i++) {
$href = $hrefs->item($i);
$url = $href->getAttribute('href');
echo $url.'<br />';
}
這段代碼會獲取到所有a標簽的href屬性,但是href屬性值不一定是鏈接,我們可以在做個過濾,只保留http開頭的鏈接地址:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
// 獲取鏈接的HTML代碼
$html = file_get_contents('http://www.example.com');

$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate('/html/body//a');

for ($i = 0; $i < $hrefs->length; $i++) {
$href = $hrefs->item($i);
$url = $href->getAttribute('href');

// 保留以http開頭的鏈接
if(substr($url, 0, 4) == 'http')
echo $url.'<br />';
}

㈢ 求抓取網頁內容的程序或代碼(兩層或更多,delphi)

抓取網頁內容,通常大家以為到網上偷數據,然後把到收集到的數據掛到自己網上去。其實也可以將採集到的數據做為公司的參考,或把收集的數據跟自己公司的業務做對比等。
目前網頁採集多為3P代碼為多(3P即ASP、PHP 、JSP)。用得最有代表的就動易科技公司BBS中新聞採集系統,和網上流傳的新浪新聞採集系統等都是用ASP程序來使用,但速度從理論上來說不是很好。如果嘗試用其它軟體的多線程採集是不是更快?答案是肯定的。用DELPHI、VC、VB、JB都可以,PB似乎比較不好做。以下用DELPHI來解釋採集網頁數據。
一、 簡單的新聞採集
新聞採集是最簡單的,只要識別標題、副題、作者、出處、日期、新聞主體、分頁就可以了。在採集之前肯定要取得網頁的內容,所以在DELPHI里加入idHTTP控制項(在indy Clients面板),然後用idHTTP1.GET 方法取得網頁的內容,聲明如下:
function Get(AURL: string): string; overload;
AURL參數,是string類型,指定一個URL地址字元串。函數返回也是string類型,返回網頁的HTML源文件。比如我們可以這樣調用:
tmpStr:= idHTTP1.Get(『http://www.163.com』);
調用成功後,tmpstr變數里存儲的就是網易主頁的代碼了。
接下來,講一下數據的截取,這里,我定義了這么一個函數:
function TForm1.GetStr(StrSource,StrBegin,StrEnd:string):string;
var
in_star,in_end:integer;
begin
in_star:=AnsiPos(strbegin,strsource)+length(strbegin);
in_end:=AnsiPos(strend,strsource);
result:=(strsource,in_sta,in_end-in_star);
end;
StrSource:string類型,表示HTML源文件。
StrBegin:string類型,表示截取開始的標記。
StrEnd:string,表示截取結束的標記。
函數返回字元串StrSource中從StrSource到StrBegin之間的一段文本。
比如:
strtmp:=TForm1.GetStr(『A123BCD』,『A』,『BC』);
運行後,strtmp的值為:』123』。
關於函數里用到的AnsiPos和,都是系統定義的,可以從delphi的幫助文件里找到相關說明,我在這里也簡單羅嗦一下:
function AnsiPos(const Substr, S: string): Integer
返回Substr在S中第一次出現的位置。
function (strsource,in_sta,in_end-in_star): string;
返回字元串strsource中,從in_sta(整型數據)開始到in_end-in_star(整型數據)結束的字元串。
有了以上函數,我們就可以通過設置各種標記,來截取想要的文章內容了。在程序中,比較麻煩的是我們需要設置許多標記,要定位某一項內容,必須設置它的開始和結束標志。比如要取得網頁上的文章標題,必須事先查看網頁代碼,查看出文章標題前邊和後邊的一些特徵代碼,通過這些特徵代碼,來截取文章的標題。
下面我們來實際演示一下,假設要採集的文章地址為http://www.xxx.com/test.htm
代碼為:
<html>
<head>
<meta http-equiv="Content-Language" content="zh-cn">
<meta name="GENERATOR" content="Microsoft FrontPage 5.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>新建網頁 1</title>
</head>
<body>
<p align="center"><b>文章標題</b></p>
<table border="1" cellpadding="0" cellspacing="0" style="border-collapse: collapse" bordercolor="#111111" width="100%" id="AutoNumber1">
<tr><td width="60%">作者</td>
<td width="40%">出處</td></tr>
</table>
<p><font size="2">這里是文章內容正文。</font></p>
<a href='..new_pr.asp'>上一頁</a> <a href='new_ne.asp'>下一頁</a>
</body>
</html>
第一步,我們用StrSource:= idHTTP1.Get(『http://www.xxx.com/test.htm 』);將網頁代碼保存在strsource變數中。
然後定義strTitle、strAuthor、strCopyFrom、strContent:
strTitle:= GetStr(StrSource,』 <p align="center"><b>』,』 </b></p>』):
strAuthor:= GetStr(StrSource,』 <tr><td width="60%">』,』 </td>』):
strCopyFrom:= GetStr(StrSource,』 <td width="40%">』,』 </td></tr>』):
strContent:= GetStr(StrSource,』 <p><font size="2">,』 </font></p>』):
這樣,就能把文章的標題、副題、作者、出處、日期、內容和分頁分別存儲在以上變數中。
第二步,用循環的辦法,打開下一頁,並取得內容,加到strContent變數中。
StrSource:= idHTTP1.Get(『new_ne.asp』);
strContent:= strContent +GetStr(StrSource,』 <p><font size="2">,』 </font></p>』):
然後再判斷有沒有下一頁,如果還有就接著取得下一頁的內容。
這樣就完成了一個簡單的截取過程。從以上的程序代碼可以看到,我們使用的截取辦法都是找截取內容的頭部和尾部的,如果遇到這個頭部和尾部有多個怎麼辦?似乎沒辦法,只會找到第一個,所以在找之前應該驗證一下是不是只有一處有這個截取的內容的前後部。
-------------
希望可以給你些幫助:)

㈣ 怎麼提取網頁的代碼!

<%
url="要提取網頁的網址"
content=getresult(url)
if instr(content,"您的IP地址是:")=0 then
response.write "查無此IP。"
else
content = Mid(content,instr(content,"您的IP地址是:"))
address=left(content,instr(content,"<br/><br/></td>")-1)
response.write address
end if

Function GetResult(URL)
On Error Resume Next
strReturn = ""
Set oSend = CreateObject("MSXML2.XMLHTTP")
oSend.Open "GET",URL,false
oSend.Send()
Result = oSend.ResponseBody
Set oSend = Nothing
If Err.Number <> 0 Then
Exit Function
End If
For ii = 1 To LenB(Result)
ThisCharCode = AscB(MidB(Result,ii,1))
If ThisCharCode < &H80 Then
strReturn = strReturn & Chr(ThisCharCode)
Else
NextCharCode = AscB(MidB(Result,ii+1,1))
strReturn = strReturn & Chr (CLng(ThisCharCode) * &H100 + CInt(NextCharCode))
ii = ii + 1
End If
Next
GetResult = strReturn
End Function
%>

㈤ 請問如何提取網頁源代碼指定內容(最好用批處理)

就是一個採集工具了。建議安裝個採集軟體試下,破解版的火車頭

㈥ 有什麼工具可以抓取網頁上指定區域的HTML代碼包括CSS代碼JS代碼

一般用friebug,或者chorme的元素審核都可以看到指定區域用的CSS樣式。。

抓取的話,上面這兩個,找到了,它是可以直接復制出來,,

㈦ 如何提取網頁源代碼中的鏈接代碼

Private Sub Command1_Click()

Dim s As String

s = Text1.Text
s = Replace(Text1.Text, vbCrLf, "") '移除所有回車換行符

'Dim oRegEx As RegExp
'Set oRegEx = New RegExp
'Dim oMatches As MatchCollection
'Dim oMatch As Match

Dim oRegEx As Object
Set oRegEx = CreateObject("VBScript.RegExp")
Dim oMatches As Object
Dim oMatch As Object

With oRegEx
.Global = True '全局匹配
.IgnoreCase = True '忽略大小寫
.Pattern = "<a[^>]*?href=[""' ]?(.*?)(?:""|'| ).[^> ]*?>([\s\S]*?)</a>"
'提取所有A標簽的正則式,小括弧中是子匹配引用組第一個是 (.*?) 第二個是([\s\S]*?)
Set oMatches = .Execute(s)

If oMatches.Count >= 1 Then
Text2.Text = ""

Dim sHref As String, sInnerText As String

Dim i As Integer

Dim sLink As String

'Dim colLinks As Scripting.Dictionary
'Set colLinks = New Scripting.Dictionary

Dim colLinks As Object
Set colLinks = CreateObject("Scripting.Dictionary")

For Each oMatch In oMatches

sHref = oMatch.SubMatches(0) '(.*?)
sInnerText = oMatch.SubMatches(1) '([\s\S]*?)
sInnerText = RemoveTags(sInnerText) '移除A標簽(內容)中的多餘標簽
sInnerText = Replace(sInnerText, " ", "") '移除A標簽(內容)中的所有空格
sLink = "<A href=""" & sHref & """>" & sInnerText & "</A>"

If Not colLinks.Exists(sLink) Then
colLinks.Add sLink, sLink
Text2.Text = Text2.Text & sLink & vbNewLine
End If

Next

End If

End With

Set oMatches = Nothing
Set oMatch = Nothing
Set oRegEx = Nothing
Set colLinks = Nothing
End Sub

'這個函數可以去除HTML代碼中的標簽
Function RemoveTags(ByVal html As String)

'Dim oRegEx As RegExp
'Set oRegEx = New RegExp
Dim oRegEx As Object

Set oRegEx = CreateObject("VBScript.RegExp")

With oRegEx
.Global = True
.IgnoreCase = True
.Pattern = "<[^>]*>"
RemoveTags = .Replace(html, "")
End With

Set oRegEx = Nothing
End Function

㈧ 怎麼獲取網頁源代碼中的文件

獲取網頁源代碼中的文件的具體步驟如下:

1、首先我們在瀏覽器里隨意打開一張網頁查看版其源代碼。權

㈨ 如何提取網站代碼

上Bai搜索,扒站工具,就可以扒掉網站所有JS,CSS樣式表!

㈩ 求asp抓取網頁代碼

<%
Function getHTTPPage(urls)
dim objXML
set objXML=server.createobject("MSXML2.XMLHTTP")'定義
objXML.open "GET",urls,false'打開
objXML.send()'發送
If objXML.readystate<>4 then '判斷文檔是否已經解析完,以做客戶端接受返回消息
exit function
End If
getHTTPPage=BytesToBstr(objXML.responseBody)'返回信息,同時用函數定義編碼
getHTTPPage=replace(getHTTPPage,"<","<")
'getHTTPPage=bytes2BSTR(objXML.responseBody)'或者返回信息時用函數轉換漢字
set objXML=nothing'關閉
if err.number<>0 then err.Clear
End Function
Function BytesToBstr(body)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = "GB2312"
'轉換原來默認的UTF-8編碼轉換成GB2312編碼,否則直接用XMLHTTP調用有中文字元的網頁得到的將是亂碼
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
Dim Urls,Html
Urls="http開頭網址"
Html = getHTTPPage(Urls)
response.write(Html)
%>