php採集網
❶ 怎麼用php採集網站數據
簡單的分了幾個步驟抄:
1、確定採集目標
2、獲取目標遠程頁面內容(curl、file_get_contents)
3、分析頁面html源碼,正則匹配你需要的內容(preg_match、preg_match_all),這一步最為重要,不同頁面正則匹配規則不一樣
4、入庫
❷ 求帶登錄的網站採集php源碼或思路
獲取鏈接的數據以後,加個判斷:如果需要登陸 ,則使用php的curl函數來模擬post;不需要登陸則直接採集。
❸ php怎麼實現採集網易新聞,並且帶有分頁效果
對於第一項表單而言
比如:
內容的第一頁http://php168.com/1/index-22.html
內容的第二頁http://php168.com/1/index-22_2.htm
那麼表單填.html
分析規則就是對比第一頁與第二頁的網址從左到右哪個字元出現不同,就把第一頁網址之後的字元復制出來
如果是這種情況
http://php168.com/1/index.php?id=2&page=1
http://php168.com/1/index.php?id=2&page=2
對於這種情況,他後面不同的是一個數字,即是頁碼數字的話,就不需要填寫.留空即可
對於第二項表單而言
第一頁http://php168.com/1/index-22.html
第二頁http://php168.com/1/index-22_2.htm
那麼右邊的表單填_[page].htm
分析規則就是對比第一頁與第二頁的網址從左到右哪個字元出現不同,就把第二頁的網址之後的字元復制出來,並把變動的頁碼數字用[page]替換
如果是這種情況
http://php168.com/1/index.php?id=2&page=1
http://php168.com/1/index.php?id=2&page=2
對於這種情況,他後面不同的是一個數字,即是頁碼數字的話,更簡單,只需要填寫[page]即可
對於第三項表單而言
第一頁http://php168.com/1/index.html
第二頁http://php168.com/1/index_1.html
此時屬於怪癖的,理論上應該是
第三頁http://php168.com/1/index_2.html
所以表單請選擇是,但一般情況都是選否的,也就是說頁碼數字為1卻是第二頁.頁碼數為2卻是第三頁.就屬於特殊現象.需要選則是.
❹ 請問如何通過php採集指定網址的指定內容
用正則啊
這樣怎麼能獲取到呢
❺ 用PHP如何採集網站首頁的標題和內容
[php]<?
functionget_contents($url){
$ch=curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_TIMEOUT,1000);
$file_contents=curl_exec($ch);
curl_close($ch);
return$file_contents;
}
$url="http://play.kankan.xunlei.com/?hallid=2959";
$con=get_contents($url);
$con=str_replace(""../",""http://kankan.xunlei.com/",$con);
echo$con;
?>[/php]
❻ php使用3種方法實現數據採集 什麼叫採集
下面的php代碼可以將表格的每行每列轉為數組,採集表格數據
<?php function get_td_array($table) { $table = preg_replace("'<table[^>]*?>'si","",$table); $table = preg_replace("'<tr[^>]*?>'si","",$table); $table = preg_replace("'<td[^>]*?>'si","",$table); $table = str_replace("</tr>","{tr}",$table); $table = str_replace("</td>","{td}",$table); //去掉 HTML 標記 $table = preg_replace("'<[/!]*?[^<>]*?>'si","",$table); //去掉空白字元 $table = preg_replace("'([rn])[s]+'","",$table); $table = str_replace(" ","",$table); $table = str_replace(" ","",$table); $table = explode('{tr}', $table); array_pop($table); foreach ($table as $key=>$tr) { $td = explode('{td}', $tr); array_pop($td); $td_array[] = $td; } return $td_array; } ?>
❼ php 採集個網站內容
$data=get_meta_tags('url');
echo $data['description'];
❽ PHP採集網頁中指定的內容
你如果是單個頁面的話不需要正規表達式,只要找到自己需要的部分看看前面和後面有什麼唯一性的標識,截取出來就可以了。
❾ php採集網站視頻怎樣做啊
不知道是抓取視頻呢
還是單純採集網址
我覺得應該是後者
其實很簡單
讀取網頁源代碼
正則過濾出url就可以了
❿ 用php做採集功能網站的思路是怎樣的,我會CURL和http,但是有些沒有思路
1、指定一個列表頁,用curl或file_get_contents將頁面讀取進來;
2、用正則或者XML分析DOM,獲取到列表中文章的超鏈接,將其保存為一個任務數組;
3、遍歷數組(循環),使用curl或file_get_contents將數組中的超鏈接指向的頁面讀取進來;
4、用正則或者XML分析DOM,獲取到文章正文內容,將內容寫入資料庫中或者使用file_put_contents保存下來。
這是我的大體思路,有錯誤之處請指正。
可能需要注意的問題:如果頁面超時,可以改大腳本運行超時間;為了提高效率是否要改為並發執行的curl_multi;如果被盜取的網站使用了參考referer的防盜鏈機制需要偽造referer等。