python網頁採集
1. 這個要根據你的網復站地址制進行分析,構造網站的url,通過for循環,做統計輸出,從而計算出一個網站的網頁數量。
2. 由於你未給出具體網站的地址,只能給你說個流程如上。
望點贊,希望能幫到你。。。。。。
⑵ 怎樣用python爬取網頁
#coding=utf-8
importurllib
importre
#網路貼吧網址:https://tieba..com/index.html
#根據URL獲取網頁HTML內容
defgetHtmlContent(url):
page=urllib.urlopen(url)
returnpage.read()
#從HTML中解析出所有的圖片的URL
#從HTML中jpg格式為<img...src="xxx.jpg"width='''>
defgetJPGs(html):
#解析jpg圖片URL的正則表達式
jpgReg=re.compile(r'<img.+?src="(.+?.jpg)"')
#解析出jpg的URL列表
jpgs=re.findall(jpgReg,html)
returnjpgs
#用圖片url下載圖片並保存成制定文件名
defdownloadJPG(imgUrl,fileName):
urllib.urlretrieve(imgUrl,fileName)
#批量下載圖片,默認保存到當前目錄下
defbatchDownloadJPGs(imgUrls,path='../'):#path='./'
#給圖片重命名
count=1
forurlinimgUrls:
downloadJPG(url,''.join([path,'{0}.jpg'.format(count)]))
print"下載圖片第:",count,"張"
count+=1
#封裝:從網路貼吧網頁下載圖片
defdownload(url):
html=getHtmlContent(url)
jpgs=getJPGs(html)
batchDownloadJPGs(jpgs)
defmain():
url="http://www.meituba.com/dongman/"
download(url)
if__name__=='__main__':
main()
⑶ 怎麼用Python從多個網址中爬取內容
調用 requests 包 , BeautifulSoup4包, 能實現,網頁內容寫入 excel 不太好看,建議版寫入 txt 或者權 xml。確定要寫入 Excel 可以調用 pandas包或者 openpyxl包
⑷ 如何用最簡單的Python爬蟲採集整個網站
採集網站數據並不難,但是需要爬蟲有足夠的深度。我們創建一個爬蟲,遞歸地遍歷每內個網站,容只收集那些網站頁面上的數據。一般的比較費時間的網站採集方法從頂級頁面開始(一般是網站主頁),然後搜索頁面上的所有鏈接,形成列表,再去採集到的這些鏈接頁面,繼續採集每個頁面的鏈接形成新的列表,重復執行。
⑸ 使用python採集網頁內容時那登錄那個網站,否則採集不了!請問怎麼實現python登錄後採集網頁
有些網頁需要你登錄之後才可以訪問,你需要提供賬戶和密碼。
只要在發送http請求時,帶上含有正常登陸的cookie就可以了。
1.首先我們要先了解cookie的工作原理。
Cookie是由伺服器端生成,發送給User-Agent(一般是瀏覽器),瀏覽器會將Cookie的key/value保存到某個目錄下的文本文件內,下次請求同一網站時就發送該Cookie給伺服器(前提是瀏覽器設置為啟用cookie)。Cookie名稱和值可以由伺服器端開發自己定義,對於JSP而言也可以直接寫入jsessionid,這樣伺服器可以知道該用戶是否合法用戶以及是否需要重新登錄等。
2.之後我們要獲取到用戶正常登錄的cookie.
python提供了cookieJar的庫,只要把cookieJar的實例作為參數傳到urllib2的一個opener裡面。
然後訪問一次登錄的頁面,cookie就已經保存下來了。之後通過這個實例訪問所有的頁面都帶有正常登陸的cookie了。
以人人網為例子。
#encoding=utf-8
import urllib2
import urllib
import cookielib
def renrenBrower(url,user,password):
#登陸頁面,可以通過抓包工具分析獲得,如fiddler,wireshark
login_page = "http://www.renren.com/PLogin.do"
try:
#獲得一個cookieJar實例
cj = cookielib.CookieJar()
#cookieJar作為參數,獲得一個opener的實例
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
#偽裝成一個正常的瀏覽器,避免有些web伺服器拒絕訪問。
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')]
#生成Post數據,含有登陸用戶名密碼。
data = urllib.urlencode({"email":user,"password":password})
#以post的方法訪問登陸頁面,訪問之後cookieJar會自定保存cookie
opener.open(login_page,data)
#以帶cookie的方式訪問頁面
op=opener.open(url)
#讀取頁面源碼
data= op.read()
return data
except Exception,e:
print str(e)
#訪問某用戶的個人主頁,其實這已經實現了人人網的簽到功能。
print renrenBrower("http://www.renren.com/home","用戶名","密碼")
⑹ python提取網頁array內容
首先確認你貼出來的這些都是被Python採集的字元串,假設為 s.
即:s = """var uA = new Array();
var uD = new HashMap;
uA[0] = new Array();.........."""
然後你針對你感興趣的內容來過濾出你要的信息(比如你只對雙引號內的內容感興趣)
參考代碼如下:
#-*-coding:cp936-*-
s="""varuA=newArray();
varuD=newHashMap();
uA[0]=newArray();
uA[0][0]="01";
uA[0][1]="";
uD.put("a-F",0);
uA[1]=newArray();
uA[1][0]="02";
uA[1][1]="";
"""
#逐行分析,這里可以看出每行結尾都有';'可以用來做劃分行的字元
forlineins.split(";"):
#如果這一行的末尾是'"'說明這是我們要的內容
if'"'==line[-1]:
#雙引號的起始位置
i=line.find('"')
#獲取雙引號間的內容這時會得到類似"xd6xd0xc1xb8"這樣的東西
text=line[i:]
#我們需要把馬上的東西解碼一下,簡單的用eval就行了
text=eval(text)
#列印出你要的結果
print(text)
輸出:
>>>
01
中糧遼寧糧油進出口公司大連儲運貿易公司
02
大連合融倉儲有限公司
希望對你有所幫助~~
⑺ 寫個python 爬蟲怎麼爬取一個網頁上面發現的url鏈接
1.使用beautifulsoup框架。
frombs4importBeautifulSoup
bs=BeautifulSoup('網頁源碼',"html.parser")
bs.findAll('a')#查找所有的超鏈接
#具體方法可以參見官方文內檔
2.使用正則容表達式
⑻ 如何用Python採集需要需要登錄的頁面內容
>>>用httpwatch之類的請求監測插件
查看post的數據
>>>再加入你的程序就可以了
>>>比如urllib ............
⑼ 如何利用python對網頁的數據進行實時採集並輸出
這讓我想到了一個應用場景,在實時網路徵信系統中,通過即時網路爬蟲從多個信用數據源獲取數據。並且將數據即時注入到信用評估系統中,形成一個集成化的數據流。
可以通過下面的代碼生成一個提取器將標準的HTML DOM對象輸出為結構化內容。
圖片來自集搜客網路爬蟲官網,侵刪。
⑽ python怎麼爬取這個網頁
response = request.get(url=r'http...')