爬取網頁內容
1. 如何爬取html里指定的內容
我一般爬取時用beautifulsoup與正則結合,這段的話應該用不到正則可以先用beautifulsoup提取出標簽中的內容,然後用split相關的方法將空白分隔符分隔的內容分割成列表之後分配給相應的屬性
首先,你要安裝requests和BeautifulSoup4,然後執行如下代碼.
importrequests
frombs4importBeautifulSoup
iurl='http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'
res=requests.get(iurl)
res.encoding='utf-8'
#print(len(res.text))
soup=BeautifulSoup(res.text,'html.parser')
#標題
H1=soup.select('#artibodyTitle')[0].text
#來源
time_source=soup.select('.time-source')[0].text
#來源
origin=soup.select('#artibodyp')[0].text.strip()
#原標題
oriTitle=soup.select('#artibodyp')[1].text.strip()
#內容
raw_content=soup.select('#artibodyp')[2:19]
content=[]
forparagraphinraw_content:
content.append(paragraph.text.strip())
'@'.join(content)
#責任編輯
ae=soup.select('.article-editor')[0].text
這樣就可以了
3. python爬蟲無法爬取網頁完整內容
4. 怎樣用python爬取網頁
#coding=utf-8
importurllib
importre
#網路貼吧網址:https://tieba..com/index.html
#根據URL獲取網頁HTML內容
defgetHtmlContent(url):
page=urllib.urlopen(url)
returnpage.read()
#從HTML中解析出所有的圖片的URL
#從HTML中jpg格式為<img...src="xxx.jpg"width='''>
defgetJPGs(html):
#解析jpg圖片URL的正則表達式
jpgReg=re.compile(r'<img.+?src="(.+?.jpg)"')
#解析出jpg的URL列表
jpgs=re.findall(jpgReg,html)
returnjpgs
#用圖片url下載圖片並保存成制定文件名
defdownloadJPG(imgUrl,fileName):
urllib.urlretrieve(imgUrl,fileName)
#批量下載圖片,默認保存到當前目錄下
defbatchDownloadJPGs(imgUrls,path='../'):#path='./'
#給圖片重命名
count=1
forurlinimgUrls:
downloadJPG(url,''.join([path,'{0}.jpg'.format(count)]))
print"下載圖片第:",count,"張"
count+=1
#封裝:從網路貼吧網頁下載圖片
defdownload(url):
html=getHtmlContent(url)
jpgs=getJPGs(html)
batchDownloadJPGs(jpgs)
defmain():
url="http://www.meituba.com/dongman/"
download(url)
if__name__=='__main__':
main()
5. python 怎樣爬去網頁的內容
用python爬取網頁信息的話,需要學習幾個模塊,urllib,urllib2,urllib3,requests,httplib等等模塊,還要學習re模塊(也就是正則表達式)。根據不同的場景使用不同的模塊來高效快速的解決問題。
最開始我建議你還是從最簡單的urllib模塊學起,比如爬新浪首頁(聲明:本代碼只做學術研究,絕無攻擊用意):
這樣就把新浪首頁的源代碼爬取到了,這是整個網頁信息,如果你要提取你覺得有用的信息得學會使用字元串方法或者正則表達式了。
平時多看看網上的文章和教程,很快就能學會的。
補充一點:以上使用的環境是python2,在python3中,已經把urllib,urllib2,urllib3整合為一個包,而不再有這幾個單詞為名字的模塊。
6. 如何用python抓取這個網頁的內容
如果包含動態內容可以考慮使用Selenium瀏覽器自動化測試框架,當然找人有償服務也可以
7. 怎麼用Python從多個網址中爬取內容
調用 requests 包 , BeautifulSoup4包, 能實現,網頁內容寫入 excel 不太好看,建議版寫入 txt 或者權 xml。確定要寫入 Excel 可以調用 pandas包或者 openpyxl包
8. Python requests爬取今日頭條,為什麼獲取不了網頁內容
這個是網頁的反爬蟲機制決定的,在requests請求的時候加入headers參數就可以了
9. 怎麼讓爬蟲智能的爬取網頁的文章內容
不管是自己寫不寫代碼,都可以試一試前嗅的ForeSpider爬蟲。因為ForeSpider數據採集系統是可視化的通用性爬蟲,如果不想寫代碼,可以通過可視化的方式爬取數據。
對於一些高難度的網站,反爬蟲措施比較多,可以使用ForeSpider內部自帶的爬蟲腳本語言系統,簡單幾行代碼就可以採集到高難度的網站。比如國家自然基金會網站、全國企業信息公示系統等,最高難度的網站完全沒有問題。
在通用性爬蟲中,ForeSpider爬蟲的採集速度和採集能力是最強的,支持登錄、Cookie、Post、https、驗證碼、JS、Ajax、關鍵詞搜索等等技術的採集,採集效率在普通台式機上,可以達到500萬條數據/每天。這樣的採集速度是一般的通用性爬蟲的8到10倍。
對於1000個網站的需求而言,ForeSpider爬蟲可以在規則模板固定之後,開啟定時採集。支持數據多次清洗。
對於關鍵詞搜索的需求而言,ForeSpider爬蟲支持關鍵詞搜索和數據挖掘功能,自帶關鍵詞庫和數據挖掘字典,可以有效採集關鍵詞相關的內容。
可以去下載免費版,免費版不限制採集功能。有詳細的操作手冊可以學習。
10. 如何用python抓取網頁特定內容
用urllib2讀取通過httpserver傳遞抄request,獲取html文件。
用正則表達式規定那個價格附近的格式內容,查找整個html,找到價格。
關鍵在於網站html文件並不規范,可能經常有變化導致失敗。
定時運行腳本發現價格變化就報告。