1. 新手python抓取網頁源碼處理

先用id定位,定位到了在用getatribute來獲取value

2. Python print出來的源代碼,和網頁上的源代碼不一樣

這個問題,我也遇見過,比如爬谷歌翻譯的返回值,網頁上明明有,可爬了源碼一看沒有,原因在於有些網站是反收集的,這個需要模擬瀏覽器,否則一無所獲,cookie,賬號認證,,,要求多些

3. PYTHON獲取網頁源碼亂碼,怎麼辦

text 是系統自行解碼,部分網頁會不對。

content指定解碼,你的網頁是utf-8的,對應解碼就可以了

4. 怎麼使用python查看網頁源代碼

使用python查看網頁源代碼的方法:

1、使用「import」命令導入requests包

import requests

2、使用該包的get()方法,將要查看的網頁鏈接傳遞進去,結果賦給變數x

x = requests.get(url='http://www.hao123.com')

3、用「print (x.text)」語句把網頁的內容以text的格式輸出

print(x.text)

完整代碼如下:

執行結果如下:

更多Python知識,請關註:Python自學網!!

5. python爬蟲怎麼獲取動態的網頁源碼

一個月前實習導師布置任務說通過網路爬蟲獲取深圳市氣象局發布的降雨數據,網頁如下:

心想,爬蟲不太難的,當年跟zjb爬煎蛋網無(mei)聊(zi)圖的時候,多麼清高。由於接受任務後的一個月考試加作業一大堆,導師也不催,自己也不急。

但是,導師等我一個月都得讓我來寫意味著這東西得有多難吧。。。今天打開一看的確是這樣。網站是基於Ajax寫的,數據動態獲取,所以無法通過下載源代碼然後解析獲得。

從某不良少年寫的抓取淘寶mm的例子中收到啟發,對於這樣的情況,一般可以同構自己搭建瀏覽器實現。phantomJs,CasperJS都是不錯的選擇。

導師的要求是獲取過去一年內深圳每個區每個站點每小時的降雨量,執行該操作需要通過如上圖中的歷史查詢實現,即通過一個時間來查詢,而這個時間存放在一個hidden類型的input標簽里,當然可以通過js語句將其改為text類型,然後執行send_keys之類的操作。然而,我失敗了。時間可以修改設置,可是結果如下圖。

為此,僅抓取實時數據。選取python的selenium,模擬搭建瀏覽器,模擬人為的點擊等操作實現數據生成和獲取。selenium的一大優點就是能獲取網頁渲染後的源代碼,即執行操作後的源代碼。普通的通過 url解析網頁的方式只能獲取給定的數據,不能實現與用戶之間的交互。selenium通過獲取渲染後的網頁源碼,並通過豐富的查找工具,個人認為最好用的就是find_element_by_xpath("xxx"),通過該方式查找到元素後可執行點擊、輸入等事件,進而向伺服器發出請求,獲取所需的數據。

[python]view plain

  • #coding=utf-8

  • fromtestStringimport*

  • fromseleniumimportwebdriver

  • importstring

  • importos

  • fromselenium.webdriver.common.keysimportKeys

  • importtime

  • importsys

  • default_encoding='utf-8'

  • ifsys.getdefaultencoding()!=default_encoding:

  • reload(sys)

  • sys.setdefaultencoding(default_encoding)

  • district_navs=['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']

  • district_names=['福田區','羅湖區','南山區','鹽田區','寶安區','龍崗區','光明新區','坪山新區','龍華新區','大鵬新區']

  • flag=1

  • while(flag>0):

  • driver=webdriver.Chrome()

  • driver.get("hianCe/")

  • #選擇降雨量

  • driver.find_element_by_xpath("//span[@id='fenqu_H24R']").click()

  • filename=time.strftime("%Y%m%d%H%M",time.localtime(time.time()))+'.txt'

  • #創建文件

  • output_file=open(filename,'w')

  • #選擇行政區

  • foriinrange(len(district_navs)):

  • driver.find_element_by_xpath("//div[@id='"+district_navs[i]+"']").click()

  • #printdriver.page_source

  • timeElem=driver.find_element_by_id("time_shikuang")

  • #輸出時間和站點名

  • output_file.write(timeElem.text+',')

  • output_file.write(district_names[i]+',')

  • elems=driver.find_elements_by_xpath("//span[@onmouseover='javscript:changeTextOver(this)']")

  • #輸出每個站點的數據,格式為:站點名,一小時降雨量,當日累積降雨量

  • foreleminelems:

  • output_file.write(AMonitorRecord(elem.get_attribute("title"))+',')

  • output_file.write(' ')

  • output_file.close()

  • driver.close()

  • time.sleep(3600)

  • 文件中引用的文件testString只是修改輸出格式,提取有效數據。
  • [python]view plain

  • #Encoding=utf-8

  • defOnlyCharNum(s,oth=''):

  • s2=s.lower()

  • fomart=',.'

  • forcins2:

  • ifnotcinfomart:

  • s=s.replace(c,'')

  • returns

  • defAMonitorRecord(str):

  • str=str.split(":")

  • returnstr[0]+","+OnlyCharNum(str[1])


  • 一小時抓取一次數據,結果如下:

6. python如何抓取網頁源代碼中的字元串

使用正則匹配,列:

importrequests
importre

req=requests.get(url)
r=re.findall('<scriptsrc="(.*?)"></script>',req.text)#(.*?)非貪婪匹配
print(r)

自己網上找找python正則方面的知識

7. 求教:python 獲取的網頁源代碼與原網頁不同

沒有諾說的問題

8. 如何用python提取網頁中框架的源代碼

簡單的做個例子,框架路徑可以自己修改,調用像網路等網站時無法讀取其中源碼,涉及到一些安全問題,所以路徑要求是合法的允許訪問的路徑 function GetFrameInnerHtml(objIFrame) { var iFrameHTML = ""; if (objIFrame.contentDocument) { //針...

9. python輸出的網頁源代碼和網頁上的源代碼不一樣

即便使用 js 動態處理的,也是要從伺服器獲取數據的,所以只要找出從伺服器獲取對應數據的url 就可以再 通過 requests 獲取數據了, 在 chrome 的開發者工具的Network 面板裡面可以監控到這些 url 。
具體鏈接我私信發你,這里發不了。