2016年7月7日 星期四

Python 網頁擷取(爬蟲) 實作 -以Yahoo拍賣為例

以Yahoo拍賣為例
擷取標頭文字、價錢,如下圖畫紅圈



使用google chrome開發者工具,擷取網頁URL


使用InfoLite 擷取網頁原始碼

-----------------------------------------------------------------------------------------

擷取網頁區塊.srp-pdconten
下圖紅框部分
InfoLite

-----------------------------------------------------------------------------------------

擷取標頭文字 .srp-pdtitle
綠色部分

InfoLite

-----------------------------------------------------------------------------------------

擷取價錢 .srp-pdprice
黃色部分
InfoLite


-----------------------------------------------------------------------------------------
程式碼:

import requests
from bs4 import BeautifulSoup

res = requests.get("https://tw.search.bid.yahoo.com/search/product;_ylt=AlVvPYF4uAi_N312wTXpbl1yFbN8;_ylv=3?p=iphone+6+plus+%E6%89%8B%E6%A9%9F%E6%AE%BC&property=auction&sub_property=auction&srch=product&aoffset=0&poffset=0&pg=1&pptf=3&act=srp&rescheck=1&pmt=30&its=16&cid=4638850&clv=4&sort=etime&nst=1&fr=aucpromo&show=pic&show_flag=1&view=pic&hpp=hp_topkeyword_04_07&fr=aucpromo")

soup = BeautifulSoup(res.text)

count = 1

for item in soup.select(' .srp-pdcontent'):
    print '======[',count,']========='
    print item.select(' .srp-pdtitle')[0].text.strip()
    print item.select(' .srp-pdprice')[0].text.strip()
    count += 1


-----------------------------------------------------------------------------------------

執行結果:






Python 網頁擷取(爬蟲) 安裝相關套件

安裝Python版本: Python 2.7


步驟:
1.安裝 Python 2.7
2.檢查是否有安裝 pip :Python 程式語言的套件管理程式
3.安裝Requests套件:網路資源(URLs)擷取套件
4.安裝BeautifulSoup4套件:HTML剖析套件


1.安裝 Python 2.7

下載網址:https://www.python.org/downloads/
並設定環境變數
Path新增    C:\;C:\System32;C:\Python27;


2.檢查是否有安裝 pip

執行cmd命令指示字元
輸入 pip
執行後有相關說明,表示已完成安裝。




3.安裝Requests套件

執行cmd命令指示字元
輸入 pip install requests
執行後等待安裝完成




4.安裝BeautifulSoup4套件
執行cmd命令指示字元
輸入 pip install BeautifulSoup4
執行後等待安裝完成



大致完成安裝

如何安裝Jupyter: http://www.largitdata.com/course/29/
InfoLite 網頁爬蟲工具