爬虫如何爬取链家网二手房信息
爬虫,链家网,二手房 分类:最新资讯 作者:太阳HTTP运营管理团队

  房价永远是我们最最关心的问题,今天太阳HTTP就为大家分享一下爬虫是如何爬取链家二手房信息的。这里我们主要抓取房子的名称和价格,首先我们先打开链家网,分析我们要抓取的信息位置。

代码如下:

import requests

from bs4 import BeautifulSoup

import csv

 

def getHTMLText(url):

    try:

        r = requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return '产生异常'

 

def get_data(list,html):

    soup = BeautifulSoup(html,'html.parser')

    infos = soup.find('ul',{'class':'sellListContent'}).find_all('li')

    with open(r'/Users/11641/Desktop/lianjia.csv','a',encoding='utf-8') as f:

        for info in infos:

            name = info.find('div',{'class':'title'}).find('a').get_text()

            price =info.find('div',{'class':'priceInfo'}).find('div',{'class','totalPrice'}).find('span').get_text()

            f.write("{},{}\n".format(name,price))

      

def main():

    start_url = 'https://sh.lianjia.com/ershoufang/pg'

    depth = 20

    info_list =[]

    for i in range(depth):

        url = start_url + str(i)

        html = getHTMLText(url)

        get_data(info_list,html)

main()

  以上就是关于爬虫如何爬取链家二手房信息的相关介绍了,太阳HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!

客户经理
761372738 17696580188
在线咨询

售后客服1

在线售后,实时响应

售后客服2

在线售后,实时响应

太阳大客户经理

15305445551
微信客服

定制