爬虫如何爬取斗鱼人气主播信息的
爬虫,斗鱼,主播 分类:最新资讯 作者:太阳HTTP运营管理团队

  今天太阳HTTP就为大家分享一下爬虫如何爬取斗鱼人气主播信息的。首先我们先打开我们喜欢看的直播页面,提取需要爬取的信息,比如主播名字、人气和房间号,然后用for in循环出人气前50的主播,并把数据保存在本地。

代码如下:

from urllib import request

import urllib.request

from bs4 import  BeautifulSoup

import bs4

  

def __fetch_content(self):

        # url = '目标网址'在主函数那里有网址了,所以注释掉

        print(url)

        header = {

            'User-Agent': '填写自己的Agent'}

        # 网站反爬,要构造合理的HTTP请求头

        request = urllib.request.Request(url, headers=header)

 

        #爬取网站内容

        r = urllib.request.urlopen(request).read()

        soup = BeautifulSoup(r)

 

       #找到主播的名字,人气和房间号

        divList = soup.findAll("span",attrs={"class":"dy-name ellipsis fl"})

        name=soup.findAll("span",attrs={"class":'dy-num fr'})

        link=soup.findAll("a",attrs={"class":'play-list-link'})

 

        #找出人气前五十的主播及其房间连接

        for i in range(0,50):

 

            print(divList[i].string)

            print(name[i].string)

            print("https://www.douyu.com"+link[i].get("href"))

            print("-------------")

 

        #把数据以文本的方式保存下来

            with open('D:\\douyu.txt',mode='a',encoding='utf-8')as jb:

                jb.write(divList[i].string)

                jb.write("\n")

                jb.write(name[i].string)

                jb.write("\n")

                jb.write("https://www.douyu.com"+link[i].get("href"))

                jb.write("\n")

                jb.write("\n")

 

if __name__=="__main__":

    url = '目标网址'

    __fetch_content(url)

以上就是关于爬虫如何爬取斗鱼人气主播信息的相关介绍了,太阳HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!


客户经理
1740088888 17696581266
在线咨询

售后客服1

在线售后,实时响应

售后客服2

在线售后,实时响应

太阳大客户经理

15305445551
微信客服

定制