爬虫如何爬取豆瓣电影的评论信息
爬虫,豆瓣电影,评论 分类:最新资讯 作者:太阳HTTP运营管理团队

  今天太阳HTTP就为大家分享一下爬虫是如何爬取豆瓣电影的评论信息。我们以电影《我不是药神》为例,首先打开目标页面,分析页面,查找我们需要的信息位置。

代码如下:

import urllib.request

from bs4 import BeautifulSoup

def getHtml(url):

    """获取url页面"""

    headers = {'User-Agent':'******}

    req = urllib.request.Request(url,headers=headers)

    req = urllib.request.urlopen(req)

    content = req.read().decode('utf-8')


    return content


def getComment(url):

    """解析HTML页面"""

    html = getHtml(url)

    soupComment = BeautifulSoup(html, 'html.parser')

 

    comments = soupComment.findAll('span', 'short')

    onePageComments = []

    for comment in comments:

        # print(comment.getText()+'\n')

        onePageComments.append(comment.getText()+'\n')

 

    return onePageComments

 

if __name__ == '__main__':

    f = open('我不是药神page10.txt', 'w', encoding='utf-8')

    for page in range(10):  # 豆瓣爬取多页评论需要验证。

        url = 'https://movie.douban.com/subject/26752088/comments?start=' + str(20*page) + '&limit=20&sort=new_score&status=P'

        print('第%s页的评论:' % (page+1))

        print(url + '\n')

 

        for i in getComment(url):

            f.write(i)

            print(i)

        print('\n')

  以上就是关于爬虫如何爬取豆瓣电影评论信息的相关介绍了,太阳HTTP可为您提供海量IP资源,极速切换,永久去重,助您不间断获取行业数据,赢在大数据时代!


客户经理
1740088888 17696581266
在线咨询

售后客服1

在线售后,实时响应

售后客服2

在线售后,实时响应

太阳大客户经理

15305445551
微信客服

定制