Python批量采集WordPress网站数据爬虫脚本-技术教程-T5码农资源网

此处内容已经被作者隐藏，请输入验证码查看内容

请关注本站微信公众号，回复“验证码”，获取验证码。在微信里搜索“钞能力。你在哪？”或者“mdyc919293”或者微信扫描右侧二维码关注公众号。

Python批量采集WordPress网站数据爬虫脚本技术教程

分享一段非常简单的Python批量采集wordpress网站数据的爬虫脚本，实现采集wordpress程序的网站的整站数据的爬虫程序。从首页开始，抓取href标签，到子页面后还是要继续找href标签，采用Python递归方法，直接贴代码吧！

import reimport bs4import urllib.request  url_home = 'https://www.56admin.com/'  #要采集的网站url_pattern = url_home + '([\s\S]*)\.html' #正则表达式匹配文章页面，此处需完善为更好的写法url_set = set()url_cache = set()url_count = 0url_maxCount = 1000  #最大采集数量  #采集匹配文章内容的href标签def spiderURL(url, pattern):   html = urllib.request.urlopen(url).read().decode('utf8')   soup = bs4.BeautifulSoup(html, 'html.parser')   links = soup.find_all('a', href = re.compile(pattern))   for link in links:       if link['href'] not in url_cache:           url_set.add(link['href'])   return soup  #采集的过程  异常处理还需要完善，对于一些加了防采集的站，还需要处理header的，下次我们再学习spiderURL(url_home, url_pattern)  while len(url_set) != 0:   try:       url = url_set.pop()       url_cache.add(url)       soup = spiderURL(url, url_pattern)       page = soup.find('div', {'class':'content'})         title = page.find('h1').get_text()       autor = page.find('h4').get_text()       content = page.find('article').get_text()         print(title, autor, url)   except Exception as e:       print(url, e)       continue   else:       url_count += 1   finally:       if url_count == url_maxCount:           break  print('一共采集了： ' + str(url_count) + ' 条数据')

你可能想看：

python爬虫权威指南教程从入门到精通

课程介绍 Python爬虫非常权威的一个指南级课程，课程通过模块化的教学，将Python爬虫采集的各个细节，从无到有的进行深入教学。课程内容包括了Requests模块，数据提取，Selenium，反爬...

可用Python实现NumPy读取和保存点云数据教程

一淘模板给大家带来了关于Python的相关知识，主要介绍了Python如何用NumPy读取和保存点云数据，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下。前言最近...

超实用的十个超级实用事半功倍的Python自动化脚本

一淘模板 56admin.com在日常的工作学习当中，我们总会遇到各式各样的问题，其中不少的问题都是一遍又一遍简单重复的操作，不妨直接用Python脚本来自动化处理，今天小编就给大家分享十个Pytho...

微信小程序羊了个羊python全自动刷榜脚本方法

一淘模板（56admin.com)微信小程序羊了个羊python全自动刷榜脚本方法，本教程适用于微信小程序羊了个羊，其他平台如抖音，应该也行吧，没测试。 1、下载并安装HTTP Debugger ...

WordPress整站源码网站数据打包4000条带视频教程

WordPress整站源码网站数据打包4000条带视频教程，整站源码文章数据打包+数据库-带视频教程是一套丰富而实用的技术资源套装，为广大WordPress用户提供了宝贵的学习和应用资料。通过学习和应...

WordPress开心导航站：一站式网址、资源与资讯垂直行业主题模板