python 爬取小姐姐图片实例

前言

前段时间我有个朋友看到一些小姐姐的照片,想全部下载下来,叫我帮个忙。于是花费了半天给他全部下载了下来。

 

引入库

import time
import requests
from lxml import etree
这三个库是为了让我们在请求别人网站的时候,让程序休息一会,避免别人的网站会拦截或者崩溃和将得到的页面源代码进行解析。

 

网页分析

利用浏览器的开发者模式,对页面进行分析,找出我们所需要的每个图片封面url

href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')

我们得到了封面的url后,但这还不是我们所需要的,我们所需要的是超链接里面的图片

我们进入后,发现每张图片都在<p></p>里面,如何我们利用循环得到每张图片的url地址

 for url_img in href:
          img_url = requests.get(url_img,headers=head)
          # print(img_url.text)
          time.sleep(1)
          t = etree.HTML(img_url.text)
          url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")

剩下的就很简单了,我们只需对文件进行保存就得到我们想要的结果了。

 with open(f"./img/{name}",mode="wb") as f:
      f.write(download_img.content)
      print("正在下载:" +name)
      time.sleep(1)

 

总结

但同步下载非常慢,我们可以写个多线程或者异步协程来帮助我们下载得更快。

我知道还有很多不足,有没有更简洁的写法,希望大佬们能指出,谢谢!

 

完整代码

import time
import requests
from lxml import etree

def get_page_url():
  for i in range(1, 4): # 循环3页
      url = f"https://mm.tvv.tw/category/xinggan/{i}/"

      # 请求页面得到源代码
      res = requests.get(url,headers=head)
      # 对源代码进行解析
      tree = etree.HTML(res.text)
      # 得到每个图片的封面url(href)
      href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')
      # print("-------------------------------------------------------")
      time.sleep(3)
      for url_img in href:
          img_url = requests.get(url_img,headers=head)
          # print(img_url.text)
          time.sleep(1)
          t = etree.HTML(img_url.text)
          url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")
          # print(url_list)
          time.sleep(1)
          for url_src in url_list:
              get_img(url_src)

def get_img(url):
  name = url.rsplit("/",1)[1]
  time.sleep(2)
  download_img = requests.get(url,headers=head)
  with open(f"./img/{name}",mode="wb") as f:
      f.write(download_img.content)
      print("正在下载:" +name)
      time.sleep(1)
  f.close()




if __name__ == '__main__':
  head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}
  get_page_url()
关于python爬取一组小姐姐图片实例的文章就介绍至此,更多相关python爬取图片内容请搜索编程宝库以前的文章,希望以后支持编程宝库

项目场景:在做目标检测时,重新进行标注会耗费大量的时间,如果能够批量对xml中的信息进行修改,那么将会节省大量的时间,接下来将详细介绍如何修改标注文件xml中的相关信息。 问题描述:例如: ...