编程宝库 - 技术改变世界

编程宝库

Search

Python编程技术

pyqt5 展示pyecharts生成的图像

python 批量修改xml文件中的信息

python 爬取小姐姐图片实例

前言

前段时间我有个朋友看到一些小姐姐的照片，想全部下载下来，叫我帮个忙。于是花费了半天给他全部下载了下来。

引入库

import time
import requests
from lxml import etree

这三个库是为了让我们在请求别人网站的时候，让程序休息一会，避免别人的网站会拦截或者崩溃和将得到的页面源代码进行解析。

网页分析

利用浏览器的开发者模式，对页面进行分析，找出我们所需要的每个图片封面url

href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')

我们得到了封面的url后，但这还不是我们所需要的，我们所需要的是超链接里面的图片

我们进入后，发现每张图片都在<p></p>里面，如何我们利用循环得到每张图片的url地址

 for url_img in href:
          img_url = requests.get(url_img,headers=head)
          # print(img_url.text)
          time.sleep(1)
          t = etree.HTML(img_url.text)
          url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")

剩下的就很简单了，我们只需对文件进行保存就得到我们想要的结果了。

 with open(f"./img/{name}",mode="wb") as f:
      f.write(download_img.content)
      print("正在下载:" +name)
      time.sleep(1)

总结

但同步下载非常慢，我们可以写个多线程或者异步协程来帮助我们下载得更快。

我知道还有很多不足，有没有更简洁的写法，希望大佬们能指出，谢谢！

完整代码

import time
import requests
from lxml import etree

def get_page_url():
  for i in range(1, 4): # 循环3页
      url = f"https://mm.tvv.tw/category/xinggan/{i}/"

      # 请求页面得到源代码
      res = requests.get(url,headers=head)
      # 对源代码进行解析
      tree = etree.HTML(res.text)
      # 得到每个图片的封面url（href）
      href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')
      # print("-------------------------------------------------------")
      time.sleep(3)
      for url_img in href:
          img_url = requests.get(url_img,headers=head)
          # print(img_url.text)
          time.sleep(1)
          t = etree.HTML(img_url.text)
          url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")
          # print(url_list)
          time.sleep(1)
          for url_src in url_list:
              get_img(url_src)

def get_img(url):
  name = url.rsplit("/",1)[1]
  time.sleep(2)
  download_img = requests.get(url,headers=head)
  with open(f"./img/{name}",mode="wb") as f:
      f.write(download_img.content)
      print("正在下载:" +name)
      time.sleep(1)
  f.close()




if __name__ == '__main__':
  head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}
  get_page_url()

关于python爬取一组小姐姐图片实例的文章就介绍至此，更多相关python爬取图片内容请搜索编程宝库以前的文章，希望以后支持编程宝库！

下一节：python 批量修改xml文件中的信息

Python编程技术

项目场景：在做目标检测时，重新进行标注会耗费大量的时间，如果能够批量对xml中的信息进行修改，那么将会节省大量的时间，接下来将详细介绍如何修改标注文件xml中的相关信息。问题描述：例如： ...

pyqt5 展示pyecharts生成的图像

python 批量修改xml文件中的信息