Python 爬取指定页面的所有图片


共计 919 个字符,预计需要花费 3 分钟才能阅读完成。

之前看见别人分享小黄鸡头像,但是好像没有提供云盘下载。于是就让 gpt 生成了一下爬取特定页面的代码,爬取后重命名了一下,可以评论获取压缩包。

Python 爬取指定页面的所有图片

/>

同时分享下代码,万一下次用得着呢。

import requests
from bs4 import BeautifulSoup
import os
from urllib.parse import urljoin

# 目标页面
url = "https://zhuanlan.zhihu.com/p/578390498"

# 发送HTTP请求获取页面源码
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
# 提取所有图片链接
img_links = [img['src'] for img in soup.find_all('img', {'src': True})]

if not os.path.exists('images'):
    os.makedirs('images')

# 下载图片
for img_link in img_links:
    # 使用urljoin确保链接是绝对路径
    img_url = urljoin(url, img_link)

    # 检查链接是否以"http"或"https"开头
    if img_url.startswith(('http:', 'https:')):
        # 获取图片内容
        img_data = requests.get(img_url).content
        # 提取图片文件名
        img_name = img_url.split("/")[-1]
        # 保存图片到目录
        with open(os.path.join('images', img_name), 'wb') as img_file:
            img_file.write(img_data)
            print(f"Downloaded: {img_name}")
    else:
        print(f"Skipped: {img_url}")

print("All images downloaded successfully.")

下载地址

小黄鸡头像:链接:https://pan.baidu.com/s/16p0TqdD8jRYbAsZM46VFmA?pwd=akak

提醒:本文发布于292天前,文中所关联的信息可能已发生改变,请知悉!

Tips:清朝云网络工作室

阅读剩余
THE END