Python 爬取指定页面的所有图片

2024-10-2

共计 919 个字符，预计需要花费 3 分钟才能阅读完成。

之前看见别人分享小黄鸡头像，但是好像没有提供云盘下载。于是就让 gpt 生成了一下爬取特定页面的代码，爬取后重命名了一下，可以评论获取压缩包。

Python 爬取指定页面的所有图片

同时分享下代码，万一下次用得着呢。

import requests
from bs4 import BeautifulSoup
import os
from urllib.parse import urljoin

# 目标页面
url = "https://zhuanlan.zhihu.com/p/578390498"

# 发送HTTP请求获取页面源码
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
# 提取所有图片链接
img_links = [img['src'] for img in soup.find_all('img', {'src': True})]

if not os.path.exists('images'):
    os.makedirs('images')

# 下载图片
for img_link in img_links:
    # 使用urljoin确保链接是绝对路径
    img_url = urljoin(url, img_link)

    # 检查链接是否以"http"或"https"开头
    if img_url.startswith(('http:', 'https:')):
        # 获取图片内容
        img_data = requests.get(img_url).content
        # 提取图片文件名
        img_name = img_url.split("/")[-1]
        # 保存图片到目录
        with open(os.path.join('images', img_name), 'wb') as img_file:
            img_file.write(img_data)
            print(f"Downloaded: {img_name}")
    else:
        print(f"Skipped: {img_url}")

print("All images downloaded successfully.")

下载地址

小黄鸡头像：链接：https://pan.baidu.com/s/16p0TqdD8jRYbAsZM46VFmA?pwd=akak

提醒：本文发布于292天前，文中所关联的信息可能已发生改变，请知悉！

Tips:清朝云网络工作室

阅读剩余

版权声明网站名称： 清朝云资源网
本文章网址：https://www.qcyqq.com/7743.html
本站提供的一切软件、教程和内容信息仅限用于学习和研究目的。
不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。
我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！邮件：766378891@qq.com
网站部分内容来源于网络，版权争议与本站无关。请在下载后的24小时内从您的设备中彻底删除上述内容。
如无特别声明本文即为原创文章仅代表个人观点，版权归《清朝云资源网》所有，欢迎转载，转载请保留原文链接。

THE END

Python 生成指定大小的图片

<<上一篇

10月02日，星期三, 每天60秒读懂全世界！

下一篇>>