500px 系列一:500px 爬虫

内容纲要

500px.com 是一个图片网站,实际上我学习 python 的目的之一,就是从 500px 上下载我收藏的图片。所以我的第一个 python 程序就是一只爬虫。

首先,要下载我收藏的图片,需要先用我的帐号登录到 500px。这意味着爬虫要能支持 cookie

其次,500px 展示图片是用的流行的瀑布流风格,这表示图片下载地址并不能从 html 页面源码里提取,需要通过 AJAX 接口来获取图片下载地址,当然这是个好消息,毕竟析 AJAX 返回的通常是 json 格式,这比解析 html 格式要简单多了

所以,我的第一个 python 程序,需要具有如下能力

  • 作为 http 客户端访问一个网站
  • 支持 cookie
  • 解析 html
  • 解析 json
  • 目录的创建
  • 文件的保存和删除

let’s do it~

500px 系列一:500px 爬虫

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Scroll to top
粤ICP备2020114259号 粤公网安备44030402004258