pyquery与XPath的使用记录

pyquery与XPath的使用记录

概述在爬虫工作中,对页面的解析工作是不可避免的,因此如何准确高效的匹配出目标信息,对于数据的提取尤为重要。对于网页的节点来说,它可以定义 id、class 或其他属性。而且节点之间还有层次关系,在网页中可以通过 XPath...
Python 实现自动发送天气预报和每日一句邮件

Python 实现自动发送天气预报和每日一句邮件

前言程序员给人们的第一印象是每天穿格子衫、包头卫衣的宅男,为人很耿直,没有幽默感,不会与人相处。久而久之,连程序员自己也这样认为自己。虽然因为工作的特殊性,缺少女性朋友,交流机会少,以至于大部分程序员都是单...
Python实现58 同城模拟登录

Python实现58 同城模拟登录

前言58 同城是国内领先的生活分类信息网站,海量生活信息免费发布查询。提供找房子、找工作、二手物品买卖、二手车、58 团购、商家黄页、宠物票务、旅游、交友等多种生活信息。对于数据分析师来说,58 同城是重要的数据源,...
js 分析——百度模拟登录(二)

js 分析——百度模拟登录(二)

上一篇百度模拟登录(一)主要讲解了 token、gid、rsakey 以及 password 等参数的产生。好了,废话不多说,咱们进入今天的主题,主要分析 ppui_logintime、ds、tk、dv、traceid、callback 这些字段的产生。1.ppui_logintime...
js 分析——百度模拟登录(一)

js 分析——百度模拟登录(一)

继前两次对数据爬取过程中对 js 的分析,这次我们针对网页登录学习一下有关 js 的应用,选择百度登录来分析提交表单中的各个参数。研究学习时间比较长,为了能够讲解清楚,分为两篇来写。一、前言工具的使用:之前分析 js ...
Python已知RSA模数和指数,生成公钥进行加密

Python已知RSA模数和指数,生成公钥进行加密

在学习 js 加密的过程中,关于 RSA 加密知识有所接触,因此记录一下实际过程中遇到的问题。在这里我们主要讲解当没有公钥,已知公钥模数和指数的情况下,实现 RSA 加密。一、cryptography 包获取 RSA 公钥首先需要安装 cryp...
数据爬取 js 分析:对加密参数进行 js分析

数据爬取 js 分析:对加密参数进行 js分析

接着上期对 post 请求中 form data 数据加密的分析,今天我们接着进行 get 请求中 加密参数的分析。一、实例网站本实例的网站是七麦数据中国 App Store 排行榜,继续学习使用 chome 浏览器的 devtool 工具,对 js 进行分析...
数据爬取 js 分析:Python 爬虫分析网页 js加密解密

数据爬取 js 分析:Python 爬虫分析网页 js加密解密

在前几天学习 Python 模拟登录知乎实例,其中关于涉及到了 fromdata 的加密处理,再学习的过程中,发现利用 chrome devtool调试分析网页还是有很多技巧需要学习,因此自己找了一个简单的实例用来学习 js 加密。一、实例网站...
矩阵卷积运算过程讲解

矩阵卷积运算过程讲解

在爬虫处理验证码的过程中接触到矩阵卷积运算,关于该类运算,记录一下自己的心得。理论知识在讲述卷积过程前,我们来了解一下卷积公式。根据离散二维卷积公式:其中A为被卷积矩阵,K为卷积核,B为卷积结果,该公式中,三个...
Python多线程爬虫爬取爱MM图片

Python多线程爬虫爬取爱MM图片

在爬虫学习的过程中,当遇到爬取量较大的情况下,爬虫消耗的时间会比较多。除开使用 Python 爬虫框架之外,合理使用多进程与多线程来爬取数据是非常有效的。在前两天的实例操作过程中,由于爬取内容较多,导致时间过长,因...