最近的项目在做一些数据方面的集成,五花八门的系统对应的接口更是千奇百怪,数据集成的过程总结成八个字就是:逢山开路,遇水架桥。
恰好这两天碰到一个问题,我们要集成的WEB系统没有提供专门的数据集成接口,没有API可以调,数据库更是不让访问,万般无奈之下,我在想是否可以用python自动爬取页面。web页面有SSO,用的应该是开源的CAS框架,并且后面的页面全都是由动态JS、AJAX异步加载进去的,这显然不像普通的静态页面那样直接用Scrapy上去就是一顿干,要完美的模拟登陆动作并且还要爬取后面的动态内容,对页面结构和爬取内容的分析是必不可少的。
工具
- Chrome
页面分析工具非常简单,只需要最新版本的Chrome浏览器即可 - python3
- requests
分析登录页面
打开登录页面,按F12打开Chrome自带的分析工具,在Network选卡上可以看到当前浏览器显示页面和提交登录信息的详情,如下图
从截图上可以看到,当我们访问app/这个url的日志,因为我们还没有登录过,SSO会把我们自动重定向到登录页面,所以http status是302重定向。
接下来我们在页面上输入账号密码,点登录按钮,通过页面追踪分析并模拟整个登录过程,这个过程要尤其仔细,因为很多CAS在登录页面上埋了很多隐藏的标记,一个地方模仿的不对可能就会登录失败然后又被重定向到开始的地方。
从分析可以看到,登录按钮提交的时候会用POST方式提交一个表格,而表格里面的除了账号密码等显眼的字段以外还有一个lt,经验告诉我们这个字段应该隐藏在之前的登录页面上,用来校验登录页面的合法性,所以我们要从登录页面上找到并提取这个信息。同时还要注意http的消息头,最好按照浏览器抓取的消息头去构造,因为网站同样会校验这里面的信息。
下面是登录的主要代码,我们基于python3和requests包来处理https访问请求,模拟浏览器的行为将认证需要的信息构造出来发给网站。
这里要特别注意一点,因为http是无状态的,web页面要保存登录状态需要用到cookie,等成成功以后页面的response里面会包含一个带有有效标记的cookie,登录最终的目标就是获取并保存这个有效的cookie,这样后续的访问就不会被重定向到登录页。
在requests的方法里面只要向这样吧cookie带到请求里即可
分析动态内容页面
在动态页面里,页面上显示出来的内容往往都是js或者AJAX异步获取到的,跟静态html页面的分析过程有明显的不同。用Chrome的分析工具也可以很容易的获取到该信息。
在动态页面加载完成后,我们从所有的请求中过滤XHR类型,从中找到我们要的那一次请求,然后在该请求的Preview里面就可以看到完整的相应信息,同时该请求的URL也可以从Headers选卡中得到。
接下来要做的事情跟上面类似,构造报文模拟浏览器向该网站发送请求:
要点其实就是从XHR里找到请求的URI,构造请求报文头和提交表格,最后务必要加上登录成功的cookie,否则会被重定向到登录页面。
抓取动态页面的方法还有很多,这种方法依赖的包相对较少,代码比较灵活,在爬取复杂的登录页面的时候效果比较好,只是在分析页面登录机制的时候要尤其细心。