博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
关于爬虫解析页面时的一些有意思的坑
阅读量:5303 次
发布时间:2019-06-14

本文共 211 字,大约阅读时间需要 1 分钟。

爬虫比较关键的一步就是解析下载后的网页,我这几天在用的是requests-html库自带的xpath方法,但是我在爬取一个小说页面的时候遇到了困难,这是一个静态页面,我通过右键检查复制xpath路径,但是却得到了一个空对象,打开源代码,对比右键检查的代码,我发现两者之间居然不相同。有点意思的坑

右键检查得到的html

网页源代码的html

记录一下,免得再踩坑。

转载于:https://www.cnblogs.com/yfc0818/p/11072677.html

你可能感兴趣的文章
VMware中CentOS设置静态IP
查看>>
剑指Offer_编程题_7
查看>>
js 变量大小写
查看>>
Linux系统的启动原理
查看>>
JDesktopPane JInternalFrames
查看>>
错误The request sent by the client was syntactically incorrect ()的解决
查看>>
Java基础知识学习(九)
查看>>
redis在windows下总是报错,就是下面的错误,这是哪里出错了
查看>>
Asp.net窄屏页面 手机端新闻列表
查看>>
Linux 密钥验证
查看>>
windows下UDP服务器和客户端的实现
查看>>
MySQL各版本的区别
查看>>
[poj1006]Biorhythms
查看>>
迭代器
查看>>
elasticsearch type类型创建时注意项目,最新的elasticsearch已经不建议一个索引下多个type...
查看>>
jQury 跳出each循环的方法
查看>>
spring AOP 之五:Spring MVC通过AOP切面编程来拦截controller
查看>>
在编译安装程序时候遇到/usr/bin/ld: cannot find -lxxx的时候的解决办法。
查看>>
使用 INSERT 和 SELECT 子查询插入行
查看>>
ubuntu重装mysql
查看>>