Task02 自动识别初体验 - By Shannon

八爪鱼网页数据采集原理

【采集流程】执行逻辑遵循2个原则:先从上至下、再由内而外。

【采集流程】由【蓝色步骤】和【灰色框】两大部分组成。【蓝色步骤】是会执行的步骤,八爪鱼与网页发生互动。【灰色框】起记录网页的作用。

案例实践

练习与思考

  • 1.抓取的微博数据算不算是个人隐私数据,在使用中需要注意什么?

  • Ans:是个人隐私数据。在使用的过程中,一定首先要保证合理使用,不能侵犯别人的隐私。另外,若要保持登录状态,需要设置Cookie。

  • 2.设置Cookie登陆的优势是什么?Cookie在手机和电脑使用中体现在哪些方面?

  • Ans:在打开网页时使用指定的Cookie,这样网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题。

  • 3.豆瓣图书数据采集中选择第一个思路的优势是什么?选择第二个思路的优势是什么?

  • Ans:第一种思路设置相对简单,但需要两次采集,第一次采集链接的列表,第二次采集通过链接链表文件分别访对应的网页,采集需要的数据。第二种思路只需要进行一次采集,但设置相对麻烦。

参考资料