爬虫编写原则及注意事项

介绍

结构的重要性

一个爬虫,大致由以下三个部分组成;

抓取、解析、保存

常用的抓取库:urllib2, requests, pycurl

常用的解析库:BeautifulSoup

常用的存储:mongo,mysql,sqlite3,ssdb,redis

日志的重要性

在排错过程中,起到很好的辅助作用

多线程,多进程

为抓取加速

防封

随机USER-AGENT

使用代理

控制抓取速度

持续性爬虫结构

队列+定时任务+爬虫

队列 redis,ssdb

定时任务 crontab