python如何快速爬数据?来源:m.qikuedu.com
曾经有新闻报道一个公司的员工,调高了线程数,加速爬数据,导致对方网站流量监控报警,然后就凉了。
其实利用通用技术,多进程、多线程和协程的手段,可以实现加速。

关于加速需要学习的知识点:
1.理解阻塞、非阻塞、同步、异步、并发、并行概念
2.熟悉python队列的使用以及MQ的概念
3.多进程、进程池和进程间通信
4.多线程、线程封装、线程全局变量、线程互斥、守护线程以及join的用法
5.协程、yield关键字、gevent、猴子补丁
6.异步请求轮子
7.常见解决方案:多线+异步(scrapy的原理)或 多进程+异步