发布时间:2022-02-13 12:49:59 人气:
1. 先去各个搜索引擎网站注册,让各个搜索引擎的爬虫找得到你。当然,你也可以不注册,但那样爬虫(搜索引擎)注意到你会晚很久,影响排名。
2. 利用SEO原理优化网站,对题目、关键词、元素都进行优化。这些可以参考一些专业介绍和书籍。优化一步步来,这个可以自己不断学习。
3. 和其他网站进行互链,增加页面权重。链接越多越好,越是牛的网站链接你的网站带来的权重越高。尽量多做互链,这个权重很高。
4. 保持网站不断更新,更新越勤快,爬虫和搜索引擎认为网站约有价值,搜索排名会不断提高。当然,内容要不断创新,带给用户不断新的价值和体验。
总之,勤奋、专注是成功之道,最好自己维护。
你可以先评估一下自己的爬虫是io密集还是cpu密集。
io密集:程序大部分时间花在了io等待上,比如网络io,即,即文件读写等。
cpu密集: 程序大部分时间花在了cpu计算上,比如文本处理,数值计算等。
如果是io密集,那么你可以将这部分的功能通过线程池或者协程池进行并发,这样就提升了速度。
不过这里的网络io有个前提,你的带宽不是你爬虫的瓶颈。
如果是cpu密集,那么可以把这部分工作通过进程池(多进程)进行并行处理,这样就提升了速度。多进程则意味着你的机器是多核的。
不过还有一些地方是值得优化的,比如一些库的选择上,例如beautifulsoup虽然很方便,但是有更快的实现方式,比如selectolax的速度要快很多。
如果你无法判断,那么就先多线程,然后多进程吧。
如果是单机解决不了,就用工作队列吧,比如celery。多机并行,一定能提升速度,而且是水平扩展的,当然了,这得让你的任务能够分布式。