百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

python爬虫实战之IP限制

mhr18 2025-05-28 18:51 12 浏览 0 评论

在我们平时写爬虫时经常会遇到一些情况:本来写的爬虫一开始能正常爬取数据,运行一顿时间后有时候会出现错误比如403错误,网页上可能会出现“您的IP访问频率过高” 或者跳出一个验证码提示需要输入验证码。这就是触发了网站的一些反爬机制,比如限制IP访问频率,超过了预先设置的范围,服务器就会拒绝服务,返回一些错误或验证措施,这种情况就叫做IP限制。这时候我们就可以借助一些方法来伪装IP,让服务器无法识别我们的真实IP。现在引入一个新的概念代理IP。

一、何为代理IP

代理IP,即代理服务器,确实在网络访问中起到了一个中转站的作用。当个人浏览器或其他客户端设备发出网络请求时,这个请求会首先被发送到代理服务器,然后由代理服务器转发给目标网站。同样,目标网站的响应也会先发送到代理服务器,再由代理服务器转发给原始的请求者。这样,对于目标网站来说,它实际检测到的访问数据都来自于这个代理服务器,而不是原始的请求者。使用代理ip可以绕过目标网站限制,更好的抓取网络数据,可以自定义时间更换ip地址,提高爬虫效率。需要注意的是,虽然代理IP带来了很多便利,但使用不当也可能带来一些问题,比如数据安全问题、隐私泄露风险等。因此,在使用代理IP时,用户需要选择可靠的代理服务提供商,并遵守相关的法律法规和道德准则。

二、requests设置代理

以下程序演示了利用requests如何设置代理:

import requests
proxies={
    "https":"https://221.194.149.8"
}
url='http://www.baidu.com'
resp=requests.get(url,proxies=proxies)
resp.encoding='utf-8'
print(resp.text)

三、代理池的构建

代理池顾名思义,就是好多代理IP组成的一个集合,我们称之为代理池。我们在做爬虫时一般对代理IP的需求量比较大,当我们请求时,从代理池中取出一个代理进行使用。要构建代理池,如果不差钱可以直接淘宝购买一些代理IP就可以了,既稳定又不是很贵。当然要马儿不吃草,还要马儿跑的快,我们可以从网上找一些免费的代理,通过我们的爬虫技术爬取下来也是可以的。无论采用哪种方式构建代理池,都需要定期验证代理的有效性,并及时剔除失效的代理。

下面的例子是从国内网站免费获取代理IP:

import  requests
from bs4 import  BeautifulSoup

url="https://www.zdaye.com/free/"
headers={
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"
}
resp=requests.get(url,headers=headers)
bs=BeautifulSoup(resp.text,'html.parser')
res_list=bs.find_all('tr')
ip_list=[]
for res in res_list:
    tds=res.find_all('td')
    if tds:
        ip_list.append({"IP":tds[0].text,"port":tds[1].text})
#循环显示获取到的代理IP
for ip in ip_list:
    print(ip)

获取到代理IP后我们要验证是否可用,方法比较简单就是连上代理后看2秒左右能不能打开百度网站,如果能打开说明可用,不能打开从代理池中剔除。

import  requests
import  socket
socket.setdefaulttimeout(2)
proxy='54.223.16.166:3128' #循环获取上面获取的代理IP 和端口
proxies={'http':proxy}
try:
    res=requests.get("http://www.baidu.com",proxies=proxies)
    if res.status_code==200:
        print("当前代理IP可使用")
except:
    print("当前代理IP不可使用")

在实际项目中,我们可能会获取到很多的代理IP,这时候我们还是建议将验证过的IP存放到数据库中,如Redis 或其他数据库,每次使用时,我们直接从数据库中取就行了。

相关推荐

一文读懂Prometheus架构监控(prometheus监控哪些指标)

介绍Prometheus是一个系统监控和警报工具包。它是用Go编写的,由Soundcloud构建,并于2016年作为继Kubernetes之后的第二个托管项目加入云原生计算基金会(C...

Spring Boot 3.x 新特性详解:从基础到高级实战

1.SpringBoot3.x简介与核心特性1.1SpringBoot3.x新特性概览SpringBoot3.x是建立在SpringFramework6.0基础上的重大版...

「技术分享」猪八戒基于Quartz分布式调度平台实践

点击原文:【技术分享】猪八戒基于Quartz分布式调度平台实践点击关注“八戒技术团队”,阅读更多技术干货1.背景介绍1.1业务场景调度任务是我们日常开发中非常经典的一个场景,我们时常会需要用到一些不...

14. 常用框架与工具(使用的框架)

本章深入解析Go生态中的核心开发框架与工具链,结合性能调优与工程化实践,提供高效开发方案。14.1Web框架(Gin,Echo)14.1.1Gin高性能实践//中间件链优化router:=...

SpringBoot整合MyBatis-Plus:从入门到精通

一、MyBatis-Plus基础介绍1.1MyBatis-Plus核心概念MyBatis-Plus(简称MP)是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,为简化开发、提...

Seata源码—5.全局事务的创建与返回处理

大纲1.Seata开启分布式事务的流程总结2.Seata生成全局事务ID的雪花算法源码3.生成xid以及对全局事务会话进行持久化的源码4.全局事务会话数据持久化的实现源码5.SeataServer创...

Java开发200+个学习知识路线-史上最全(框架篇)

1.Spring框架深入SpringIOC容器:BeanFactory与ApplicationContextBean生命周期:实例化、属性填充、初始化、销毁依赖注入方式:构造器注入、Setter注...

OpenResty 入门指南:从基础到动态路由实战

一、引言1.1OpenResty简介OpenResty是一款基于Nginx的高性能Web平台,通过集成Lua脚本和丰富的模块,将Nginx从静态反向代理转变为可动态编程的应用平台...

你还在为 Spring Boot3 分布式锁实现发愁?一文教你轻松搞定!

作为互联网大厂后端开发人员,在项目开发过程中,你有没有遇到过这样的问题:多个服务实例同时访问共享资源,导致数据不一致、业务逻辑混乱?没错,这就是分布式环境下常见的并发问题,而分布式锁就是解决这类问题的...

近2万字详解JAVA NIO2文件操作,过瘾

原创:小姐姐味道(微信公众号ID:xjjdog),欢迎分享,转载请保留出处。从classpath中读取过文件的人,都知道需要写一些读取流的方法,很是繁琐。最近使用IDEA在打出.这个符号的时候,一行代...

学习MVC之租房网站(十二)-缓存和静态页面

在上一篇<学习MVC之租房网站(十一)-定时任务和云存储>学习了Quartz的使用、发邮件,并将通过UEditor上传的图片保存到云存储。在项目的最后,再学习优化网站性能的一些技术:缓存和...

Linux系统下运行c++程序(linux怎么运行c++文件)

引言为什么要在Linux下写程序?需要更多关于Linux下c++开发的资料请后台私信【架构】获取分享资料包括:C/C++,Linux,Nginx,ZeroMQ,MySQL,Redis,fastdf...

2022正确的java学习顺序(文末送java福利)

对于刚学习java的人来说,可能最大的问题是不知道学习方向,每天学了什么第二天就忘了,而课堂的讲解也是很片面的。今天我结合我的学习路线为大家讲解下最基础的学习路线,真心希望能帮到迷茫的小伙伴。(有很多...

一个 3 年 Java 程序员 5 家大厂的面试总结(已拿Offer)

前言15年毕业到现在也近三年了,最近面试了阿里集团(菜鸟网络,蚂蚁金服),网易,滴滴,点我达,最终收到点我达,网易offer,蚂蚁金服二面挂掉,菜鸟网络一个月了还在流程中...最终有幸去了网易。但是要...

多商户商城系统开发全流程解析(多商户商城源码免费下载)

在数字化商业浪潮中,多商户商城系统成为众多企业拓展电商业务的关键选择。这类系统允许众多商家在同一平台销售商品,不仅丰富了商品种类,还为消费者带来更多样的购物体验。不过,开发一个多商户商城系统是个复杂的...

取消回复欢迎 发表评论: