没有写不出的代码,只有不努力的程序员

python爬取免费代理服务器(四)

晚好,这已经是我这个系列的第四期了,预计还会再出个两三期

最近找到一个不错的api库,https://api.devopsclub.cn/,很多不错的接口,里面有一个代理的接口,我们直接来试下用之前的代码改造

由于有api接口所以节省了很多功夫,直接上代码

import json,requests,bs4
def get_proxy_with_api(page):
    success=[]
    proxylist=[]
    for i in range(1,page+1):
        response=requests.get(“https://api.devopsclub.cn/api/proxypool?page=”+str(i))
        proxytext=json.loads(response.text)
        ips=proxytext[“data”][“data”]
        for x in ips:
            proxylist.append(x[“ip”]+”:”+x[“port”])
        for proxy in proxylist:
            print(test_baidu(proxy))
    

def test_baidu(proxyip):
    proxy = {‘http’:proxyip}
    try:
        testconnect = requests.get(‘http://httpbin.org/get’,proxies=proxy,timeout=2)
    except:
        return ‘none’
    else:
        try:
            proxy={‘https’:proxyip}
            testconnect = requests.get(‘http://httpbin.org/get’,proxies=proxy,timeout=2)
        except:
            
            return ‘http:’+proxyip
        else:
            
            return ‘https:’+proxyip
调用get_proxy_with_api(page)函数就能获取到代理通过调整参数就能改变页数,经过测试返回的代理质量很高,值得一试!

这一期文章就到这,下期带你玩多线程爬代理(主要使用与验证环节)

赞(2)
欢迎转载,转载请在文章末尾加上原地址,违者必究Jimmy的博客 » python爬取免费代理服务器(四)
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址