没有写不出的代码,只有不努力的程序员

爬取博客文章内容

HI,大家好,这是我今天写的第二篇文章了

今天教大家怎么爬取我的博客文章

以下是代码

import requests
import bs4
import time
import re
urllist = []
pattern = ‘<a.*?href=”(.+)”.*?>(.*?)</a>’
response = requests.get(“https://www.jimmyblog.com.cn/”)
soup = bs4.BeautifulSoup(response.text,’html.parser’)
a = soup.find_all(“article”)
for i in a:
    list = i.find_all(“a”)
    for x in list:
        if “#” not in x.get(“href”) and “avascript:;” not in x.get(“href”):
            urllist.append(x.get(“href”))
for url in urllist:
    response = requests.get(url)
    u = bs4.BeautifulSoup(response.text,”html.parser”)
    text = u.find_all(“article”)
    for s in text:
        if s.text == “”:
            continue
        print(s.text)
        
第一个for循环是在首页获取全部文章的网址

第二个for循环是遍历网址列表,爬取文章内容

好了,这篇文章比较简短,我们下期再见

赞(1)
欢迎转载,转载请在文章末尾加上原地址,违者必究Jimmy的博客 » 爬取博客文章内容
分享到: 更多 (0)

评论 1

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #1

    加油鸭

    Bob2个月前 (09-30)回复