beautifulsoup爬虫案例,爬虫beautiful soup框架
美味的汤介绍美味的汤提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
美味的汤将复杂超文本标记语言文档转换成一个复杂的树形结构,每个节点都是计算机编程语言对象,所有对象可以归纳为四种:
tagnavigablestringbeautifulsoup注释1 .标签就是超文本标记语言中的一个个标签
标签有两个重要的属性,名称和属性列表
2.可导航字符串就是指内容
#打印出标签p中的内容
打印(汤锅串串)
3.美丽的声音表示的是一个文档的内容
部分时候,可以把它当作标签对象,是个特殊的标签
4.评论特殊的可导航字符串对象
#!/usr/jxdkl/env python #-*-编码:utf-8-*-# _ _ author _ _= wx winder # _ _ email _ _= wx winder @ QQ。com # _ _ website _ _= www .cn博客。来自bs4的导入请求。dxy。cn/BBS/thread/626626 # 626626 headers={ User-Agent : Mozilla/5 wow 64三叉戟/7.0;rv:11.0像壁虎}req=requests.get(url,headers=headers)html=req。文汤=美汤(html, html。parser )line=[]name=[]data=[]new _ data=[]#建立列表存储数据for i in soup.find_all(div ,class_=auth): #名字soup.find_all(td ,class_=postbody): #名字line.append(即文本)#页面头文件分析,得出结果对于范围(0,4)中的I:数据。append(name[I] line[I])for I in data:x=I . replace( n , ).替换( t , ).replace( , )new_data.append(x)#数据清理得出结果,具体实现如下打印(新数据)参考:https://博客。csdn。net/tichimi 3375/文章/详情/82313728
https://blog.csdn.net/HHXUN/article/details/79059554