官方中文文档

解析原理

实例化BeautifulSoup(BS)对象,将解析的页面源码数据加载到该对象中

调用BS对象相关方法或者属性,进行标签定位和文本提取

pip install lxml(解析器)

pip install bs4

BS对象实例化

BeautifulSoup(yourFile,’lxml’):用来将本地存储的html文档中的数据进行解析

BeautifulSoup(page_text,”lxml’):用来将互联网上请求的页面源码进行解析

标签定位

soup = BeautifulSoup(‘1.html,’lxml’)

soup.tagName

定位到第一次出现标签内容

soup.p

soup.find(‘tagName’,attrName = ‘value’)

定位第一个标签

soup.find(‘div’,class = ‘test’)

soup.find(‘div’,id = ‘video’)

soup.findAll(‘tagName’,attrName = ‘value’)

定位第所有标签,返回列表

soup.findAll(‘div’,class_ = ‘test’)

soup.select(‘selector‘)

选择器定位

  • 类选择器:.class
  • id选择器:#id
  • 层级选择器:>,单个层级。空格:多个层级

soup.select(‘.video > ul > li’)

获取标签文本数据

.text:返回标签所有文本,字符串。(可以找儿子)

.string:返回标签直系文本(不可以找儿子)

获取标签属性

直接tag[‘attrName’]

 

您的电子邮箱地址不会被公开。 必填项已用*标注