今天准备使用python-wordpress-xmlrpc模块来采集内容并自动发布到wordpress,使用正则表达式模块re解析html比较麻烦,不好用,直接学习一下更易用的BeautifulSoup吧。

Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

1、安装BeautifulSoup

下载解压,然后安装:

shell#python setup.py install

或者用pip安装:

shell#pip install beautifulsoup4

测试安装是否成功。键入 import BeautifulSoup 如果没有异常,即成功安装

2、使用BeautifulSoup

2.1  导入BeautifulSoup ,并创建BeautifulSoup 对象

  1. from BeautifulSoup import BeautifulSoup           # HTML
  2. from BeautifulSoup import BeautifulStoneSoup      # XML
  3. import BeautifulSoup                              # ALL
  4. doc = [
  5.     ‘<html><head><title>Page title</title></head>’,
  6.     ‘<body><p id=”firstpara” align=”center”>This is paragraph <b>one</b>.’,
  7.     ‘<p id=”secondpara” align=”blah”>This is paragraph <b>two</b>.’,
  8.     ‘</html>’
  9. ]
  10. # BeautifulSoup 接受一个字符串参数
  11. soup = BeautifulSoup(”.join(doc))