- Home
- python爬虫编写
Posted on 13 Jun 2014
平台
工具
模块
获取页面内容
获取页面编码
根据页面编码对抓取内容进行编码转换
正则提取信息
re.compile是将字符串编译为用于python正则式的模式,字符前的r表示是纯字符,这样就不需要对元字符进行两次转义。re.findall返回的是字符串中符合url_pattern的列表,由于在url_pattern中使用了子表达式,所以results存储的就是子表达式所匹配的内容,即与之间的内容。
输出
全部代码
相关
chardet安装