博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫实战(二)
阅读量:5301 次
发布时间:2019-06-14

本文共 1165 字,大约阅读时间需要 3 分钟。

本来晚上是准备写贴吧爬虫的,但是在分析页面时就遇到了大麻烦!选取了某个帖子,在爬取的时候,发现正则匹配不全..很尴尬!!先来看看吧,

1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 __author__ = 'ziv·chan' 4  5  6 import requests 7 import re 8  9 url = 'http://tieba.baidu.com/p/3138733512?see_lz=1&pn=3'10 html = requests.get(url)11 html.encoding = 'utf-8'12 pageCode = html.text13 14 pattern = re.compile('d_post_content j_d_post_content ">(.*?)
',re.S)15 items = re.findall(pattern,pageCode)16 i = 117 for item in items:18 hasImg = re.search('
')23 item = re.sub(pattern_1,'',item)24 # 过滤href25 if hasHref:26 pattern_2 = re.compile('οnclick="Stats.sendRequest.*?class="at">(.*?)',re.S)27 item = re.findall(pattern_2,item)28 29 print str(i) + ':'30 # 提取href标签下的用户31 if type(item) is list:32 for each in item:33 print each34 else:35 # 过滤多余标签 '
'36 pattern_Br = re.compile('
')37 item = re.sub(pattern_Br, '\n', item)38 # 默认删除空白符39 print item.strip()40 print '\n'41 i += 142 # if not hasImg and not hasHref:43 # print i44 # print item.strip()45 # i += 1

本来都以为大功告成了,结果..结果在提取含有@的content的时候,不是少这个就是缺那个...心塞,正则的功夫还是没下够,但是今天白天学得那些方法还是现学现用了,Get!

明天看看静觅怎么做的,又是一顿大餐,好好消化,加油!!

 

转载于:https://www.cnblogs.com/ziv-chan/p/5500021.html

你可能感兴趣的文章
SecureCRT的使用方法和技巧(详细使用教程)
查看>>
右侧导航栏(动态添加数据到list)
查看>>
81、iOS本地推送与远程推送详解
查看>>
虚拟DOM
查看>>
自建数据源(RSO2)、及数据源增强
查看>>
BootStrap2学习日记2--将固定布局换成响应式布局
查看>>
关于View控件中的Context选择
查看>>
2018icpc徐州OnlineA Hard to prepare
查看>>
Spark的启动进程详解
查看>>
使用命令创建数据库和表
查看>>
数据库的高级查询
查看>>
机器视觉:SSD Single Shot MultiBox Detector
查看>>
201521123044 《Java程序设计》第1周学习总结
查看>>
MIT Scheme 的基本使用
查看>>
程序员的“机械同感”
查看>>
在16aspx.com上下了一个简单商品房销售系统源码,怎么修改它的默认登录名和密码...
查看>>
c++回调函数
查看>>
linux下Rtree的安装
查看>>
【Java】 剑指offer(53-2) 0到n-1中缺失的数字
查看>>
Delphi中ListView类的用法
查看>>