使用xpath解析html的时候,获取content,会多一个最外面的html标签。
例如:使用id为content的div获取里面的内容(包括html)
<div id=”contnet”><div id=”abc”>asdfsadf<img src=”xx”>afds</div></div>
想去掉最外侧的id为content的div,只保存里面的html。
def filtercontent(data):
data = data.decode("utf-8") # utf-8解码,如果传入是str,可忽略
l = data.find(">") # 第一个>的位置
r = data.rfind("</") # 最后一个</ 的位置
return data[l+1:r] # 切片提取文本