python3 去掉最外面一个标签

Posted by 萌新 2022-11-16 in Python实例

使用xpath解析html的时候，获取content，会多一个最外面的html标签。

例如：使用id为content的div获取里面的内容（包括html）

<div id=”contnet”><div id=”abc”>asdfsadf<img src=”xx”>afds</div></div>

想去掉最外侧的id为content的div，只保存里面的html。

def filtercontent(data):
    data = data.decode("utf-8")  # utf-8解码，如果传入是str，可忽略
    l = data.find(">")           # 第一个>的位置
    r = data.rfind("</")         # 最后一个</ 的位置
    return data[l+1:r]           # 切片提取文本

About the Author: 萌新