博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
lxml简单用法 解析网页
阅读量:5331 次
发布时间:2019-06-14

本文共 603 字,大约阅读时间需要 2 分钟。

import requests

s=requests.Session()

re=s.get(lgurl,headers=headers)  #此处s可以直接换成requests

the_page=re.content  #content 为二进制文本

from lxml import etree 

html=etree.HTML(the_page)

joblistPath='//*[@id="s_position_list"]/ul/li'   #此处joblistPath可使用浏览器中的copy xpath选项中的内容

result=html.xpath(joblistPath)

result[0].tag  #获取result结果集中第一个元素的标签名称,例<a class='shjdb'  > 中的tag是a.

result[0].xpath(/a/@href) #返回根目录下a下所有子元素的属性href的值,例<a href='shjdb'  > <li href='123.com'>,中返回的是‘123.com’.

result[0].text  #返回的是元素的内容,即标签对中间的文本,例<a href="link5.html">fifth item</a>中返回的是fifth item

转载于:https://www.cnblogs.com/Ting-light/p/9548153.html

你可能感兴趣的文章
like tp
查看>>
posix多线程有感--线程高级编程(线程属性函数总结)(代码)
查看>>
spring-使用MyEcilpse创建demo
查看>>
DCDC(4.5V to 23V -3.3V)
查看>>
kettle导数到user_用于left join_20160928
查看>>
activity 保存数据
查看>>
typescript深copy和浅copy
查看>>
linux下的静态库与动态库详解
查看>>
hbuilder调底层运用,多张图片上传
查看>>
较快的maven的settings.xml文件
查看>>
Git之初体验 持续更新
查看>>
随手练——HDU 5015 矩阵快速幂
查看>>
Maven之setting.xml配置文件详解
查看>>
SDK目录结构
查看>>
malloc() & free()
查看>>
HDU 2063 过山车
查看>>
高精度1--加法
查看>>
String比较
查看>>
Django之Models
查看>>
CSS 透明度级别 及 背景透明
查看>>