快上网建站品牌

13518219792
  • 首页
  • 关于我们
    • 如何选择
    • 选择理由
  • 案例作品
    • 网站建设
    • 优化推广
    • 微信开发
    • 电商托管
  • 服务项目
    • 网站建设
    • 移动端/APP
    • 微信/小程序
    • 技术支持
    • 其它服务
  • 建站知识
    • 成都网站建设
    • 成都做网站
    • 成都网站设计
  • 网站售后
    • 成都网站运营
    • 成都网站维护
    • 成都网站推广
  • 客服中心
  • 全国分站

爬虫urllib库的使用方法-创新互联

创新互联www.cdcxhl.cn八线动态BGP香港云服务器提供商,新人活动买多久送多久,划算不套路!

成都创新互联公司是专业的曹县网站建设公司,曹县接单;提供网站设计制作、做网站,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行曹县网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

这篇文章给大家分享的是有关爬虫urllib库的使用方法的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。

URL(Uniform Resource Locator)对象代表统一资源定位器,它是指向互联网“资源”的指针。资源可以是简单的文件或目录,也可以是对复杂对象的引用,例如对数据库或搜索引擎的查询。在通常情况下,URL 可以由协议名、主机、端口和资源路径组成,即满足如下格式:

protocol://host:port/path

例如如下的 URL 地址:

http://www.crazyit.org/index.php

urllib 模块则包含了多个用于处理 URL 的子模块:

urllib.request:这是最核心的子模块,它包含了打开和读取 URL 的各种函数。
urllib.error:主要包含由 urllib.request 子模块所引发的各种异常。
urllib.parse:用于解析 URL。
urllib.robotparser:主要用于解析 robots.txt 文件。

通过使用 urllib 模块可以打开任意 URL 所指向的资源,就像打开本地文件一样,这样程序就能完整地下载远程页面。如果再与 re 模块结合使用,那么程序完全可以提取页面中各种信息,这就是所谓的“网络爬虫”的初步原理。

下面先介绍 urllib.parse 子模块中用于解析 URL 地址和查询字符串的函数:

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True):该函数用于解析 URL 字符串。程序返回一个 ParseResult 对象,可以获取解析出来的数据。

urllib.parse.urlunparse(parts):该函数是上一个函数的反向操作,用于将解析结果反向拼接成 URL 地址。

urllib.parse.parse_qs(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'):该该函数用于解析查询字符串(application/x-www-form-urlencoded 类型的数据),并以 dict 形式返回解析结果。

urllib.parse.parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'):该函数用于解析查询字符串(application/x-www-form-urlencoded 类型的数据),并以列表形式返回解析结果。

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus):将字典形式或列表形式的请求参数恢复成请求字符串。该函数相当于 parse_qs()、parse_qsl() 的逆函数。

urllib.parse.urljoin(base, url, allow_fragments=True):该函数用于将一个 base_URL 和另一个资源 URL 连接成代表绝对地址的 URL。

例如,如下程序使用 urlparse() 函数来解析 URL 字符串:

from urllib.parse import *

# 解析URL字符串
result = urlparse('http://www.crazyit.org:80/index.php;yeeku?name=fkit#frag')
print(result)
# 通过属性名和索引来获取URL的各部分
print('scheme:', result.scheme, result[0])
print('主机和端口:', result.netloc, result[1])
print('主机:', result.hostname)
print('端口:', result.port)
print('资源路径:', result.path, result[2])
print('参数:', result.params, result[3])
print('查询字符串:', result.query, result[4])
print('fragment:', result.fragment, result[5])
print(result.geturl())

上面程序中使用 urlparse() 函数解析 URL 字符串,解析结果是一个 ParseResult 对象,该对象实际上是 tuple 的子类。因此,程序既可通过属性名来获取 URL 的各部分,也可通过索引来获取 URL 的各部分。

感谢各位的阅读!关于爬虫urllib库的使用方法就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到吧!


文章标题:爬虫urllib库的使用方法-创新互联
地址分享:http://www.gydahua.com/article/hhpse.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

其他资讯

  • js中for循环是如何进行的?
  • TypeScript(3)基础类型
  • JS JSON格式化打印:JSON.stringify方法
  • requestAnimationFrame实现单张图片无缝持续滚动
  • 复习+学习 递归

行业动态

企业网站建设的重要性!

现在虽然是移动互联网时代,但企业网站依然重要,包含PC站点,移动站。可以说企业网站关系企业的未来发展和前途,尤其对中小企业更是如此,一些中小企业老板,对自己的名片很在乎,因为这是个门面。...

服务项目

  • 网站建设

    查看详情
  • 移动端/APP

    查看详情
  • 微信/小程序

    查看详情
  • 技术支持

    查看详情
  • 其它服务

    查看详情
  • 更多服务项目

    用我们的专业和诚信赢得您的信赖,从PC到移动互联网均有您想要的服务!

    获取更多

联系吧 在百度地图上找到我们

电话:13518219792

如遇占线或暂未接听请拨:136xxx98888

业务咨询 技术咨询 售后服务
网站设计
自适应网站设计
专业网站设计
LED网站设计方案
成都网站设计
网站制作
定制网站制作
手机网站制作
移动手机网站制作
网站制作
联系我们
电话:13518219792
邮箱:631063699@qq.com
地址:成都青羊区锦天国际1002号
网址:www.gydahua.com
网站建设
成都网站建设
成都网站建设
高端品牌网站建设
成都品牌网站建设

微信二维码

  • 友情链接
  • 做网站
  • 成都网站设计
  • 资阳发电机
  • 恒翔机电
  • 成都响应式网站建设
  • 棕树数据中心
  • 成都食品包装设计
  • 水泥基自流平
  • 成都做网站
  • 成都租用玉柴发电机

Copyright © 2002-2023 www.gydahua.com 快上网建站品牌 QQ:244261566 版权所有 备案号:蜀ICP备19037934号

  • 在线咨询
  • 13518219792
  • 微信二维码

  • 移动版官网