Python网络爬虫_发送HTTP请求【3】

发表于2023-07-13|更新于2024-08-11|学习笔记Python

|总字数:970|阅读时长:3分钟|浏览量:

了解HTTP协议相关知识后，我们可以尝试利用Python发送一次HTTP请求。
Request是Python的第三方库，用于构建和发送HTTP请求。

安装Requests：

因为是第三方库，所以我们需要用到命令行终端的pip来进行安装。
打开终端，输入 pip install requests 再回车。
当显示如图所示，则表示安装成功了。

#安装成功：

但是如果显示如下，则表示你已经安装过了Requests，不需要再进行安装了。

#安装失败（重复）：

打开该库后可以看到里面包含了很多方法模块，而我们待会就会用到里面的status_codes

编写代码：

1. 发送HTTP请求

当Requests库安装好之后，就到了编写Python代码的环节了，新建一个py文本。
导入Requests模块。因为爬虫的主要行为是爬取内容，所以我用GET请求方法，获取一个服务器对象。我们拿百度为例。get内写的是要获取的完整的URL。注意：URL要带上http协议，加密协议带https。

1
2
3

import requests  # 导入模块

send = requests.get('https://www.baidu.com/')  # 获取服务器对象

当运行这串代码后，就相当于已经发送了HTTP请求了，而服务器响应的内容在send对象中。但是当我们打印对象内容时，会发现输出的是响应发出的状态码。状态码为200，则说明服务器接受了请求并得到响应。

有的时候，当我们发送请求是，并不一直都是可以正常进行的。因为服务器的原因，也可能会出现其他状态。

#常见的状态及状态码有如下：

200：服务器接受了请求，并响应页面。
201：服务器接受了请求，但尚未处理。
204：服务器接受了请求，但没有返回任何内容。
300：针对完成的请求,您需要进一步进行操作。
301：请求的URL网页已经移动到新的位置。
400：服务器不理解请求的语法。
403：服务器拒绝接受请求。
404：服务器找不到请求的页面，该页面不存在。
500：服务器发生错误，无法完成请求。
503：服务器目前无法使用，服务器正在维护或停机。

稍微将代码改动一下，如果请求成功则打印成功状态码，如果失败，则打印失败和状态码。

if send.status_code == 200:
    print(f'请求的服务器成功...\n状态码：{send.status_code}')
    print(send.text)  # 获取页面源代码

else:
    print(f'服务器请求失败...\n状态码：{send.status_code}')

2. 获取页面内容

简单这么操作后，这也并不是我们想要的内容，我们要的是更多的信息，比如页面源代码。
这很简单，只需要加个方法

import requests  # 导入模块

send = requests.get('https://baidu.com/')  # 获取服务器对象
if send.status_code == 200:
    print(f'请求的服务器成功...\n状态码：{send.status_code}')
    print(send.text)  # 获取页面源代码

else:
    print(f'服务器请求失败...\n状态码：{send.status_code}')

运行之后，以下得到的就是页面的HTML源代码。

关于什么是HTML，这个后期会进行讲解。

总结：

本次我们简单地介绍如何用Python Requests模块来发送HTTP请求并得到响应内容。
这下有人可能会说：就这？这不在浏览器就能搞的源码吗？但我想说的是：这只是爬虫的第一步，小试牛刀而言。
我也是学一步，写一步。我相信后面一定会更精彩。
后面讲解反爬虫机制。

内容为本人学习笔记,难免有不足之处,恳请大家批评指正。

文章作者: Almango

文章链接: https://almango.cn/2023/07/13/Python%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB%20_%E5%8F%91%E9%80%81HTTP%E8%AF%B7%E6%B1%82%E3%80%903%E3%80%91/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Almango！

Python 网络爬虫

相关推荐

Python网络爬虫 _反爬虫【4】

1.由于网络爬虫具有一定的弊端，使用网络爬虫可以悄无声息的从互联网上获取很多资源，包括一些付费，原创和不公开的资源。所以很多大型网站都采取了反爬虫机制，来抵御爬虫的不正当行为。 2.本次介绍了什么是反网络爬虫？，简单的爬虫伪装操作？以及如何应对网络爬虫？。什么是反网络爬虫？反爬虫：是指对扫描器中的网络爬虫环节进行反制，它会根据ip访问频率，浏览网页速度和User-Agent等参数来判断是否为网络爬虫，随后通过一些反网络爬虫机制来阻止或妨碍网络爬虫的正常爬取。以此达到网络爬虫恶意获取网站资源的效果。爬虫伪装1. 什么是爬虫伪装？爬虫伪装：指的是将爬虫伪装成其他工具，我们知道请求头中的User-Agent是用于告诉服务器请求是通过什么工具发出的（浏览器，程序，），以及工具对应的版本和类型是什么。现在大多网站，都会根据User-Agent的参数来判断请求是否为网络爬虫发出的，服务器都希望访问网站的用户，是浏览器发出的请求，而不是爬虫程序。因为爬虫本身就是一种程序，所以就会被反爬虫机制给阻止。我们只需要将User-Agent的参数更改一下即可。 2....

Python网络爬虫 _XPath解析【6】

问题引入：前面我们可以通过HTTP Requests请求获取到网站的HTML源代码，但是仍没有得到我们想要的信息。那怎么办呢，这时我们就需要通过代码解析，从复杂的源码中提取出我们想要的信息。爬虫解析器爬虫解析器用作于从复杂的网页代码中解析提取出我们想要的数据。如下图，通过解析我们可以从结构复杂的代码中提取出我们想要的。爬虫解析器有三大类，分别是正则表达式解析器，Bs解析器和Lxml解析器。其对于的解析方法如下：正则表达式解析：正则表达式(Regular Expression) 简称 ‘Re’...

Python网络爬虫_HTTP请求与响应【2】

问题引入：网络爬虫爬取的对象的是Web，我们将它称之为服务端，而爬虫就是本地的客户端。那么要怎样才能使客户端与服务端建立连接并爬取数据呢？这时就需要利用HTTP了什么是HTTP?1.HTTP：超文本传输协议（Hypertext Transfer Protocol，简称：HTTP）它是一个简单的请求-响应协议，架构运行在TCP之上。这套协议定义了客户端可发送什么样的请求（Request）信号和服务器可返回什么样的响应（Response）。它的作用是规定www服务器与浏览器之间信息传递规范，是二者共同遵守的协议。 2.当用户使用浏览器输入网址访问目标网站时，需要向网站服务器发送HTTP请求，通过发送请求即可从服务器获取页面内容的响应。但实际上服务器只会发送网页代码，我们所看到的页面效果是经过浏览器渲染而成的。请求类型：1.HTTP请求类型有八种：（GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT）2.但我们常用的只有两种：GET和POST。 GET ：用于获取数据，一般用于搜索排序和筛选之类的操作。 POST...

Python网络爬虫 _简易的翻译小程序【7】

1.了解了URL封装和XPath解析后，也掌握了许多爬虫知识，是时候做个实战演练了。2.本期内容会讲到如何利用爬虫制作一个简易的翻译小程序。制作翻译小程序一. 实战对象先声明一下：本次实战案例是以学习为目的，不会有其他恶意行为，文章仅供参考。这次是利用爬虫制作小程序，那当然离不开网站了，本次我们会以，金山词霸为实战素材。二. 制作流程1. 英文翻译首先我们先打开金山词霸的官网页面。我们直接翻译两个单词，注意一下URL地址的变化，可以发现，，w=后面的就是我们要翻译的中文，连续两次翻译都是只是改变了这一小部分，所以，我们就可以利用到这一发现。 3....

Python网络爬虫_URL封装【5】

为了达到便于管理的目的，大多网站会对网页的URL地址采取封装措施。 URL封装在我们访问网站时，通常会看到不一样的网址，就如豆瓣电影的动作片排行榜的网页路径一样。并不是一个很层级形式的路径。这就是URL封装。 3. 可以发现，URL路径中，从里面的问号开始往后就是封装的内容。 4. 像URL路径这样的，一般以Json的形式存在于请求的Request Payload，内参数用于指定路径。准确来说应该是一种请求体。5. 我们打开检查查看Payload6. 可以发现，Payload参数完全对应着URL的后半部分。如果我们把这个Payload放入代码中拼接起来会咋样呢因为像这样的参数我们需要将它们写成字典再传入Params可选参数，即可。123456789101112131415import requests # 导入请求库tou = { # 伪装浏览器 "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,...

Python网络爬虫_初识【1】

本次教程是依据个人学习心得与学习记录所做，见证的是我们的成长。什么是网络爬虫?定义： Web...

评论

数据加载中