爬蟲(chóng)入門(mén)系列（一）：快速理解HTTP協(xié)議

發(fā)布時(shí)間：2017年04月07日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來(lái)自筆記，點(diǎn)擊查看原文)

4月份給自己挖一個(gè)爬蟲(chóng)系列的坑，主要涉及HTTP 協(xié)議、正則表達(dá)式、爬蟲(chóng)框架 Scrapy、消息隊(duì)列、數(shù)據(jù)庫(kù)等內(nèi)容。

爬蟲(chóng)的基本原理是模擬瀏覽器進(jìn)行 HTTP 請(qǐng)求，理解 HTTP 協(xié)議是寫(xiě)爬蟲(chóng)的必備基礎(chǔ)，招聘網(wǎng)站的爬蟲(chóng)崗位也赫然寫(xiě)著熟練掌握HTTP協(xié)議規(guī)范，寫(xiě)爬蟲(chóng)還不得不先從HTTP協(xié)議開(kāi)始講起

HTTP協(xié)議是什么？

你瀏覽的每一個(gè)網(wǎng)頁(yè)都是基于 HTTP 協(xié)議呈現(xiàn)的，HTTP 協(xié)議是互聯(lián)網(wǎng)應(yīng)用中，客戶(hù)端（瀏覽器）與服務(wù)器之間進(jìn)行數(shù)據(jù)通信的一種協(xié)議。協(xié)議中規(guī)定了客戶(hù)端應(yīng)該按照什么格式給服務(wù)器發(fā)送請(qǐng)求，同時(shí)也約定了服務(wù)端返回的響應(yīng)結(jié)果應(yīng)該是什么格式。

只要大家都按照協(xié)議規(guī)定方式發(fā)起請(qǐng)求和返回響應(yīng)結(jié)果，任何人都可以基于HTTP協(xié)議實(shí)現(xiàn)自己的Web客戶(hù)端（瀏覽器、爬蟲(chóng)）和Web服務(wù)器（Nginx、Apache等）。

HTTP 協(xié)議本身是非常簡(jiǎn)單的。它規(guī)定，只能由客戶(hù)端主動(dòng)發(fā)起請(qǐng)求，服務(wù)器接收請(qǐng)求處理后返回響應(yīng)結(jié)果，同時(shí) HTTP 是一種無(wú)狀態(tài)的協(xié)議，協(xié)議本身不記錄客戶(hù)端的歷史請(qǐng)求記錄。

<h3>延伸閱讀</h3> <ul> <li><a href="/c_all/article_3015.html">ssh框架</a> <span>2016-09-30 </span> </li> <li><a href="/c_all/article_695270.html">阿里移動(dòng)安全 [無(wú)線(xiàn)安全]玩轉(zhuǎn)無(wú)線(xiàn)電——不安全的藍(lán)牙鎖</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695162.html">消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe</a> <span>2024-03-26 </span> </li> <li><a href="/c_all/article_695044.html">Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695025.html">詞向量-LRWE模型-更好地識(shí)別反義詞同義詞</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695024.html">從棧不平衡問(wèn)題理解 calling convention</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695023.html">php imagemagick 處理圖片剪切、壓縮、合并、插入文本、背景色透明</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695022.html">Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695021.html">阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析</a> <span>2017-07-26 </span> </li> <li><a href="/c_all/article_695020.html">集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二)</a> <span>2017-07-26 </span> </li> </ul> <a class="img" href="http://m.roadsoft.com.cn/c_online/p_yudingshitingke.html"><img alt="學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動(dòng)軟件開(kāi)發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)" src="http://m.roadsoft.com.cn/attached/image/templet/e87d53eb-cf7a-4689-887a-1cd260f416a5.jpg"><span>學(xué)習(xí)是年輕人改變自己的最好方式</span></a> </div> </div> </div> </div> </div> <div id="uywawaq" class="templetrow" key="column_all" templetId="16" orderCol="184" param="infotitle=留言" title="我想了解如何學(xué)習(xí)" pageTempletId="184" pageTempletTitle="全欄目"> <article class="contentbanner test radius"> <h1>我想了解如何學(xué)習(xí)</h1> <div id="2ow2k4k" class="testheader"> <div id="qiwcims" class="editable" dataId="" pageTempletId="184" locationKey="l1" backColor="" infoColor="" titleColor=""> </div> </div> <div id="4wkosek" class="form"> <form name="commentForm" id="commentForm" method="post"> <div id="q4uqkqm" class="commentform"> <input type="hidden" name="atUrl" id="atUrl"> <input type="hidden" name="curTitle" id="curTitle"> <input type="hidden" name="authcode" id="authcode" value=""> <fieldset> <span id="yki4u0u" class="info">姓名：</span> <input type="text" class="width2col" name="name" id="name"> <span id="2awu4yo" class="message"></span> </fieldset> <fieldset> <span id="ugsykiw" class="info">手機(jī)：</span> <input type="text" class="width2col" name="phone" id="phone"> <span id="u4oie4y" class="message"></span> </fieldset> <fieldset> <span id="uyuky2m" class="info">留言：</span> <textarea class="width2col" name="info" id="info"></textarea> <span id="cegkwag" class="message"></span> </fieldset> </div> <script type="text/javascript"> window.onload=function(){ $("#curUrl").val(window.location.href); $("#curTitle").val($(".test h1").text()); $(".commentform :input").blur(function(){ var inputInfo = $(this).val(); var id=$(this).attr("id"); if(inputInfo.length==0) { $(this).next().html("必填，請(qǐng)輸入信息"); $(this).next().removeClass("ok"); //$(this).get(0).focus(); } else { //如果為手機(jī) if(id=="phone"|| id=="qq") { if(inputInfo.length<6) { $(this).next().html("請(qǐng)輸入正確的號(hào)碼"); $(this).next().removeClass("ok"); //$(this).get(0).select(); } else { $(this).next().html("    "); $(this).next().addClass("ok"); } } else { $(this).next().html("    "); $(this).next().addClass("ok"); } } }); } </script> <fieldset> <span id="wsok4o4" class="info"> </span> <input type="button" class="width2col" value="提交" onclick="submitForm(this)"> <span id="qko4koc" class="message"></span> </fieldset> </form> </div> </article> <script type="text/javascript">  </script> </article> </div> <footer class=""> <div id="uge4swq" class="footerup"> <div id="4q4ckyu" class="footerupTop"> <a href="#" ><span id="oiycgca" class="number">16</span><span id="yyuimqg" class="upword">年</span><span>我們追求卓越</span></a> <a href="#" ><span id="auimqw4" class="number">24</span><span id="s4ua44w" class="upword">項(xiàng)</span><span>主流技術(shù)引領(lǐng)先鋒</span></a> <a href="#" ><span id="mweieqc" class="number">1000</span><span id="acs4gae" class="upword">課時(shí)</span><span>打造職場(chǎng)干將</span></a> <a href="#" style="border:none;"><span id="4uawmy4" class="number">50000</span><span id="ao4iek4" class="upword">行代碼</span><span>練就非凡本領(lǐng)</span></a> </div> <div id="q4iw4im" class="footerdown"> <div id="cgeuqek" class="footeritem"> <h4>關(guān)于萬(wàn)碼學(xué)堂</h4> <ul> <li><a href="/c_about/l_xiaoyuan.html" target="_self">校園環(huán)境</a></li> <li><a href="/c_about/article_25.html" target="_self">聯(lián)系我們</a></li> <li><a href="/map.html" target="_self">網(wǎng)站地圖</a></li> </ul> </div> <div id="w4i4gi4" class="footeritem"> <h4>關(guān)于學(xué)習(xí)</h4> <ul> <li><a target="_blank">課程體系</a></li> <li><a target="_blank">關(guān)于萬(wàn)碼</a></li> <li><a target="_blank">課程體系</a></li> </ul> </div> <div id="wauoa4a" class="footeritem"> <h4>報(bào)名方法</h4> <ul> <li><a href="/c_online/p_yudingshitingke.html" target="_self">申請(qǐng)?jiān)嚶?tīng)</a></li> <li><a href="/c_online/p_baoming.html" target="_self">在線(xiàn)報(bào)名</a></li> </ul> </div> <div id="m4wcos4" class="footeritem"> <h4>常見(jiàn)問(wèn)題</h4> <ul> <li><a href="/ask/" target="_self">大家關(guān)注</a></li> <li><a href="/c_online/p_keywordad.html" target="_self">在線(xiàn)提問(wèn)</a></li> <li><a href="/c_all/list_3.html" target="_self">學(xué)習(xí)方面</a></li> </ul> </div> <div id="ugks4wa" class="footeritem"> <h4>關(guān)注我們</h4> <ul> <li><a target="_blank"><span id="i4symqo" class="icon-common icon-common-sina"></span>新浪微博</a></li> <li><a target="_blank"><span id="sowieiw" class="icon-common icon-common-kongjian"></span>聯(lián)系我們</a></li> <li><a target="_blank"><span id="444o2ci" class="icon-common icon-common-weixin"></span>聯(lián)系微信</a></li> </ul> </div> <div id="skyeao4" class="online"> <ul> <li id="g4igsyk" class="item1"> <span id="mokok4q" class="icon-common icon-common-tel"></span>0532-85025005 </li> <li id="q44quqc" class="item2"> 馬上咨詢(xún)，周一至周日8:00-18:00 </li> <li id="y4gwsgs" class="item3"> <a class="btn btn-green" target="_blank"><span id="couauio" class="icon-common icon-common-face"></span>在線(xiàn)客服</a> </li> </ul> </div> </div> </div> <nav class="footermenu"> <ul> <li><a href="/c_all/list_1.html" class="">萬(wàn)碼學(xué)員實(shí)訓(xùn)作品</a></li> <li><a href="/c_all/list_2.html" class="">IT企業(yè)招聘信息</a></li> <li><a href="/c_all/list_3.html" class="">在萬(wàn)碼學(xué)堂奮斗的歲月</a></li> <li><a href="/c_all/list_5.html" class="cur">編程知識(shí)分享</a></li> <li><a href="/c_all/list_6.html" class="">你想了解的萬(wàn)碼學(xué)堂</a></li> <li><a href="/c_all/list_7.html" class="">青島軟件培訓(xùn)課程</a></li> <li><a href="/c_all/list_8.html" class="">IT行業(yè)動(dòng)態(tài)</a></li> <li><a href="/c_all/list_9.html" class="">職場(chǎng)人生</a></li> <li><a href="/c_all/list_10.html" class="">學(xué)習(xí)編程的感想</a></li> <li><a href="/c_all/list_11.html" class="">萬(wàn)碼學(xué)員風(fēng)采</a></li> <li><a href="/c_all/list_14.html" class="">萬(wàn)碼學(xué)堂技術(shù)專(zhuān)家</a></li> </ul> </nav> <p></p> <p>欄目導(dǎo)航： <a href="/c_study/" target="_self">如何學(xué)習(xí)軟件</a> <a href="/c_about/" target="_self">關(guān)于萬(wàn)碼學(xué)堂</a> <a href="/c_kaiban/" target="_self">開(kāi)班信息</a> <a href="/c_ask/" target="_self">關(guān)注點(diǎn)</a> </p> <p>旗下網(wǎng)站： <a target="_blank">青島IT培訓(xùn)網(wǎng)</a> <a target="_blank">程序猿編程派</a> <a target="_blank">青島電腦學(xué)校</a> <a target="_blank">青島Android培訓(xùn)</a> <a target="_blank">青島軟件培訓(xùn)</a> <a target="_blank">云培訓(xùn)</a> <a target="_blank">萬(wàn)碼學(xué)堂官網(wǎng)</a> <a target="_blank">青島大學(xué)生IT培訓(xùn)</a> </p> <p>青島青軟職業(yè)培訓(xùn)學(xué)校萬(wàn)碼學(xué)堂（辦學(xué)許可證編號(hào)：人社民3702023080012號(hào)）<a target="_blank">魯ICP備09077726號(hào)</a><a href="http://m.roadsoft.com.cn">qingruanit.net</a></p> <p> <address> 青島市市南區(qū)南京路122號(hào)B1棟3層咨詢(xún)電話(huà)0532-85025005 </address> </p> <p><script language="javascript" type="text/javascript" src="http://js.users.#/17086740.js"></script> <noscript><a href="http://www.#/?17086740" target="_blank"><img alt="我要啦免费统计" src="http://img.users.#/17086740.asp" style="border:none" /></a></noscript></p> <p> <img src="/static/images/fuze.gif"/> </p> </footer>  </div> <footer> <div class="friendship-link"> <p>感谢您访问我们的网站，您可能还对以下资源感兴趣：</p> <a href="http://m.roadsoft.com.cn/" title="最近日本免费在线视频_欧美高清videosxxⅹ人_亚洲AV高清一区二区三区色欲_h无码精品视频">最近日本免费在线视频_欧美高清videosxxⅹ人_亚洲AV高清一区二区三区色欲_h无码精品视频</a> <div class="friend-links"> </div> </div> </footer> <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body><div id="skaak" class="pl_css_ganrao" style="display: none;"><em id="skaak"><th id="skaak"><blockquote id="skaak"></blockquote></th></em><blockquote id="skaak"></blockquote><delect id="skaak"></delect><delect id="skaak"></delect><fieldset id="skaak"><option id="skaak"><noframes id="skaak"></noframes></option></fieldset><xmp id="skaak"><button id="skaak"><strong id="skaak"></strong></button></xmp><source id="skaak"></source><em id="skaak"><strike id="skaak"><kbd id="skaak"></kbd></strike></em><dd id="skaak"></dd><center id="skaak"><tr id="skaak"><nav id="skaak"></nav></tr></center><center id="skaak"></center><abbr id="skaak"></abbr><option id="skaak"></option><object id="skaak"></object><tr id="skaak"></tr><small id="skaak"><rt id="skaak"><acronym id="skaak"></acronym></rt></small><nav id="skaak"></nav><s id="skaak"><center id="skaak"><noscript id="skaak"></noscript></center></s><center id="skaak"></center><option id="skaak"></option><kbd id="skaak"></kbd><tfoot id="skaak"></tfoot><s id="skaak"><dfn id="skaak"><option id="skaak"></option></dfn></s><tr id="skaak"></tr><noframes id="skaak"></noframes><blockquote id="skaak"><li id="skaak"><tbody id="skaak"></tbody></li></blockquote><samp id="skaak"></samp><bdo id="skaak"></bdo><dd id="skaak"></dd><center id="skaak"></center><td id="skaak"></td><strike id="skaak"></strike><td id="skaak"><center id="skaak"><noscript id="skaak"></noscript></center></td><samp id="skaak"><strong id="skaak"><fieldset id="skaak"></fieldset></strong></samp><pre id="skaak"></pre><code id="skaak"></code><dfn id="skaak"></dfn><sup id="skaak"></sup><rt id="skaak"></rt><menu id="skaak"></menu><object id="skaak"></object><samp id="skaak"></samp><acronym id="skaak"></acronym><fieldset id="skaak"><option id="skaak"><small id="skaak"></small></option></fieldset><center id="skaak"></center><noframes id="skaak"><code id="skaak"><xmp id="skaak"></xmp></code></noframes><pre id="skaak"><small id="skaak"><rt id="skaak"></rt></small></pre><optgroup id="skaak"></optgroup><ul id="skaak"><li id="skaak"><source id="skaak"></source></li></ul><bdo id="skaak"></bdo><table id="skaak"></table><td id="skaak"></td><li id="skaak"><em id="skaak"><dfn id="skaak"></dfn></em></li><small id="skaak"></small><tr id="skaak"></tr><center id="skaak"><pre id="skaak"><tfoot id="skaak"></tfoot></pre></center><del id="skaak"></del><abbr id="skaak"></abbr><noscript id="skaak"></noscript><fieldset id="skaak"><center id="skaak"><small id="skaak"></small></center></fieldset><s id="skaak"></s><nav id="skaak"><dfn id="skaak"><kbd id="skaak"></kbd></dfn></nav><dd id="skaak"></dd><center id="skaak"><pre id="skaak"><rt id="skaak"></rt></pre></center><noscript id="skaak"></noscript><strike id="skaak"><samp id="skaak"><noscript id="skaak"></noscript></samp></strike><acronym id="skaak"></acronym><strike id="skaak"><kbd id="skaak"><optgroup id="skaak"></optgroup></kbd></strike><wbr id="skaak"></wbr><noframes id="skaak"></noframes><bdo id="skaak"></bdo><small id="skaak"></small><tr id="skaak"><sup id="skaak"><input id="skaak"></input></sup></tr><strike id="skaak"></strike><pre id="skaak"></pre><noscript id="skaak"><object id="skaak"><ul id="skaak"></ul></object></noscript><small id="skaak"></small><fieldset id="skaak"></fieldset><dd id="skaak"><pre id="skaak"><rt id="skaak"></rt></pre></dd><optgroup id="skaak"><tfoot id="skaak"><delect id="skaak"></delect></tfoot></optgroup><source id="skaak"></source><pre id="skaak"><rt id="skaak"><pre id="skaak"></pre></rt></pre><tbody id="skaak"></tbody><tbody id="skaak"></tbody><table id="skaak"><input id="skaak"><del id="skaak"></del></input></table><noscript id="skaak"></noscript><option id="skaak"></option><samp id="skaak"></samp><nav id="skaak"></nav><bdo id="skaak"></bdo><em id="skaak"></em><abbr id="skaak"><code id="skaak"><wbr id="skaak"></wbr></code></abbr><menu id="skaak"><tfoot id="skaak"><noframes id="skaak"></noframes></tfoot></menu><td id="skaak"></td><tr id="skaak"><ul id="skaak"><input id="skaak"></input></ul></tr><abbr id="skaak"></abbr><nav id="skaak"></nav><cite id="skaak"></cite><samp id="skaak"></samp><noframes id="skaak"></noframes></div> </html> <script src="https://www.wanmait.com/online/wmonline.js?site=2"></script> <script src="/static/js/jquery-1.11.0.min.js"></script> <script src="/static/js/jquery-ui-1.10.4.custom.min.js"></script> <script type="text/javascript"> $(document).ready(function(){ if($("#fixedmenu")&&$("#themenu")&&$("#themenu").offset()){ $(window).scroll( function() { var wtop = $(window).scrollTop(); var wleft = $(window).scrollLeft(); if(wleft>0){ $("#fixedmenu").css("display","none"); return; } if($("#fixedmenu").html()==""){ $("#fixedmenu").html($("#themenu").html()); $("#fixedmenu").css("top","0"); } if(wtop<$("#themenu").offset().top){ $("#fixedmenu").css("display","none"); } if($("#fixedmenu").outerHeight()>$(".content2colsright").offset().top+$(".content2colsright").outerHeight()-wtop){ //$("#fixedmenu").css("display","none"); $("#fixedmenu").css("top",-($("#fixedmenu").outerHeight()-($(".content2colsright").offset().top+$(".content2colsright").outerHeight()-wtop))+"px"); //$("#fixedmenu").css("left",$("#themenu").offset().left-wleft+"px"); } else if(wtop>$("#themenu").offset().top&&$("#fixedmenu").css("display")!="block"){ $("#fixedmenu").css("display","block"); $("#fixedmenu").css("top","0"); } else{ $("#fixedmenu").css("top","0"); } } ); } }); </script>

分類(lèi)導(dǎo)航

爬蟲(chóng)入門(mén)系列（一）：快速理解HTTP協(xié)議

HTTP協(xié)議是什么？

HTTP協(xié)議是什么？