python爬取准备一了解HTML

网页源码

创新互联主要从事成都做网站、网站建设、外贸营销网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务新宁,10余年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:13518219792

打开网页，按快捷键【Ctrl+U】打开源码页面
python爬取准备一了解HTML

HTML
HTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的

常见的标签如下：

.. 表示标记中间的元素是网页
.. 表示用户可见的内容
.. 表示框架
.. 表示段落
..表示列表
..表示图片
..表示标题
..表示超链接

HTML
html示例
本地超链接可以为相对路径，也可以为绝对路径。
图片的地址可以为相对路径，也可以为绝对路径。

    
    
          这是HTML测试页面的主题
    
    
             
              这是标题   
              这是正文   
           
              
                   
                  这是一个列表       
                  这是一个网络超链接
                  这是一个本地超链接      
                  下面这个是一张图片

输入代码后，保存记事本，然后修改文件名和后缀名为"HTML.html"，效果如下：

python爬取准备一了解HTML

爬虫的合法性

每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

python爬取准备一了解HTML

允许部分爬虫访问它的部分路径，而对于没有得到允许的，则全部禁止爬取

本文题目：python爬取准备一了解HTML
标题路径：http://azwzsj.com/article/gojsjj.html

python爬取准备一了解HTML

..

这是标题

其他资讯