python 爬虫中的正则表达式

正则表达式虽然不是python语言，但在python爬虫中却有着普遍的应用，可以说没有正则表达式的爬虫是一个没有灵魂的爬虫，话不多说，直接上干货！

成都创新互联公司专注于企业全网营销推广、网站重做改版、方山网站定制设计、自适应品牌网站建设、H5网站设计、电子商务商城网站建设、集团公司官网建设、外贸营销网站建设、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为方山等各大城市提供网站开发制作服务。

首先介绍一个验证正则表达式的在线平台：https://regex101.com/

　　高亮部分即为提取到的内容。

元字符
1. \d 匹配所有数字
2. \w 匹配所有数字、字母、下划线
3. \D 除了数字以外的内容
4. \W 除了数字、字母、下划线以外的内容
5. \S 匹配所有非空白
6. [a,b,c] 匹配a，b，c的内容
7. [^a,b,c] 匹配除了a，b，c的内容
8. \s 匹配空白
9. \b 匹配单个单词边界
量词
1. 元字符+ 元字符出现1次或多次（等同于{1, }）
2. 元字符* 前面的元字符出现0次或多次，尽可能多的拿到数据（等同于{0, }）
3. 元字符? 前面的元字符出现0次或一次
匹配字符
1. 数字 [0-9]
2. 小写字母 [a-z]
3. 大写字母 [A-Z]
4. 特殊字符 [\特殊字符]
^
1. 放在区间里表示取反
  1. [^0-9] 表示匹配非数字
  2. [^a-z] 表示匹配非小写字母
2. 放在区间外面表示匹配字符串开头（^python 表示以python开头的内容）

$ 匹配字符串结尾（python$ 表示以python结尾的单词）
？
1. 可以出现也可以不出现（colou?r 可以同时匹配color、colour）
2. 转换为非贪婪模式（\d{8,9}? 默认会匹配8和9位的数字，加上?后，只匹配8位的数字）
. 除了换行符以外的任意内容
{数字} 指定匹配次数（\d{9}指匹配9位数的数字）
{数字，数字} 指定匹配区间（\d{4, }指匹配4位以上的数字）

惰性匹配
1. .* 匹配最远的字符
2. .*? 匹配最近的字符（惰性匹配）
3. 字符串：今天晚上一起吃鸡呀（匹配：晚上.*?吃鸡）　　结果：晚上一起吃鸡
分组

加括号就可分组(提取号码：0731-的区号和正真的电话号码　　结果：\d{4}-\d{7})
eg：
holle

(.*?)
不加括号是提取不出来的
| 或则条件（.jpg|.gif|.jpeg|.png）表示匹配这几种后缀的图片格式
非捕获分组（?:表达式）

分组的回溯引用

提取标签中的文字提示ge1:破坏标签，将改为
结果：<(\w+)>(.*?) \1 就为了保证和第一个分组一致
eg2:编写代码匹配符合ab ba 结果：(\w)(\w)\2\1
环视/欲搜索

eg：在我喜欢你我喜欢我喜欢我喜欢喜欢你

正向先行断言（?=表达式）取出喜欢，喜欢的后面必须有”你“

反向先行断言喜欢(?!你) 即喜欢后面没有”你“

正向后行断言(?<=我)喜欢(?=你) 喜欢的前面右”我“，后面有”你“

反向后行断言(?

本文均自己整理，时间也比较赶，可能有的地方会存在问题，可以评论留言，看到了就会改。

标题名称：python 爬虫中的正则表达式
当前网址：http://azwzsj.com/article/dsojddh.html

其他资讯