Python使用正则表达式获取网页中所需要的信息
使用正则表达式的几个步骤:
1、用import re 导入正则表达式模块;
2、用re.compile()函数创建一个Regex对象;
3、用Regex对象的search()或findall()方法,传入想要查找的字符串,返回一个Match对象;
4、调用Match对象的group()方法,返回匹配到的字符串。
在交互式环境中简单尝试一下,查询字符串中的固话:
import re
text = '小明家的固话是0755-123456,而小丽家的固话时0789-654321,小王家的电话是123456789'#用于检测的字符串
ph_re = re.compile(r'\d{4}?-\d+') #创建Regex对象,匹配几种电话的方式,\d表示0-9的数字,{4}表示前面的匹配4次,?表示可选,+表示出现1次或多次。
matchs1 = ph_re.findall(text) #findall()表示查找所有匹配项,返回一个字符串
matchs2 = ph_re.search(text)#search(),查找第一次匹配的文本,返回一个对象。
print(matchs1)
print(matchs2)
matchs2.group()
返回的结果,是这样的:
findall()方法返回的是一个字符串,可以直接打印出来。而search()方法返回的是一个对象,所以打印出来的是是如图的第二行。
调用group(),对象返回匹配的结果。
最后,小王的电话之所以没有匹配到,是因为'-'没有进行可选即在其后加上‘?'。
下面进行一个小的实验,获取某个网页中所有的http/https网址,并计算有多少个。
首先是获取HTML文件。这里要用到requests模块。
# -*- coding: utf-8 -*-
import requests
import re
def get_html(url):
res = requests.get(url)
res.encoding = 'utf-8'
html = res.text
return html
这里get_html函数返回的,其实就类似上面例子中的text,用来匹配的文本。
然后,创建正则表达式:
def get_addr(response):
addr_regex = re.compile(r'''(
(http://|https://)? #http/https
(www)?
(\.[a-z1-9A-Z]+)
(\.com|\.cn)
)''',re.VERBOSE)#匹配网址,
matchs = []
for groups in addr_regex.findall(response):
matchs.append(groups[0])
if len(matchs) == 0:
print('没有网址')
return matchs
这里向re.compile(),传入变量re.VERBOSE,作为第二个参数,可以将正则表达式放在多行,并进行注释,如上。
返回一个matchs列表对象。
再来个启动函数。
def start():
url = 'http://news.163.com/18/0127/18/D966K4CO0001899N.html'
a = get_html(url)
b = get_addr(a)
print('\n'.join(b))
print(str(len(b)))
print('ok')
if __name__ == '__main__':
start()
这里传入的url是我随意找的一个新闻链接。
然后调用get_html()和get_addr(),就得到了想要的东西。str(len(b)),为统计的数量。
测试的结果是类似这样的:
这里似乎获取一些URL,没什么卵用。。。但是,如果结合前面的查询新闻列表的方式,获取批量url,
而创建的正则是xxx.jpg,然后调用os模块,os.mkdir(folder)、os.chdir(folder),将获取到的匹配结果写入文件,放入某个文件夹。
那么就可以实现,从某些网站上批量获取jpg图片,然后存入某个文件夹的爬虫功能。实测,可行!
总结
以上所述是小编给大家介绍的Python使用正则获取网页中所需要的信息,希望对大家有所帮助
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14