全球要闻:盘点一个Python网络爬虫+正则表达式处理案例
回复“书籍”即可获赠Python从入门到进阶共10本电子书
【资料图】
今
日
鸡
汤
长江一帆远,落日五湖春。大家好,我是Python进阶者。
一、前言前几天在Python白银交流群【鑫】问了一个Python网络爬虫的问题,提问截图如下:
下面是他的代码:
importrequestsimportreurl="https://movie.douban.com/top250"headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/105.0.0.0Safari/537.36"}resp=requests.get(url,headers=headers)resp.encoding="utf-8"pageSource=resp.textprint(pageSource)#re.S可以让正则的。匹配换行符obj=re.compile(r"二、实现过程.*?(?P .*?).*? .*?导演:(?P .*?)
"r"(?P.*?) ",re.S)result=obj.finditer(pageSource)foriteminresult:print(item.group("name"))print(item.group("dao"))print(item.group("year"))
这里【瑜亮老师】指出问题,如下所示:
事实上还是那个正则表达式写的有问题。
跟着视频来敲,有时候视频太老了,或者对应的网页结构改版了,导致原有的代码并不能够适配,导致出错。
修改之后可以得到正确的结果了。
三、总结大家好,我是Python进阶者。这篇文章主要盘点了一个Python网络爬虫+正则表达式处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。
最后感谢粉丝【鑫】提问,感谢【瑜亮老师】给出的思路和代码解析,感谢【dcpeng】、【ᯤ⁶ᴳ】等人参与学习交流。
大家在学习过程中如果有遇到问题,欢迎随时联系我解决(我的微信:pdcfighting),应粉丝要求,我创建了一些高质量的Python付费学习交流群,欢迎大家加入我的Python学习交流群!
小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。
-------------------End-------------------
往期精彩文章推荐:
盘点一个网络爬虫POST请求参数构造的问题
盘点一个Python基础中循环判断遇到一个小问题
重装pycharm和Python环境以后,以前的文件selenium获取不到元素了?
不使用内置函数的情况下,如何使用Python实现求平均值、最大值和最小值?
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行
/今日留言主题/
随便说一两句吧~~
相关阅读
-
世界热推荐:今晚7:00直播丨下一个突破...
今晚19:00,Cocos视频号直播马上点击【预约】啦↓↓↓在运营了三年... -
NFT周刊|Magic Eden宣布支持Polygon网...
Block-986在NFT这样的市场,每周都会有相当多项目起起伏伏。在过去... -
环球今亮点!头条观察 | DeFi的兴衰与...
在比特币得到机构关注之后,许多财务专家预测世界将因为加密货币的... -
重新审视合作,体育Crypto的可靠关系才能双赢
Block-987即使在体育Crypto领域,人们的目光仍然集中在FTX上。随着... -
简讯:前端单元测试,更进一步
前端测试@2022如果从2014年Jest的第一个版本发布开始计算,前端开发... -
焦点热讯:刘强东这波操作秀
近日,刘强东发布京东全员信,信中提到:自2023年1月1日起,逐步为...