盘点一个英文文本中统计关键词的方法
回复“资源”即可获赠Python学习资料
今
日
【资料图】
鸡
汤
冉冉几盈虚,澄澄变今古。大家好,我是皮皮。
一、前言前几天在Python最强王者交流群【Wendy Zheng】问了一个英文文本中统计关键词的问题,这里拿出来给大家分享下。
二、实现过程针对这个问题,本文给出一个思路方法,也许有帮助,首先我们需要将Excel中的文本进行导入到一个文本文件中去,代码如下:
#coding:utf-8importpandasaspddf=pd.read_excel("./文本.xlsx")#print(df.head())#df["专业关键词"]fortextindf["工作要求"]:#print(text)iftextisnotNone:withopen("工作要求.txt",mode="a",encoding="utf-8")asfile:file.write(str(text))print("写入完成")
接下来就可以针对这个文本文件进行相关的词频统计了,如果你有自己自定义的关键词,也可以就着关键词去统计,没有的话,就自己在关键词范围内,任意取多少个关键词都可以,相关的代码如下所示:
fromcollectionsimportCounterimportpandasaspddf=pd.read_excel("./文本.xlsx")#print(df.head())words=[]withopen("工作要求.txt","r",encoding="utf-8")asf:line=f.readlines()forwordinline[0].split(""):words.append(word)print(len(words))counter=Counter(words)#print(counter)#df["专业关键词"]fortextindf["专业关键词"]:fork,vincounter.items():ifk==text:print(k,v)
这个代码对于英文文本还是适用的,不过有个小问题,如下。
最后这里也给出中文分词的代码和可视化代码,两者结合在一起的,感兴趣的小伙伴们可以试试看。
fromcollectionsimportCounter#统计词频frompyecharts.chartsimportBarfrompyechartsimportoptionsasoptsfromsnownlpimportSnowNLPimportjieba#分词withopen("text_分词后_outputs.txt","r",encoding="utf-8")asf:read=f.read()withopen("stop_word.txt","r",encoding="utf-8")asf:stop_word=f.read()word=jieba.cut(read)words=[]foriinlist(word):ifinotinstop_word:words.append(i)columns=[]data=[]fork,vindict(Counter(words).most_common(10)).items():columns.append(k)data.append(v)bar=(Bar().add_xaxis(columns).add_yaxis("词频",data).set_global_opts(title_opts=opts.TitleOpts(title="词频top10")))bar.render("词频.html")三、总结
大家好,我是皮皮。这篇文章主要盘点了一个英文文本中统计关键词方法处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。
最后感谢粉丝【Wendy Zheng】提问,感谢【Python进阶者】给出的思路和代码解析,感谢【Python狗】等人参与学习交流。
大家在学习过程中如果有遇到问题,欢迎随时联系我解决(我的微信:pdcfighting),应粉丝要求,我创建了一些高质量的Python付费学习交流群和付费接单群,欢迎大家加入我的Python学习交流群和接单群!
小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。
-------------------End-------------------
往期精彩文章推荐:
使用Pandas分组对另一列聚合怎么破?
盘点一个pandas两个数据横向拼接的问题
盘点一个Python列表append后的竟然结果案例
盘点一个使用Python批量处理文件时文件名对齐的问题
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行
/今日留言主题/
随便说一两句吧~~
相关阅读
-
世界热推荐:今晚7:00直播丨下一个突破...
今晚19:00,Cocos视频号直播马上点击【预约】啦↓↓↓在运营了三年... -
NFT周刊|Magic Eden宣布支持Polygon网...
Block-986在NFT这样的市场,每周都会有相当多项目起起伏伏。在过去... -
环球今亮点!头条观察 | DeFi的兴衰与...
在比特币得到机构关注之后,许多财务专家预测世界将因为加密货币的... -
重新审视合作,体育Crypto的可靠关系才能双赢
Block-987即使在体育Crypto领域,人们的目光仍然集中在FTX上。随着... -
简讯:前端单元测试,更进一步
前端测试@2022如果从2014年Jest的第一个版本发布开始计算,前端开发... -
焦点热讯:刘强东这波操作秀
近日,刘强东发布京东全员信,信中提到:自2023年1月1日起,逐步为...