快资讯:cntext库 | 关于DUTIR被污染解决办法
实在抱歉,大邓的粗心导致词典DUTIR被污染。大家如果使用cntext中的DUTIR,麻烦更新至1.7.2版本。
Bug在这里importcntextasctprint(ct.__version__)dutir=ct.load_pkl_dict("DUTIR.pkl")forkeyindutir["DUTIR"].keys():if"开心"indutir["DUTIR"][key]:print("「开心」出现在情绪【{}】词表中".format(key))
Run
(资料图)
1.7.1「开心」出现在情绪【乐】词表中「开心」出现在情绪【恶】词表中
词语"开心"同时出现在情绪【乐】和【恶】
DUTIR词典在网上找到大连理工大学情感本体文献、词典xlsx文件。
制作方法,把 21 种小情绪汇总到喜怒哀乐等七大类情绪中。词典被污染,很可能是我汇总过程中出的问题。
importpandasaspddf=pd.read_excel("大连理工大学中文情感词汇本体.xlsx")df.head()
词语 | 词性种类 | 词义数 | 词义序号 | 情感分类 | 强度 | 极性 | 辅助情感分类 | 强度.1 | 极性.1 | Unnamed: 10 | Unnamed: 11 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 脏乱 | adj | 1.0 | 1.0 | NN | 7 | 2 | NaN | NaN | NaN | NaN | NaN |
1 | 糟报 | adj | 1.0 | 1.0 | NN | 5 | 2 | NaN | NaN | NaN | NaN | NaN |
2 | 早衰 | adj | 1.0 | 1.0 | NE | 5 | 2 | NaN | NaN | NaN | NaN | NaN |
3 | 责备 | verb | 1.0 | 1.0 | NN | 5 | 2 | NaN | NaN | NaN | NaN | NaN |
4 | 贼眼 | noun | 1.0 | 1.0 | NN | 5 | 2 | NaN | NaN | NaN | NaN | NaN |
#乐le_cates=["PA","PE"]#好hao_cates=["PD","PH","PG","PB","PK"]#怒nu_cates=["NA"]#哀ai_cates=["NB","NJ","NH","PF"]#惧ju_cates=["NI","NC","NG"]#恶wu_cates=["NE","ND","NN","NK","NL"]#惊jing_cates=["PC"]defemotion(cates):dfs=[]forcateincates:sdf=df[df["情感分类"]==cate]dfs.append(sdf)res_df=pd.concat(dfs,axis=0)returnres_df["词语"].tolist()#情绪【乐】的词语有:le_words=emotion(cates=le_cates)print(le_words[:10])
Run
["瑞雪","神采","喜人","怡悦","进益","奏凯","鸾凤和鸣","特等","欢快","如意"]制作DUTIR.pkl
将DUTIR介绍、文献出处、对应的词典汇总到字典,并制作生成DUTIR.pkl文件
dutir=dict()dutir["乐"]=senti(cates=ju_cates)dutir["好"]=senti(cates=hao_cates)dutir["怒"]=senti(cates=nu_cates)dutir["哀"]=senti(cates=ai_cates)dutir["惧"]=senti(cates=ju_cates)dutir["恶"]=senti(cates=e_cates)dutir["惊"]=senti(cates=jing_cates)data={"DUTIR":dutir,"Desc":"大连理工大学情感本体库,细粒度情感词典。含七大类情绪,依次是哀, 好, 惊, 惧, 乐, 怒, 恶","Referer":"徐琳宏,林鸿飞,潘宇,等.情感词汇本体的构造[J].情报学报,2008,27(2):180-185."}importpicklewithopen("DUTIR.pkl","wb")asf:pickle.dump(data,f)更新cntext
解决DUTIR词典问题, 需更新至1.7.2版本。
pip3 install cntext==1.7.2
现在我们检查下刚刚的问题
importcntextasctprint(ct.__version__)dutir=ct.load_pkl_dict("DUTIR.pkl")forkeyindutir["DUTIR"].keys():if"开心"indutir["DUTIR"][key]:print("「开心」只出现在情绪【{}】词表中".format(key))
Run
1.7.2「开心」只出现在情绪【恶】词表中资料下载
本文资料存到了我的博客内,需要的同学请前往
https://hidadeng.github.io/blog/fixed_dutir_bug/
精选文章长期征稿
长期招募小伙伴
扩增内置pkl | 欢迎各位向cntext库分享情感词典
从符号到嵌入:计算社会科学的两种文本表示
推荐 | 社科(经管)文本分析快速指南
使用cntext训练Glove词嵌入模型
认知的测量 | 向量距离vs语义投影
karateclub库 | 计算社交网络中节点的向量
视频专栏课 | Python网络爬虫与文本分析
文本分析 | 中国企业高管团队创新注意力(含代码)
LIWC vs Python | 文本分析之词典统计法略讲(含代码)
PNAS | 文本网络分析&文化桥梁Python代码实现
BERTopic库 | 使用预训练模型做话题建模
tomotopy | 速度最快的LDA主题模型
文本分析方法在《管理世界》(2021.5)中的应用
100min视频 | Python文本分析与会计
相关阅读
-
世界热推荐:今晚7:00直播丨下一个突破...
今晚19:00,Cocos视频号直播马上点击【预约】啦↓↓↓在运营了三年... -
NFT周刊|Magic Eden宣布支持Polygon网...
Block-986在NFT这样的市场,每周都会有相当多项目起起伏伏。在过去... -
环球今亮点!头条观察 | DeFi的兴衰与...
在比特币得到机构关注之后,许多财务专家预测世界将因为加密货币的... -
重新审视合作,体育Crypto的可靠关系才能双赢
Block-987即使在体育Crypto领域,人们的目光仍然集中在FTX上。随着... -
简讯:前端单元测试,更进一步
前端测试@2022如果从2014年Jest的第一个版本发布开始计算,前端开发... -
焦点热讯:刘强东这波操作秀
近日,刘强东发布京东全员信,信中提到:自2023年1月1日起,逐步为...