业界动态
外贸网站建设广告/百度下载电脑版
2024-12-21 13:23

我开始使用 sklearn.naive_bayes.GaussianNB 进行文本分类,并且获得了很好的初始结果 . 我想使用分类器返回的概率作为置信度的度量,但是 predict_proba() 方法总是返回所选类的"1.0",并且所有其余类都返回"0.0" .

我知道(来自here)"...the probability outputs from predict_proba are not to be taken too seriously",但到了那个程度!分类器可能会误认为金融投资或和弦,但 predict_proba() 输出显示没有犹豫的迹象......

关于上下文

我一直在使用 sklearn.feature_extraction.text.TfidfVectorizer 进行特征提取,开始时没有用 stop_words 或 min/max_df 来限制词汇量 - >我已经得到了非常大的向量 .

我一直在分层类别树上训练分类器(浅层:深度不超过3层),每个类别有7个文本(手动分类) . 现在,这是 flat 训练:我没有考虑到等级 .

产生的 GaussianNB 对象非常大(~300MB),预测相当慢:一个文本大约1秒 .

这有关系吗?这些巨大的载体是这一切的根源吗

我如何获得有意义的预测?我需要使用不同的分类器吗

这是我正在使用的代码

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import GaussianNB

import numpy as np

from sklearn.externals import joblib

Vectorizer = TfidfVectorizer(input = 'content')

vecs = Vectorizer.fit_transform(TextsList) # ~2000 strings

joblib.dump(Vectorizer, 'Vectorizer.pkl')

gnb = GaussianNB()

Y = np.array(TargetList) # ~2000 categories

gnb.fit(vecs.toarray(), Y)

joblib.dump(gnb, 'Classifier.pkl')

...

#In a different function:

Vectorizer = joblib.load('Vectorizer.pkl')

Classifier = joblib.load('Classifier.pkl')

InputList = [Text] # One string

Vec = Vectorizer.transform(InputList)

Probs = Classifier.predict_proba([Vec.toarray()[0]])[0]

MaxProb = max(Probs)

MaxProbIndex = np.where(Probs==MaxProb)[0][0]

Category = Classifier.classes_[MaxProbIndex]

result = (Category, MaxProb)

Update:

按照下面的建议,我尝试了 MultinomialNB & LogisticRegression . 它们都返回了不同的概率,并且在任何方面对我的任务都更好:分类更准确,内存中的对象更小,速度更快( MultinomialNB 闪电般快!) .

    以上就是本篇文章【外贸网站建设广告/百度下载电脑版】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/4609.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
明确0到2级辅助驾驶系统 “人机共驾”法律属性
公安部交通管理局局长王强7月23日在国新办举行的“高质量完成‘十四五’规划”系列主题新闻发布会上表示,为进一步加强规范管理
iPhone 17系列价格曝光:仅一款不涨价 Pro版更具性价比
【TechWeb】近段时间以来,全新iPhone 17系列尤为吸引外界的目光,而根据供应链最新爆料,iPhone 17系列距离亮相仅剩差不多一个
管庄回收茅台酒!管庄茅台酒回收!
137=1888=0048 回收茅台礼盒15年 30年 50年 80年茅台礼盒回收洋酒系列 回收路易十三,轩尼诗,拉菲,拉图,马爹利,人头马
北京到陶乐物流专线价格,货到付款
长胜物流24 小时服/务热线:||长途搬家|家电托运|电脑托运|液晶电视托运|冰箱托运|洗衣机托运|行李托运|电动车托运|摩托车托运|
解读Solana最新技术路线图:锚定“互联网资本市场”,打造链上华尔街
昨天 Solana 宣布了新的路线图。本质上,由于各链改进都已进入深水区,导致确实有些名词堆砌的情况,我试着用大家可以理解的方式
国泰海通发布新一代全AI智能APP灵犀
央广网北京7月26日消息(记者樊瑞)当前,人工智能技术正加速重构证券行业服务业态,加快发展新一代人工智能是推动证券行业高质
新加坡地道特色平价美食,好吃不踩雷
新加坡太多美食了~亚坤-咖椰吐司$5左右,这是我在新加坡吃的第一顿早餐。不知道好不好吃,但看着一大早就好多人排队,那就没错
上海UPS蓄电池回收
上海UPS回收,UPS电源回收,UPS电池回收:上海APC不间断电源回收,UPS主机回收,机房设备回收,回收UPS设备,UPS蓄电池回收,UPS
云边端协同:虚拟电厂的“神经网”革命
上海某高校586台空调在50秒内无感降负300kW,精度96.57%;重庆虚拟电厂调度17MW可调资源,延迟压缩至100ms级——这组数据的背后
高金食品与远方好物达成战略合作,让高品质“真黑猪”走进千家万户的餐桌
中国黑猪看四川,四川黑猪看高金。高金食品正用“真黑猪”,破局本土黑猪市场占有率困境,开创中国黑猪产业新篇章。7月23日,在