业界动态
外贸网站建设广告/百度下载电脑版
2024-12-21 13:23

我开始使用 sklearn.naive_bayes.GaussianNB 进行文本分类,并且获得了很好的初始结果 . 我想使用分类器返回的概率作为置信度的度量,但是 predict_proba() 方法总是返回所选类的"1.0",并且所有其余类都返回"0.0" .

我知道(来自here)"...the probability outputs from predict_proba are not to be taken too seriously",但到了那个程度!分类器可能会误认为金融投资或和弦,但 predict_proba() 输出显示没有犹豫的迹象......

关于上下文

我一直在使用 sklearn.feature_extraction.text.TfidfVectorizer 进行特征提取,开始时没有用 stop_words 或 min/max_df 来限制词汇量 - >我已经得到了非常大的向量 .

我一直在分层类别树上训练分类器(浅层:深度不超过3层),每个类别有7个文本(手动分类) . 现在,这是 flat 训练:我没有考虑到等级 .

产生的 GaussianNB 对象非常大(~300MB),预测相当慢:一个文本大约1秒 .

这有关系吗?这些巨大的载体是这一切的根源吗

我如何获得有意义的预测?我需要使用不同的分类器吗

这是我正在使用的代码

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import GaussianNB

import numpy as np

from sklearn.externals import joblib

Vectorizer = TfidfVectorizer(input = 'content')

vecs = Vectorizer.fit_transform(TextsList) # ~2000 strings

joblib.dump(Vectorizer, 'Vectorizer.pkl')

gnb = GaussianNB()

Y = np.array(TargetList) # ~2000 categories

gnb.fit(vecs.toarray(), Y)

joblib.dump(gnb, 'Classifier.pkl')

...

#In a different function:

Vectorizer = joblib.load('Vectorizer.pkl')

Classifier = joblib.load('Classifier.pkl')

InputList = [Text] # One string

Vec = Vectorizer.transform(InputList)

Probs = Classifier.predict_proba([Vec.toarray()[0]])[0]

MaxProb = max(Probs)

MaxProbIndex = np.where(Probs==MaxProb)[0][0]

Category = Classifier.classes_[MaxProbIndex]

result = (Category, MaxProb)

Update:

按照下面的建议,我尝试了 MultinomialNB & LogisticRegression . 它们都返回了不同的概率,并且在任何方面对我的任务都更好:分类更准确,内存中的对象更小,速度更快( MultinomialNB 闪电般快!) .

    以上就是本篇文章【外贸网站建设广告/百度下载电脑版】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/4609.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
《实战十一人》12月20日内测开启
t2627_2_2627_1:4.0t1-t0:45.0t2-t1:4.0t3-t2:0.0t4-t3:2.0t5-t4:32.0t6-t5:14.0t7-t6:3.0t8-t7:0.0t9-t8:15.0t10-t9:0.0t11-t10
“报关骗局”阿里云客服《APP》软件无法提现是骗局吗,不正规能追回吗?
〖→被骗请点击进入帮助平台提现追款〗〖→被骗请点击进入帮助平台提现追款〗希望阅读此文的读者能够及时采取措施以减少损失;请
微信公众号点击菜单拉取消息事件推送如何操作?
2、注册成功后,通过用户名和密码登录微号帮平台,立即登录6、粉丝点菜单定时推送:推送信息设置7、推送信息设置:自定义弹出信
p站加速器哪个好?手把手教你怎么进P站?
老司机说的P站是什么?网上很多人都在说P站,而还有不少小白们不懂P站是什么意思,在网上也搜不到答案。其实,P站是有两层意思的
"码海拾贝-趣探1688:免费源码的狂欢"
一瞥眼,成品网站源码1688免费推荐,嘿,这话题不就跟那菜市场里挑挑拣拣的大妈一样,热热闹闹,沸反盈天?今儿个,科技圈里这档
哪些平台最适合进行广告推广?
在当今数字化时代,推广广告已成为企业营销战略的重要组成部分,选择合适的平台进行广告投放对于提高品牌知名度、吸引潜在客户以
东莞外贸建站推广,东莞外贸网站推广,东莞谷歌SEO优化
  在当今全球化的市场环境下,外贸企业越来越依赖于互联网来拓展业务和提高度。为了在激烈的竞争中脱颖而出,提高外贸网站在搜
maya快捷键大全
MAYA快捷键大全免费领取q群:289728818“独学而无友,则孤陋而寡闻!欢迎广大站友进群交流学习Enter 完成当前操作  ~ 终止当前操
外贸网站建设广告/百度下载电脑版
我开始使用 sklearn.naive_bayes.GaussianNB 进行文本分类,并且获得了很好的初始结果 . 我想使用分类器返回的概率作为置
优化博客seo的建议(优化博客seo的建议有哪些)
大家好,今天小编关注到一个比较有意思的话题,就是关于优化博客seo的建议的问题,于是小编就整理了7个相关介绍优化博客seo的建