业界动态
外贸网站建设广告/百度下载电脑版
2024-12-21 13:23

我开始使用 sklearn.naive_bayes.GaussianNB 进行文本分类,并且获得了很好的初始结果 . 我想使用分类器返回的概率作为置信度的度量,但是 predict_proba() 方法总是返回所选类的"1.0",并且所有其余类都返回"0.0" .

我知道(来自here)"...the probability outputs from predict_proba are not to be taken too seriously",但到了那个程度!分类器可能会误认为金融投资或和弦,但 predict_proba() 输出显示没有犹豫的迹象......

关于上下文

我一直在使用 sklearn.feature_extraction.text.TfidfVectorizer 进行特征提取,开始时没有用 stop_words 或 min/max_df 来限制词汇量 - >我已经得到了非常大的向量 .

我一直在分层类别树上训练分类器(浅层:深度不超过3层),每个类别有7个文本(手动分类) . 现在,这是 flat 训练:我没有考虑到等级 .

产生的 GaussianNB 对象非常大(~300MB),预测相当慢:一个文本大约1秒 .

这有关系吗?这些巨大的载体是这一切的根源吗

我如何获得有意义的预测?我需要使用不同的分类器吗

这是我正在使用的代码

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import GaussianNB

import numpy as np

from sklearn.externals import joblib

Vectorizer = TfidfVectorizer(input = 'content')

vecs = Vectorizer.fit_transform(TextsList) # ~2000 strings

joblib.dump(Vectorizer, 'Vectorizer.pkl')

gnb = GaussianNB()

Y = np.array(TargetList) # ~2000 categories

gnb.fit(vecs.toarray(), Y)

joblib.dump(gnb, 'Classifier.pkl')

...

#In a different function:

Vectorizer = joblib.load('Vectorizer.pkl')

Classifier = joblib.load('Classifier.pkl')

InputList = [Text] # One string

Vec = Vectorizer.transform(InputList)

Probs = Classifier.predict_proba([Vec.toarray()[0]])[0]

MaxProb = max(Probs)

MaxProbIndex = np.where(Probs==MaxProb)[0][0]

Category = Classifier.classes_[MaxProbIndex]

result = (Category, MaxProb)

Update:

按照下面的建议,我尝试了 MultinomialNB & LogisticRegression . 它们都返回了不同的概率,并且在任何方面对我的任务都更好:分类更准确,内存中的对象更小,速度更快( MultinomialNB 闪电般快!) .

    以上就是本篇文章【外贸网站建设广告/百度下载电脑版】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/4609.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
走心!旅客手机追剧 空乘小姐姐送来手叠支架折纸手机「走心!旅客手机追剧 空乘小姐姐送来手叠支架」
“先生,拿着手机看剧多累呀,我给您折了一个手机支架,只要放上去就行了,还能调节角度,您看这样是不是就舒服多了。”日前,在
2024第三季度印度手机出货量公布:vivo登顶第一印度手机「2024第三季度印度手机出货量公布:vivo登顶第一」
10月31日消息,市场研究机构Counterpoint Research公布了印度智能手机市场最新数据:2024 年第3季度(7~9月)印度智能手机出货量
红米10x的开发者选项在哪里红米手机开发者选项在哪里「红米10x的开发者选项在哪里」
《天上的街市》主旨:诗人运用了想象的表现手法,把繁星满天的夜空,想象成是点着无数街灯的天上街市,把空中的流星想象为牛郎织
怎样设置苹果手机的自己定义闹钟铃声苹果手机怎么设置闹钟铃声「怎样设置苹果手机的自己定义闹钟铃声」
1、在当前的 iOS8 系统里,与以前的 iOS7 系统一样,都有一个控制中心,用于控制一些日常功能的打开或关闭。从屏幕向上滑动,即
时间都去哪儿了?日本人的时间至今仍在被那个看不见的魔鬼吞噬手机依赖「时间都去哪儿了?日本人的时间至今仍在被那个看不见的魔鬼吞噬」
在地铁上、餐厅里、马路上、电梯里,我们虽然性别不同、年龄不同、身份背景都不同、但是我们依然有一件事是相同的——正在看手机
荣耀手机投屏-荣耀手机怎么镜像投屏到电视手机镜像功能在哪「荣耀手机投屏-荣耀手机怎么镜像投屏到电视」
(图片来源网络,侵删)荣耀手机投屏到电视的步骤准备工作在开始之前,请确保你的荣耀手机和电视满足以下条件:1、荣耀手机支持M
oppo截图肿么截图啊oppo手机太卡怎么办「oppo截图肿么截图啊」
在智能手机上截图非常简单,大多数智能手机都提供了快捷键或者手势来完成截图。以下是几种截图的方法:1. 使用物理按键:不同手
跳出“一人一机”小世界——陆军第79集团军某旅几名带兵人分享引导战士正确使用手机的心得手机依赖「跳出“一人一机”小世界——陆军第79集团军某旅几名带兵人分享引导战士正确使用手机的心得」
原标题:跳出“一人一机”小世界——陆军第79集团军某旅几名带兵人分享引导战士正确使用手机的心得手机为我们的工作生活带来便利
正在阅读:手机怎么测噪音分贝手机怎么测噪音分贝手机怎么测噪音分贝「正在阅读:手机怎么测噪音分贝手机怎么测噪音分贝」
要用手机测试噪音分贝,可以使用专业的分贝噪音测试应用程序。以下是一些常见的步骤:1. 在手机应用商店中搜索并下载一个评价良
【原】在买墨水屏设备前,你需要被泼点冷水……墨水屏手机「【原】在买墨水屏设备前,你需要被泼点冷水……」
来源:雷科技数码3C组当然,国产墨水屏阅读器中,有大量设备产品力是力压Kindle的。比如,文石、掌阅等品牌的大屏阅读器,对PDF