业界动态
外贸网站建设广告/百度下载电脑版
2024-12-21 13:23

我开始使用 sklearn.naive_bayes.GaussianNB 进行文本分类,并且获得了很好的初始结果 . 我想使用分类器返回的概率作为置信度的度量,但是 predict_proba() 方法总是返回所选类的"1.0",并且所有其余类都返回"0.0" .

我知道(来自here)"...the probability outputs from predict_proba are not to be taken too seriously",但到了那个程度!分类器可能会误认为金融投资或和弦,但 predict_proba() 输出显示没有犹豫的迹象......

关于上下文

我一直在使用 sklearn.feature_extraction.text.TfidfVectorizer 进行特征提取,开始时没有用 stop_words 或 min/max_df 来限制词汇量 - >我已经得到了非常大的向量 .

我一直在分层类别树上训练分类器(浅层:深度不超过3层),每个类别有7个文本(手动分类) . 现在,这是 flat 训练:我没有考虑到等级 .

产生的 GaussianNB 对象非常大(~300MB),预测相当慢:一个文本大约1秒 .

这有关系吗?这些巨大的载体是这一切的根源吗

我如何获得有意义的预测?我需要使用不同的分类器吗

这是我正在使用的代码

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import GaussianNB

import numpy as np

from sklearn.externals import joblib

Vectorizer = TfidfVectorizer(input = 'content')

vecs = Vectorizer.fit_transform(TextsList) # ~2000 strings

joblib.dump(Vectorizer, 'Vectorizer.pkl')

gnb = GaussianNB()

Y = np.array(TargetList) # ~2000 categories

gnb.fit(vecs.toarray(), Y)

joblib.dump(gnb, 'Classifier.pkl')

...

#In a different function:

Vectorizer = joblib.load('Vectorizer.pkl')

Classifier = joblib.load('Classifier.pkl')

InputList = [Text] # One string

Vec = Vectorizer.transform(InputList)

Probs = Classifier.predict_proba([Vec.toarray()[0]])[0]

MaxProb = max(Probs)

MaxProbIndex = np.where(Probs==MaxProb)[0][0]

Category = Classifier.classes_[MaxProbIndex]

result = (Category, MaxProb)

Update:

按照下面的建议,我尝试了 MultinomialNB & LogisticRegression . 它们都返回了不同的概率,并且在任何方面对我的任务都更好:分类更准确,内存中的对象更小,速度更快( MultinomialNB 闪电般快!) .

    以上就是本篇文章【外贸网站建设广告/百度下载电脑版】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/4609.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
如何将苹果手机中的M4A音乐转换为MP3格式手机上把m4a转换为mp3「如何将苹果手机中的M4A音乐转换为MP3格式」
MP3是一个较为常见的音频文件格式。然而随着时间推移、技术发展,它渐渐不能满足iPhone用户高音质的需求了。所以苹果公司就研发
苹果云手机免费测试:哪个云手机既便宜好用又流畅且服务好性能佳?云手机价格「苹果云手机免费测试:哪个云手机既便宜好用又流畅且服务好性能佳?」
在当今数字化时代,云手机逐渐成为一种热门的新兴技术。无论是游戏玩家想要挂机升级,还是商务人士需要多开应用进行测试等,云手
华为运动健康计步器 v13.1.4.310 安卓版华为手机上的运动健康应用程序,可以自动计步,同步数据到微信运动!手机自动计步器「华为运动健康计步器 v13.1.4.310 安卓版华为手机上的运动健康
华为运动健康计步器是一款应用,可以帮助用户掌握自己的运动情况。它通过优化应用的稳定性,提升了使用体验。同时它还精心设计了
电子书大全手机电子书「电子书大全」
电子书大全是一款专门为喜欢阅读小说的朋友们打造的免费阅读平台类型的手机软件。这里会有超多海量优质资源用户可以进行阅读,所
如何用手机剪辑音乐制作手机铃声手机铃声制作「如何用手机剪辑音乐制作手机铃声」
如何用手机剪辑音乐制作手机铃声  一首歌里面可能存在我们特别喜欢的的一部分,想要把自己喜欢的部分设置为手机铃声。那么如何
小小优酷potplayer安卓手机版「小小优酷」
各种有趣的儿童早教资源就在《小小优酷》!这款软件不仅能为你提供海量优质儿童早教资源,还有丰富的学习方式等你来体验!感觉不
尤里复仇手机版单机红警复仇手机版「尤里复仇手机版单机」
尤里复仇手机版单机是一款玩法非常趣味的战争策略游戏,在这款游戏中玩家可以解锁非常丰富的战略,万佳安可以排兵布阵,招兵买马
高效工作的得力助手:vivo X Fold3系列性能与体验全面解析苹果最轻的手机「高效工作的得力助手:vivo X Fold3系列性能与体验全面解析」
全新的可折叠智能手机——vivo X Fold 3系列!它来啦!这个系列包括X Fold3和X Fold3 Pro两款机型,它们将搭载9项行业领先的技术
诗歌本安卓版优势:诗歌本手机版下载安装「诗歌本安卓版优势:」
诗歌本安卓版是一款专注于诗歌阅读和创作的应用程序。它包含了丰富的中外经典诗歌,用户可以随时随地浏览和欣赏这些经典名著。同
MP3转换助手手机上把m4a转换为mp3「MP3转换助手」
《MP3转换助手》这款应用不仅仅是一个音频处理工具,它更像是一个音频创作的伙伴。从快速转换音频格式到精细的剪辑和合并,每个