业界动态
外贸网站建设广告/百度下载电脑版
2024-12-21 13:23

我开始使用 sklearn.naive_bayes.GaussianNB 进行文本分类,并且获得了很好的初始结果 . 我想使用分类器返回的概率作为置信度的度量,但是 predict_proba() 方法总是返回所选类的"1.0",并且所有其余类都返回"0.0" .

我知道(来自here)"...the probability outputs from predict_proba are not to be taken too seriously",但到了那个程度!分类器可能会误认为金融投资或和弦,但 predict_proba() 输出显示没有犹豫的迹象......

关于上下文

我一直在使用 sklearn.feature_extraction.text.TfidfVectorizer 进行特征提取,开始时没有用 stop_words 或 min/max_df 来限制词汇量 - >我已经得到了非常大的向量 .

我一直在分层类别树上训练分类器(浅层:深度不超过3层),每个类别有7个文本(手动分类) . 现在,这是 flat 训练:我没有考虑到等级 .

产生的 GaussianNB 对象非常大(~300MB),预测相当慢:一个文本大约1秒 .

这有关系吗?这些巨大的载体是这一切的根源吗

我如何获得有意义的预测?我需要使用不同的分类器吗

这是我正在使用的代码

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import GaussianNB

import numpy as np

from sklearn.externals import joblib

Vectorizer = TfidfVectorizer(input = 'content')

vecs = Vectorizer.fit_transform(TextsList) # ~2000 strings

joblib.dump(Vectorizer, 'Vectorizer.pkl')

gnb = GaussianNB()

Y = np.array(TargetList) # ~2000 categories

gnb.fit(vecs.toarray(), Y)

joblib.dump(gnb, 'Classifier.pkl')

...

#In a different function:

Vectorizer = joblib.load('Vectorizer.pkl')

Classifier = joblib.load('Classifier.pkl')

InputList = [Text] # One string

Vec = Vectorizer.transform(InputList)

Probs = Classifier.predict_proba([Vec.toarray()[0]])[0]

MaxProb = max(Probs)

MaxProbIndex = np.where(Probs==MaxProb)[0][0]

Category = Classifier.classes_[MaxProbIndex]

result = (Category, MaxProb)

Update:

按照下面的建议,我尝试了 MultinomialNB & LogisticRegression . 它们都返回了不同的概率,并且在任何方面对我的任务都更好:分类更准确,内存中的对象更小,速度更快( MultinomialNB 闪电般快!) .

    以上就是本篇文章【外贸网站建设广告/百度下载电脑版】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/4609.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
【tr1.4】泰拉瑞亚最详尽的钓鱼攻略1.4版 金鱼杆不是梦!泰拉瑞亚手机合成表「【tr1.4】泰拉瑞亚最详尽的钓鱼攻略1.4版 金鱼杆不是梦!」
(前排提醒 本文内容来自泰拉瑞亚wiki 如有错误 欢迎指出)hello大家好,我是赛奇好久不见,不知道多久没写专栏了 之前一直说的
『轻小说分享』带着智慧型手机闯荡异世界智慧型手机「『轻小说分享』带着智慧型手机闯荡异世界」
『轻小说』带着智慧型手机闯荡异世界 第二季动画来袭!剧情简介       手拿智慧型手机,在异世界展开的温馨冒险故事!  因
各大媒体优劣对比_手机屏幕防忽悠指南:LCD与OLED屏幕优劣势分析手机媒体「各大媒体优劣对比_手机屏幕防忽悠指南:LCD与OLED屏幕优劣势分析」
“买手机当然要买带OLED屏幕的手机,显示清楚、颜色好看。LCD屏幕早已是淘汰技术,没必要买。”如果你常去线下门店
B&O铂傲旗舰头戴降噪耳机Beoplay H100开售,全新模块化设计模块化手机「B&O铂傲旗舰头戴降噪耳机Beoplay H100开售,全新模块化设计」
9月3日,我爱音频网获悉,来自丹麦的世界知名视听品牌BO铂傲,其全新旗舰款头戴式耳机Beoplay H100正式上市。BO铂傲Beoplay H100
Scratch for Windowsscratch手机版下载「Scratch for Windows」
MIT Scratch is a free application designed to help kids learn basic concepts of programming using visual tools. Designed
模块化手机!HMD推出配件可随心定制的手机模块手机「模块化手机!HMD推出配件可随心定制的手机」
朋友们,你是否曾想过拥有一部完全按照自己需求定制的手机?一部可以随意更换配件,适应各种使用场景的设备?今天,我要和你分享
促消费!开封有大动作!
一、延期“开封有礼 惠享全城”消费券促消费活动开封市于2025年3月份在全市范围内围绕零售、餐饮领域共投放了144000张消费券,为
洪璟:“山中腊梅”曹诚英
1902年,农历正月二十六,年刚刚过完,古徽州绩溪县(今属安徽宣城)一个叫作旺川的小村落,年的喜庆还未完全散净,村中富贾曹耆