P(A∩B)=P(A)*P(B
A)=P(B)*P(A
B)所以有:P(A
B)=P(B
A)*P(A)/P(B)
对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个 ,就认为此待分类项属于哪个类别
工作原理假设现在有样本x=(a1,a,a,…an)这个待分类项(并认为x里面的特征独立)
再假设现在有分类目标Y={y1,y,y,y..yn}
那么max(P(y1
x),P(y
x),P(y
x)..P(yn
x))中的 者就是最终的分类类别
而P(yi
x)=p(x
yi)*P(yi)/P(x)
因为x对于每个分类目标来说都一样,所以就是求max(P(x
yi)*p(yi))
P(x
yi)*p(yi)=p(yi)*PI(P(ai
yi))(PI表示连乘)
而具体的p(ai
yi)和p(yi)都是能从训练样本中统计出来p(ai
yi)表示该类别下该特征出现的概率p(yi)表示全部类别中这个这个类别出现的概率
好的,就是这么工作的^_^
工作流程准备阶段确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本。
训练阶段计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计
应用阶段使用分类器进行分类,输入是分类器和待分类样本,输出是样本属于的分类类别
属性特征特征为离散值时直接统计即可(表示统计概率)
特征为连续值的时候假定特征符合高斯分布:g(x,n,u)那么p(ak
yi)=g(xk,ni,ui)
Laplac校准(拉普拉斯校验)当某个类别下某个特征划分没有出现时,会有P(a
y)=0,就是导致分类器质量降低,所以此时引入Laplac校验,就是对没类别下所有划分的计数加1。
遇到特征之间不独立问题参考改进的贝叶斯网络,使用DAG来进行概率图的描述优缺点朴素贝叶斯的优点:
对小规模的数据表现很好,适合多分类任务,适合增量式训练。缺点:
对输入数据的表达形式很敏感(离散、连续,值极大极小之类的)。