概率定义:
概率定义为一件事情发生的可能性,例如,随机抛硬币,正面朝上的概率。
联合概率:
包含多个条件,且所有条件同时成立的概率,记作:𝑃(𝐴,𝐵) 。
Volvo Penta Ford V8 5.0 5.8 Exhaust Manifold And Riser 38347 Starboad. From United States. New Listing Ford 302 5.0 5.8 351w accessory bracket ac compressor Power Steering. Top Rated Seller Top Rated Seller. From United States. Chess-Results.com is a powerful and dedicated server only for chess-results. The tournament archive of chess-results.com contains more than 40.000 tournaments from around the world.
条件概率:
事件A在另外一个事件B已经发生条件下的发生概率,记作:𝑃(𝐴|𝐵) 。P(A1,A2|B) = P(A1|B)P(A2|B),需要注意的是:此条件概率的成立,是由于A1,A2相互独立的结果。
公式:
其中,w为给定文档的特征值(频数统计,预测文档提供),c为文档类别。
Mlt 0.5.8 For Mac Catalina
公式可以理解为:
Mlt 0.5.8 For Macbook Air
其中c可以是不同类别。
公式分为三个部分:
𝑃(𝐶):每个文档类别的概率(某文档类别词数/总文档词数)
𝑃(𝑊│𝐶):给定类别下特征(被预测文档中出现的词)的概率
计算方法:𝑃(𝐹1│𝐶)=𝑁𝑖/𝑁 (训练文档中去计算)
𝑁𝑖为该𝐹1词在C类别所有文档中出现的次数
N为所属类别C下的文档所有词出现的次数和
𝑃(𝐹1,𝐹2,…): 预测文档中每个词的概率
举个栗子:
现有一篇被预测文档:出现了都江宴,武汉,武松,计算属于历史,地理的类别概率?
历史:𝑃(都江宴,武汉,武松│历史)∗P(历史)=(10/108)∗(22/108)∗(65/108)∗(108/235) =0.00563435
地理:𝑃(都江宴,武汉,武松│地理)∗P(地理)=(58/127)∗(17/127)∗(0/127)∗(127/235)=0
拉普拉斯平滑:
思考:属于某个类别为0,合适吗?
从上面的例子我们得到地理概率为0,这是不合理的,如果词频列表里面有很多出现次数都为0,很可能计算结果都为零。
解决方法:拉普拉斯平滑系数。
𝛼为指定的系数一般为1,m为训练文档中统计出的特征词个数
Mlt 0.5.8 For Mac Computers
sklearn朴素贝叶斯实现API:
案例:新闻分类
优点:
- 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
- 对缺失数据不太敏感,算法也比较简单,常用于文本分类。
- 分类准确度高,速度快
缺点:
Mlt 0.5.8 For Mac High Sierra
- 需要知道先验概率P(F1,F2,…|C),因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。