大误 · 想吃个西瓜怎么这么难
图片:《西游记》
用贝叶斯方法挑西瓜
小红是小明正在追求的女神。今天,小明好不容易把小红约出来逛街,逛着逛着,女神小红说口渴了,两人来到西瓜摊前,这时,小红抿嘴一笑,突然想考察一下小明的知识水平,说道:“小明你不是做机器学习的码农吗?如果要你用机器学习挑西瓜,你会怎么做?”
小明会心一笑,这不是撞我枪口上吗?看我的蒂花之秀~
是机器学习挑西瓜的基本思路是这样滴,先尽量观察西瓜的特征,从特征中找出和“好瓜”有关的特征,这样的特征非常多,让我们头脑风暴一波:
- 直观特征:包括但不限于西瓜的颜色、根蒂的形状、瓜皮的纹理、敲击的声音等等~
- 外部环境特征:是不是本地瓜,瓜的品种,上市时间等等~
- 还可以有很多其他特征: 如瓜店老板的诚信度,这个西瓜的销售情况等等~
小明呱啦呱啦一顿说得正起劲,小红说:stop!你说这么多我头都大了,你怎么知道那些特征有用那些特征没用呢?
小明缓缓道来:哈,这个简单,可以用贝叶斯方法!
用贝叶斯方法进行特征分析:
我们先来规定一下符号,
表示是好瓜,相反
。
?表示二元特征,例如
,
,
。
那么当我们知道了一个习惯的这些特征,这个西瓜是”好瓜“的概率可以表示为如下公式:
再写出西瓜“不是好瓜”的概率:
将两个概率相除,得到:
这样
时便可以说明,”是好瓜“的概率比”不是好瓜“的概率大~但是实际上除法并不好,容易产生过小的数值,发生 underflow,所以我们两边同时取对数 log 函数,得到:
公式左边是西瓜“是好瓜”的逻辑发生比,又称作 logit,逻辑发生比大于 0 就说明是好瓜的概率较大。
接下来,我们假设所有特征之间是独立的,可以用条件独立假设:
将它们带入逻辑发生比公式:
我们发现等式右边变成了各个特征
的求和~特征的 值越大,说明这个特征对西瓜"是好瓜"的影响越大,相应的说明这个特征是一个显著特征。而值比较小的特征说明影响较小,不是一个很有效的特征,剔除掉也不会有很大的影响。
这样就能筛选出最重要的特征了~
小明娓娓道来,小红听得入了迷,暗自在心中给小明加了一分~
转载请注明:微图摘 » 大误 · 想吃个西瓜怎么这么难