大误 · 想吃个西瓜怎么这么难

知乎日报 霍华德 359℃ 评论

大误 · 想吃个西瓜怎么这么难

图片:《西游记》

用贝叶斯方法挑西瓜

霍华德,鹅宝/自然语言处理

小红是小明正在追求的女神。今天,小明好不容易把小红约出来逛街,逛着逛着,女神小红说口渴了,两人来到西瓜摊前,这时,小红抿嘴一笑,突然想考察一下小明的知识水平,说道:“小明你不是做机器学习的码农吗?如果要你用机器学习挑西瓜,你会怎么做?”

小明会心一笑,这不是撞我枪口上吗?看我的蒂花之秀~

是机器学习挑西瓜的基本思路是这样滴,先尽量观察西瓜的特征,从特征中找出和“好瓜”有关的特征,这样的特征非常多,让我们头脑风暴一波:

  1. 直观特征:包括但不限于西瓜的颜色、根蒂的形状、瓜皮的纹理、敲击的声音等等~
  2. 外部环境特征:是不是本地瓜,瓜的品种,上市时间等等~
  3. 还可以有很多其他特征: 如瓜店老板的诚信度,这个西瓜的销售情况等等~

小明呱啦呱啦一顿说得正起劲,小红说:stop!你说这么多我头都大了,你怎么知道那些特征有用那些特征没用呢?

小明缓缓道来:哈,这个简单,可以用贝叶斯方法!

用贝叶斯方法进行特征分析:

我们先来规定一下符号,

表示是好瓜,相反

?表示二元特征,例如

那么当我们知道了一个习惯的这些特征,这个西瓜是”好瓜“的概率可以表示为如下公式:

再写出西瓜“不是好瓜”的概率:

将两个概率相除,得到:

这样

时便可以说明,”是好瓜“的概率比”不是好瓜“的概率大~但是实际上除法并不好,容易产生过小的数值,发生 underflow,所以我们两边同时取对数 log 函数,得到:

公式左边是西瓜“是好瓜”的逻辑发生比,又称作 logit,逻辑发生比大于 0 就说明是好瓜的概率较大

接下来,我们假设所有特征之间是独立的,可以用条件独立假设:

将它们带入逻辑发生比公式:

我们发现等式右边变成了各个特征

的求和~特征的 值越大,说明这个特征对西瓜"是好瓜"的影响越大,相应的说明这个特征是一个显著特征。而值比较小的特征说明影响较小,不是一个很有效的特征,剔除掉也不会有很大的影响。

这样就能筛选出最重要的特征了~

小明娓娓道来,小红听得入了迷,暗自在心中给小明加了一分~

转载请注明:微图摘 » 大误 · 想吃个西瓜怎么这么难

喜欢 (0)or分享 (0)
发表我的评论