怎么有这么多种智力 / 性格测试，都靠谱吗？

图片：Public Domain

心理学里的智力和性格测量有得到普遍的认同吗？它们是否科学？

Zeth，"与世界分享你的机灵, 自拍和性经验"

心理学里的智力和性格测量有得到普遍的认同吗？

我将“普遍认同”理解成“学术和应用领域得到大多数人的接受”，而没有将一般公众的熟悉程度放进去；因为应用领域（即各种职业场所如商业公司招聘、教育、医院）的专业人士了解，而公众不了解的东西太多了

这样的话这个问题我的答案是：智力测量有（起码在美国、西欧），性格测量没有

智力测量：韦氏智力测验（Wechsler Intelligence Scale for Children和Wechsler Adult Intelligence Scale）

呃，其实这个我没什么好说的，点进去上面的中英文链接看介绍就好，这是在学术和应用（主要是医院）领域都得到广泛应用的工具。应用领域主要是用于辅助诊断，例如对儿童发育迟滞的诊断

性格测量：学术——五大性格特质(Big Five)量表，应用——MBTI

街上随便找 10 个人，9 个不知道什么是 Big Five。找 10 个社会心理学教授，你要是和 TA 提人格测量用 MBTI，9 个会和你说别想跟着 TA 做研究

Big Five 是维度型的人格理论，即认为人格可以由以下 5 个维度上的不同表现组合而成：经验开放性、尽责性、外向性与内向性、亲和性、神经质，每个人在每个维度上的得分是连续的。这个经由因素分析（Factor analysis）得出的理论模型在学术领域被认为是实证的，基本上大多数和人格相关的研究都会用这套理论下的量表作为工具

MBTI 是类型型的人格理论，即认为人格可以由 4 个方面不同的两极倾向而组成 16 种人格类型。“學術派的心理學家常批評 MBTI 理論缺乏可靠的數據支持……但它在教育培訓、企业员工招聘及領袖訓練及個人發展等領域均有廣泛的應用”。另外这个测验公众的熟悉程度也很高，而且很爱用，标签比较好贴，容易找到共同话题

它们是否科学？

还是那句话，要看你觉得什么是“科学”。如果你觉得遵循实证主义，经过实证研究检验的就是科学的，那韦氏智力测验和 Big Five 是科学的，MBTI 是不科学的。至于你问为什么“不科学”的 MBTI 这么多人用，我也不知道，不是还有很多其他东西是这样吗

心理学方面有没有其它得到较广泛认同的测量方法？——GRE

如果要说心理测量，那就不仅仅是量表那么简单了，量表只是心理测量的其中一种方式。广义的心理测量不仅包括以心理测验为工具的测量，也包括用观察法、访谈法、问卷法、实验法、心理物理法等方法进行的测量

如果从历史的角度来看，投射测验曾经在一段时期内是得到广泛认同的，不过现在不是被唾弃就是只能作为标准化测试的补充。如果要说临床上，明尼苏达多项人格问卷（MMPI）也算是应用广泛的量表，这份量表能比较好地区分正常群体和临床群体，公众不知道很正常，不过精神科医生和临床心理学工作者肯定知道。不过我想稍微详细讲的，是GRE (考试)

可能不少人会惊讶，GRE 和心理测量有毛关系，这条毛其实挺大的；至少在两个挺基础的方面：计分方式和测验中题目难度的变化

参加过 GRE 考试的人都知道，每个分数都会对应一个百分位数，例如 verbal 里 160 分对应 84%，而 quantative 里 160 分对应 78%。为什么同一个分数对应的百分数不同，因为常模的不同。GRE 分数之所以会被高校接受作为录取的考虑因素之一，是因为它是一个标准化考试；标准化测试的其中一个特点是在正式应用之前，需要建立常模——即由一个能够代表总体的样本在这个测试上的得分的集合 / 分布。实际上你参加完一次 GRE，得到一个分数，你就被放在常模之中和其他人比较，比较的结果就是百分位数，即你比常模中的多少人得分要高。GRE 之所以被接受，是因为它被认为能够对报名者进行直接的对比，即使两个人参加的是不同时间、不同地点的 GRE。这里面提到的常模、标准化考试，都是心理测量理论下的产物

题目难度的变化。每次 GRE 除去一开始的 writing，后面是 5 个部分，3 verbal+2 quantative 或 3 quantative +2 verbal，相互错开。起码在 2011 年改革之后的电脑测试中，后一个部分的难度是会依据测试参与者前一个相应部分的得分来进行调整的。例如你在第 1 个 verbal 得分很高，那么第 2 个 verbal 的难度就会比前一个更高；如果第 1 个得分低，那么第 2 个难度就会降低。这还牵涉到如何计分。这是心理测量当中的项目反应理论的应用。这个理论目前虽然不新，但是相对于经典测验理论来说还有很多需要研究的地方；未来有可能可以做到根据前一题的结果来调整后一题难度的水准

至于 GRE 测量的是什么，有人说测的是“GRE 考试技巧”

Lyan Wang，认知神经科学，研究生

迄今为止，心理学的智力和性格测验类的发展已经到了比较成熟的阶段，在西方世界能被学界以及业界的大部分人认可。有研究显示，智力测验的结果和后期事业成就正相关（这是我们普通心理学课上老师上课讲的结论，PKU 的课堂应该还算靠谱，没有再去查文献）。霍兰德职业测试，MBTI 这样的东西，在正规公司 HR，职业咨询师，加深自我认知的培训中都是比较重要的参考结果。从科学的角度说，这些测试（一些成熟且常用的测试）具有比较高的信度和效度。

需要注意的是，仍然存在一些公认的问题：

智力测验：

1. 对于智力的定义不具有其他文化适用性。智力测验来源于西方社会，对于智力的标准参考西方教育和社会的环境，例如数学，字词记忆，图形推理。这些也许在大部分国家是可以接受的，但是对于一些更加原始或者边缘的社会，他们并不具备字词或数学能力，其社会要求也不认为这些就代表高智力。因此，不管是智力测试内容，还是智力对于事业成功的预测性，都不再适用。

2. 智力常模各个国家并不相同。与上一点略有交叉。智力的计算是绝对需要给基于年龄的。而不同国家的年龄常模并不相同。一个中国 7 岁儿童的智力不能拿来和美国 7 岁儿童相比，因为两者的教育系统很不一样。中国儿童的数学能力可能远远高于美国儿童，但并不能说并智力就高。

3. 智力定义的局限性。从最早的图形，字词，记忆，数学等测验，到后来的晶体和流体智力。心理测量专家一直致力于扩种智力测试的内容，因为我们的智力 -- 代表我们的脑能力，难以用有限而具体的科目来计算。这也导致了智力测试并不具备 100%的效度。

4. 智力测验的预测性有限。小时了了，大未必佳。发展这种事情，单凭智力测试真的很难做到。尤其是在儿童期的时候。

性格测验：

1. 社会赞许性。在自陈式的性格测试中，答题的人对于一些问题会偏向把自己往好的方面描述。在一些问卷中，为了避免这种现象，会正着反着问几次，或者换一些其他的问法（比如第一人称换成第三人称），统计被试是否态度统一。

2. 内隐态度和外显态度的差别。自陈式测试测量的都是外显态度。因此，被试潜意识的信念，性格并不能被测试。而潜意识的作用在人的性格中并不容小觑。

3. 理想自我和实际自我的差别。被试会倾向于把自己填成自己想成为的样子，而不是真正的样子。

4. 重大事件的影响。可以让人短时间内性格发生巨大变化。

基于以上特点，一些投射型测验比较具有优势。例如罗夏墨迹测验，其效度在心理测量中和 MMPI 名列榜首。罗夏测试这种投射型测验中，你根本不知道在测什么，所以以上前三点被试无法有意识的去防备，只能给出比较真实的反应。

总的来说，其实一些成熟的测验都比较科学，它们的效度和信度都经过了常年累月，以及大量数据的验证，并且具有较高的预测性。可以放心使用。

至于其他的比较好的测量方法，不知道你指的是什么。智力测验比较常用的有斯坦福 - 比奈智力量表和韦克斯勒智力量表（智力测验我不是特别懂）。性格测试比较好的，霍兰德，MMPI，罗夏墨迹测验，主题统觉测验等。对于儿童的治疗中，也常用沙盘游戏来观察儿童的心理状态。智力测验我不了解，性格测验中，效度能达到 70%以上，其实就非常不容易了。

在我上罗夏墨迹测验课程时，老师提到过大公司里比较靠谱的测验方法。需要罗夏墨迹测验 + 数次心理咨询 + 自陈式量表。三者结合起来，其中有咨询师的亲身观察，交流，让被试无法回避的投射测验和自陈式量表，加起来才能得一个非常靠谱的结果。

（人格测试中 MBTI 的效度并不突出，应该是明尼苏达人格测试（MMPI），感谢知友 @Andy Lee 指正。）

查看知乎讨论

转载请注明：微图摘 » 怎么有这么多种智力 / 性格测试，都靠谱吗？