【1879计划】廖凤池：测验在心理咨询的应用 - 天天心理网

测验概念的评分，两分以上可以合格

1.测验手册中的统计概念

a.集中趋势的评量（平均数，所有的分数除以题目或人数，通常用来代表测验集中的数据/中数，应用在次序类的测评，分数从高向低拍出来，排在中间的是中数/众数，应用在序列表最多人勾选的数）

b.变异性的评量（全距，最高减去最低就是全局范围/变异数，不同受试者分数的范围/标准差，把分散的情形标准化后，就叫标准差）

呈现一个测验的分散情景。

c.分配情形（次数分配，每个选项受测者选择多少次数/常态分配，结果靠近选择数量中间的人）

地板效应，测验难度太高，多数人都是低分。

天花板效应，测验难度太低，导致多数人都拿满分。对于一般能力的人都能满分，导致能力真强的人有没法辨别。因为都是满分。

d.评量之量尺（名义量尺，用的比较多，一般用在检核表里比如焦虑，你出现哪些症状就勾选上哪些/序级量尺/等距量尺常用的加减乘除法/比率量尺，把态度量词按照极端词来排序）

e.相关系数（极差相关，第一次和第二次的相关度，重测信度效度/点二序列相关）

二/测验工具类型

a.最大表现测验，一般能力测验有标准答案。鼓励受测者尽最大能力去表现。

一般速度测验，题目多，难度不大，在一定时间内能做对多少。

b.典型变现测验，问你会不会有这样的一些表现，没有标准答案，不同人有不同表现。一般不会有计时限时，重点反应你平时会有的行为习惯。

因为没有标准答案，就牵涉到有人做假的问题，会猜测施测着想要的答案。因此会在题目里加一些测谎的题，或者重复类的题目，看前后一致性。

c.智力/性向/能力/成就测验之间的相似性与相异性。都是最大表现测验。

d.区别自陈式，自己判断自己作答/自评式，自己做评量/量表是比较简单，只有一个量词/测验，不止一个量词，成为一个测验的组合，比如说智力测验，语文空间等各种测验。之间的相似性与相异性。

三/测验分数呈现方式

原始分数没有什么意义，要与常模对比后的分数才是有意义的。

1.百分等级：一百个人，你得分赢过多少人。最常见的呈现分数。最多99，不可能超过100，因为你自己是其中的一个人。99+代表你赢过99人。

2.标准分数：你的得分减去平均数，除以标准差。一般超过两个标准差，分数就很高了。

3.年纪等值分数，你的测验分数相当于几年级的分数。在学业评量用，现在用的少

4.侧面图与侧面图分析。一个测验里有好几个分测验，把不同分测验在坐标提的纵标和横标中标识出来。用曲线图连起来，

5.团体相似性指标。测验的结果分数和某些参照团体相似程度。如和精神疾病的人测试的结果是否相似。在能力测试和大城市学生对比是否相似。

6.预期表，预期在未来学业成就会多高，一般在学生和工作筛选他未来的适应能力。

7.估计标准误差，在解释测验分数结果时，会说测验结果偏高偏低。一个人多次做的平均值，或多人做的平均值。

[展开全文]

lois · 2020-03-04 · 实施心理测验应有的能力与责任（上） 0

应有的能力和责任

测验评量与解释基本能力检核表，心理咨询师要具备统计和测验的基本能力。

一，基本概念的检核

[展开全文]

姜涛jt · 2019-11-18 · 实施心理测验应有的能力与责任（上） 0

标准差，标准误。1.96怎么来的？

[展开全文]

VickyQiu裘玉金 · 2017-02-17 · 实施心理测验应有的能力与责任（上） 0

心理咨询师应该具备一些统计和测验的基本能力。

如果你要使用测验，应该最少都要2分以上，最好是每个项。目能够达到3分。

平均数通常用来代表测验得分的集中的情形，一个数据。

一般来讲，如果是等距量数（就是一般测验的分数），那我们会用平均数；如果是秩序的量数（就是分等级，有高中低这样的顺序的），那我们会用中数来代表；如果是一个类别变相，那我们就会用众数来代表集中的情形。

所以我们通常在呈现测验分数的结果，我们会用平均数、标准差，这是最常用的集中量数和分散量数。

那次数分配里面就会牵涉到，一般在学理上来讲，自然的分配应该是一种所谓的常态的分配，那常态的分配是指，分配的结果应该是，靠近中间的人数最多，越往两，左右两个极端，高分组、低分组的人数会逐渐减少。

那这个像一个倒过来的钟，那这样的分配情形，那这个叫做常态分配。

理论上，如果一个测验有足够多的人，常态的人来做这个测验，他的得分的分配的情形，应该是一个常态的分配。

但是这是理论，实际上有很多的测验，编制出来以后它并不是常态分配，受试者在这个测验里面，如果普遍的得分偏低，那它的整个分配情形，那个钟，倒过来的钟就会靠左边倾斜。那一般来讲，我们把这种情形叫做“正偏态”（也就是说得低分的人偏多）。

那如果说得高分的人比较多，偏向得高分，那这个测验就会出现所谓的“负偏态”。那个倒过来的钟，上半段就会往右倾斜，那就造成高分的人多。

在测验里面，我们还会有一种叫做“地板效应”或者是“天花板效应”。

所谓“地板效应”是说测验的难度太高，导致多数的人拿不到分数，所以偏向低分，而且低到没有分数，所以这个测验所能测到的最低分还不足以描述能力更差的人。所以它就出现了“地板效应”。

出现“地板效应”就是难以区别低分群组的差异。

另外一个是指“天花板效应”-测验的难度太低，多数的人都可以拿高分，那甚至有很多人拿到满分。那这拿到满分的人，他的能力有可能超过这个“天花板”，就是满分。所以对能力比较高的那一群人，你就没有办法区别他的能力的差异，因为他们都已经拿满分。

如果一个测验出现“地板效应”或者“天花板效应”，这个都代表这个测验编制的时候，难度太高或太低，那它要拿来做区别，做检验的时候，就可能不是一个很好的工具。

比较好的测验，我们会希望它是一个常态分配。

名义量尺也就是所谓的类别变相，每一个项目是独立的，不同的类别，不同的名称。

如果是名义量尺，那它的集中量数就可能会用到所谓的众数。那它分散的情形，就比较难以估计了。

序级量尺，也就是秩序，等于是排出名次，这个时候它的集中量数会用到的就是中数。

等距量尺（一般测验最常用的一种评量的量尺）是指测验分数之间，它是等距的差异，所以这种测验分数可以做加减乘除，可以做运算。

前面的名义量尺或序级量尺，其实都不适合拿来做加减乘除的四则运算。那等距量尺可以做加减乘除，它一般用平均数、标准差来表现它的集中或分散的情形。

比率量尺在心理测验里面，其实很少用到。

等距量尺常用，那像序级量尺，有一种量表，现在比较少人编这种测验（1937年所采用的一种瑟斯通量表的方式），它是把态度量尺从最极端的态度到最低的态度，按照顺序然后去命很多题目：从极端赞成到极端反对，然后去测量以后算出每一个题目它的量表值（就是说这个题目他赞成到什么程度，反对到什么程度），之后再去挑选分散到从最低到最高，大概20-30个题目，那这20-30个题目，每一个题目其实都经过一个代表性的样本施测，算出来它的量表值，所以在做测验的时候，只要你在题本上勾选，那就是你赞成到哪一题以后你不赞成，那你的量表分数就是那一题的分数的量表值。也就是说，它其实是一根尺，从最低到最高，按照刻度排列，那这样的测验，它在施测的时候很方便（只要看你赞同到哪一题，你的态度就是到那边，分数就是那一题的量表值）。那这种测验编制比较麻烦，虽然使用很方便。

名义量尺现在还是蛮多人用，但是一般都不是用在测验，而是用在检核表。

那比如说你有焦虑的问题，那焦虑的各种症状，每一个题项，就是一个名义，一个列表，那你勾选以后，我们就看你出现哪些症状，那这些症状，这些列表你就有。

有的会把名义量尺再加上类似等距的量表，让你在每一个量词里面评估你出现的频率或严重的程度，那这个就成为现代很多心理症状的测验的基本的形式。

相关系数：两个测验的相关系数，或者一个测验做两次，第一次跟第二次的相关系数，那这个是指的是积差相关，那可以用来代表这个测验的效标、关联效度。或者是这个测验的重测的信度。

那所以在做测验编制、测验运用的时候，我们讲到信度、效度，大部分讲的都是所谓的“积差相关”。

那也有少部分用到所谓“点二序列相关”，这个用途比较少一些。

“最大表现测验”，它是让受试者，在作答的时候要尽力达到最高分，也就是说尽可能答对最多题，那一般来讲，这个通常是能力测验。

这些测验通常有标准答案，然后让你作答的时候，看你能够答对几题，那施测的时候，我们通常会鼓励我们的受试者，尽最大能力去表现，叫做“最大表现测验”。

那一般有像难度测验，就题目当中，从简单到困难，各种困难程度的题目都有，那让你尽量去回答，看你能够答对多少题。

那有另外一种叫速度测验，速度测验是题目本身难度本身不是很高，那但是题目非常的多。让你在一定的时间，严格管制时间，计时。那在一定的时间之内，看你能做多少题。那几乎做的题目都会答对，当然有少数题目不小心答错，难度不高，但是要看你的反应速度快还是慢。

不管是难度测验还是速度测验，这基本上都是一种能力的评定，那我们鼓励受试者做最大的表现，然后再以他所得到的分数去对照常模来看看他的能力水准到哪里，那这个是最大表现测验。

前面的最大表现测验，他是有标准答案的，有所谓对或是错，那典型表现测验它是问你会不会有这些表现？那会有就有，没有就没有。所以它其实没有标准答案，是不同的人可能会有不同的表现。

典型表现测验，作答的时候，一般也比较不会有计时，限制时间这样的状态（当事人可以认真作答、专心填答就可以）。

因为没有标准答案，所以最后记分的时候通常是按类型来分类，看你答几题。

重点在你要反映出来你平常最习惯，最经常表现的状态，那所以叫典型表现测验。

所以在典型表现测验，一般来讲，必要的时候都会加一些所谓的测谎题，或者会有一些题目重复，来做一致性的考验。

那这重复的题目分散在不同的地方，题目很多的时候，这个作答的人可能就不会发现其实有些题目是重复的。

那利用测谎或者是一致性的检验，假设这个作答的人不够真诚，测谎分数太高，或者是一致性太低，就是前后可能不认真或者是造假，导致到最后，自己选了不同的答案。那这样的结果，这一份典型表现测验的结果，我们就不予采用。

测验，有时包括不止一个量词，可能是一整套的套装的一个测验，比如说，智力测验有时候会包括，语文推理，数的能力等等。

性向测验可能，语文推理，数的能力之外，有什么空间关系，机械推理等等。

那这些都是一个测验里面包含的不止一个量词，那成为一个测验的组合。

百分等级60，不代表你及格，而是代表你赢过60%的人。是不是及格，不一定。

标准分数：把集中量数和分散量数，两个一起考虑。

标准分数除了变成标准九之外，其实我们也有所谓的T分数，T分数它是平均数用50，标准差用10。所以如果你的T分数是50分，那就代表你是在平均数。如果你的T分数是60分，那就是高过一个标准差，70就已经非常高，高过两个标准差。70以上的人很少。

T分数40分就是低于一个标准差，T分数30分就是低于两个标准差。

T分数看起来也跟我们平时考试讲的那个100分的分数很像，看起来好像是0-100分，可是其实它几乎都集中在30-70中间。几乎不可能出现T分数100或者0分、1分这样的情况。

在测验里面，通常会喜欢使用标准分数，最主要是因为，它透过平均数、标准差的计算，换算，可以成为一个等距的数量，可以拿来加减乘除。

预期表：这个测验如果你得几分，预期将来在学业或职业的表现，成功的可能性有多高，那这个叫做预期表（通常在筛选学生或者是工作的应征上面，他们会希望测验编制者能够做好预期表，让他们知道说这样的学生，这样的求职者，那做完这个测验之后，该不该录取他）。

所谓测量的标准误是指把测验扣掉它真实分数之后，那所出现的误差情形。那问题是我们根本不知道测验的真实分数是几分，所以我们一般是用所有的人的平均数假设是真实分数，或者同一个人做同一个测验的，多次做以后的平均数，算是真实分数。让他每一次做，或者很多人做，做出来的分数，和真实分数的差距，那个就叫做误差。那把这些误差，可能有大有小，每一次都不一样，每个人都不一样，那把这些误差标准化，就是误差的分散情形，算出标准差，那就是一个测量的标准误。

那我们在做测验解释的时候，我们必须知道这个测验的标准误有多大，然后我们再去估计高过这个测验多少标准误之后的几率有多大。

比如说，智力测验，我们都知道说，IQ100是平均数，假设这个测验的误差，测量的标准误，假设是3分，标准误是1.96（差不多两个测量标准误），那就是6分，那我们就要说如果他IQ出来是102/103，我们都不能说他IQ比较高，比一般人高，因为那个都在误差范围内。那如果他达到106/107，那我们说他高过1.96个测量标准误。那我们可以说，他的智力分数高于一般人。

当我们这样说，1.96个测量标准误的这个差距范围，我们错误的几率是5%（就是P小于.05）。也就是说，我说他的智力分数高于一般人，那我说错的几率只有5%。那这个是测验很科学的方在做计算。

那这个叫做测量标准误。然后乘以1.96，叫估计标准误。如果乘以2.35，那叫做P小于.01的测量误差。那一般来讲我们都是用P小于.05,就是容许5%的错误率。

所以你要解读测验的结果，你要先懂得测验分数的各种呈现方式。

[展开全文]

郭家心理姐 · 2017-01-31 · 实施心理测验应有的能力与责任（上） 0

最新学员