心理咨询师应该具备一些统计和测验的基本能力。
如果你要使用测验,应该最少都要2分以上,最好是每个项。目能够达到3分。
平均数通常用来代表测验得分的集中的情形,一个数据。
一般来讲,如果是等距量数(就是一般测验的分数),那我们会用平均数;如果是秩序的量数(就是分等级,有高中低这样的顺序的),那我们会用中数来代表;如果是一个类别变相,那我们就会用众数来代表集中的情形。
所以我们通常在呈现测验分数的结果,我们会用平均数、标准差,这是最常用的集中量数和分散量数。
那次数分配里面就会牵涉到,一般在学理上来讲,自然的分配应该是一种所谓的常态的分配,那常态的分配是指,分配的结果应该是,靠近中间的人数最多,越往两,左右两个极端,高分组、低分组的人数会逐渐减少。
那这个像一个倒过来的钟,那这样的分配情形,那这个叫做常态分配。
理论上,如果一个测验有足够多的人,常态的人来做这个测验,他的得分的分配的情形,应该是一个常态的分配。
但是这是理论,实际上有很多的测验,编制出来以后它并不是常态分配,受试者在这个测验里面,如果普遍的得分偏低,那它的整个分配情形,那个钟,倒过来的钟就会靠左边倾斜。那一般来讲,我们把这种情形叫做“正偏态”(也就是说得低分的人偏多)。
那如果说得高分的人比较多,偏向得高分,那这个测验就会出现所谓的“负偏态”。那个倒过来的钟,上半段就会往右倾斜,那就造成高分的人多。
在测验里面,我们还会有一种叫做“地板效应”或者是“天花板效应”。
所谓“地板效应”是说测验的难度太高,导致多数的人拿不到分数,所以偏向低分,而且低到没有分数,所以这个测验所能测到的最低分还不足以描述能力更差的人。所以它就出现了“地板效应”。
出现“地板效应”就是难以区别低分群组的差异。
另外一个是指“天花板效应”-测验的难度太低,多数的人都可以拿高分,那甚至有很多人拿到满分。那这拿到满分的人,他的能力有可能超过这个“天花板”,就是满分。所以对能力比较高的那一群人,你就没有办法区别他的能力的差异,因为他们都已经拿满分。
如果一个测验出现“地板效应”或者“天花板效应”,这个都代表这个测验编制的时候,难度太高或太低,那它要拿来做区别,做检验的时候,就可能不是一个很好的工具。
比较好的测验,我们会希望它是一个常态分配。
名义量尺也就是所谓的类别变相,每一个项目是独立的,不同的类别,不同的名称。
如果是名义量尺,那它的集中量数就可能会用到所谓的众数。那它分散的情形,就比较难以估计了。
序级量尺,也就是秩序,等于是排出名次,这个时候它的集中量数会用到的就是中数。
等距量尺(一般测验最常用的一种评量的量尺)是指测验分数之间,它是等距的差异,所以这种测验分数可以做加减乘除,可以做运算。
前面的名义量尺或序级量尺,其实都不适合拿来做加减乘除的四则运算。那等距量尺可以做加减乘除,它一般用平均数、标准差来表现它的集中或分散的情形。
比率量尺在心理测验里面,其实很少用到。
等距量尺常用,那像序级量尺,有一种量表,现在比较少人编这种测验(1937年所采用的一种瑟斯通量表的方式),它是把态度量尺从最极端的态度到最低的态度,按照顺序然后去命很多题目:从极端赞成到极端反对,然后去测量以后算出每一个题目它的量表值(就是说这个题目他赞成到什么程度,反对到什么程度),之后再去挑选分散到从最低到最高,大概20-30个题目,那这20-30个题目,每一个题目其实都经过一个代表性的样本施测,算出来它的量表值,所以在做测验的时候,只要你在题本上勾选,那就是你赞成到哪一题以后你不赞成,那你的量表分数就是那一题的分数的量表值。也就是说,它其实是一根尺,从最低到最高,按照刻度排列,那这样的测验,它在施测的时候很方便(只要看你赞同到哪一题,你的态度就是到那边,分数就是那一题的量表值)。那这种测验编制比较麻烦,虽然使用很方便。
名义量尺现在还是蛮多人用,但是一般都不是用在测验,而是用在检核表。
那比如说你有焦虑的问题,那焦虑的各种症状,每一个题项,就是一个名义,一个列表,那你勾选以后,我们就看你出现哪些症状,那这些症状,这些列表你就有。
有的会把名义量尺再加上类似等距的量表,让你在每一个量词里面评估你出现的频率或严重的程度,那这个就成为现代很多心理症状的测验的基本的形式。
相关系数:两个测验的相关系数,或者一个测验做两次,第一次跟第二次的相关系数,那这个是指的是积差相关,那可以用来代表这个测验的效标、关联效度。或者是这个测验的重测的信度。
那所以在做测验编制、测验运用的时候,我们讲到信度、效度,大部分讲的都是所谓的“积差相关”。
那也有少部分用到所谓“点二序列相关”,这个用途比较少一些。
“最大表现测验”,它是让受试者,在作答的时候要尽力达到最高分,也就是说尽可能答对最多题,那一般来讲,这个通常是能力测验。
这些测验通常有标准答案,然后让你作答的时候,看你能够答对几题,那施测的时候,我们通常会鼓励我们的受试者,尽最大能力去表现,叫做“最大表现测验”。
那一般有像难度测验,就题目当中,从简单到困难,各种困难程度的题目都有,那让你尽量去回答,看你能够答对多少题。
那有另外一种叫速度测验,速度测验是题目本身难度本身不是很高,那但是题目非常的多。让你在一定的时间,严格管制时间,计时。那在一定的时间之内,看你能做多少题。那几乎做的题目都会答对,当然有少数题目不小心答错,难度不高,但是要看你的反应速度快还是慢。
不管是难度测验还是速度测验,这基本上都是一种能力的评定,那我们鼓励受试者做最大的表现,然后再以他所得到的分数去对照常模来看看他的能力水准到哪里,那这个是最大表现测验。
前面的最大表现测验,他是有标准答案的,有所谓对或是错,那典型表现测验它是问你会不会有这些表现?那会有就有,没有就没有。所以它其实没有标准答案,是不同的人可能会有不同的表现。
典型表现测验,作答的时候,一般也比较不会有计时,限制时间这样的状态(当事人可以认真作答、专心填答就可以)。
因为没有标准答案,所以最后记分的时候通常是按类型来分类,看你答几题。
重点在你要反映出来你平常最习惯,最经常表现的状态,那所以叫典型表现测验。
所以在典型表现测验,一般来讲,必要的时候都会加一些所谓的测谎题,或者会有一些题目重复,来做一致性的考验。
那这重复的题目分散在不同的地方,题目很多的时候,这个作答的人可能就不会发现其实有些题目是重复的。
那利用测谎或者是一致性的检验,假设这个作答的人不够真诚,测谎分数太高,或者是一致性太低,就是前后可能不认真或者是造假,导致到最后,自己选了不同的答案。那这样的结果,这一份典型表现测验的结果,我们就不予采用。
测验,有时包括不止一个量词,可能是一整套的套装的一个测验,比如说,智力测验有时候会包括,语文推理,数的能力等等。
性向测验可能,语文推理,数的能力之外,有什么空间关系,机械推理等等。
那这些都是一个测验里面包含的不止一个量词,那成为一个测验的组合。
百分等级60,不代表你及格,而是代表你赢过60%的人。是不是及格,不一定。
标准分数:把集中量数和分散量数,两个一起考虑。
标准分数除了变成标准九之外,其实我们也有所谓的T分数,T分数它是平均数用50,标准差用10。所以如果你的T分数是50分,那就代表你是在平均数。如果你的T分数是60分,那就是高过一个标准差,70就已经非常高,高过两个标准差。70以上的人很少。
T分数40分就是低于一个标准差,T分数30分就是低于两个标准差。
T分数看起来也跟我们平时考试讲的那个100分的分数很像,看起来好像是0-100分,可是其实它几乎都集中在30-70中间。几乎不可能出现T分数100或者0分、1分这样的情况。
在测验里面,通常会喜欢使用标准分数,最主要是因为,它透过平均数、标准差的计算,换算,可以成为一个等距的数量,可以拿来加减乘除。
预期表:这个测验如果你得几分,预期将来在学业或职业的表现,成功的可能性有多高,那这个叫做预期表(通常在筛选学生或者是工作的应征上面,他们会希望测验编制者能够做好预期表,让他们知道说这样的学生,这样的求职者,那做完这个测验之后,该不该录取他)。
所谓测量的标准误是指把测验扣掉它真实分数之后,那所出现的误差情形。那问题是我们根本不知道测验的真实分数是几分,所以我们一般是用所有的人的平均数假设是真实分数,或者同一个人做同一个测验的,多次做以后的平均数,算是真实分数。让他每一次做,或者很多人做,做出来的分数,和真实分数的差距,那个就叫做误差。那把这些误差,可能有大有小,每一次都不一样,每个人都不一样,那把这些误差标准化,就是误差的分散情形,算出标准差,那就是一个测量的标准误。
那我们在做测验解释的时候,我们必须知道这个测验的标准误有多大,然后我们再去估计高过这个测验多少标准误之后的几率有多大。
比如说,智力测验,我们都知道说,IQ100是平均数,假设这个测验的误差,测量的标准误,假设是3分,标准误是1.96(差不多两个测量标准误),那就是6分,那我们就要说如果他IQ出来是102/103,我们都不能说他IQ比较高,比一般人高,因为那个都在误差范围内。那如果他达到106/107,那我们说他高过1.96个测量标准误。那我们可以说,他的智力分数高于一般人。
当我们这样说,1.96个测量标准误的这个差距范围,我们错误的几率是5%(就是P小于.05)。也就是说,我说他的智力分数高于一般人,那我说错的几率只有5%。那这个是测验很科学的方在做计算。
那这个叫做测量标准误。然后乘以1.96,叫估计标准误。如果乘以2.35,那叫做P小于.01的测量误差。那一般来讲我们都是用P小于.05,就是容许5%的错误率。
所以你要解读测验的结果,你要先懂得测验分数的各种呈现方式。