应有的能力和责任
测验评量与解释基本能力检核表,心理咨询师要具备统计和测验的基本能力。
一,基本概念的检核
【1879计划】廖凤池:测验在心理咨询的应用
283人
已加入学习
学习有效期 120 天(随到随学)
应有的能力和责任
测验评量与解释基本能力检核表,心理咨询师要具备统计和测验的基本能力。
一,基本概念的检核
1、留意测验的品质,测验是一种对心理特质的科学的工具。心理特质是一个构念,是不是有学理的依据或是事实的考虑。怎么命题,怎么修饰,有没有请专家来进行审查和筛选。
测验信度和效度的考验,需要看测验的结构是不是合理,看测验的结果是不是中间一致性相关性高。需要建立常模。如果是能力测验,需要高中底能力的人来当常模,对特殊人群也需要足够的常模需要对照,常模也有时效性,一般5-10年就要改正。品质不良的测验不应该被使用。测验只是参考条件之一,不是唯一的结果,
心理衡鉴的四个资料来源
1资料阅览,现在手头的资料,我们要来做阅览。2、要估行为观察,对当事人的服装,举止,言行进行观察,对当事人有一些了解。多动的小孩子是不是没办法安静下来。是不是注意力集中的时间太过短暂。3进行晤谈,先把资料通过对话来做一些理解,也可以问一些相关的问题,来进行收集资料,包括对当事人及当事人的亲人朋友进行晤谈,4、心理测验,透过测验来收集一些客观的资料,以便来做出诊断。测验只是收集资料的来源之一。
测验是科学,测验只是心理衡鉴当中一个依据。
诊断是艺术
可否先做测验再做咨询?测验完再做晤谈,测验结果会对晤谈有误导,最好先做咨询,先观察了解,确认需要做测验才做。
当事人有没有意愿是不是进行测验?如果当事人不愿意,他可能会不认真做答,这样会低估或误判当事人的能力。如果是典型表现力测验没有标准答案,怎么做要由当事人自己来决定,如果当事人不认真答题,那他的结果就不准确。
测验是否能提供必要的条件?咨询是针对个体的个别差异,咨询的过程,如果咨询师的训练良好,咨询并不需要心理测验。人本主义的卡尔.罗杰斯提到,在心理咨询中应用测验是根本没有必要,心理咨询应该更能尊重人的个别差异.如果当事人主动提到要做测验,可以测验。当事人想要接受测验的理由是合理的,测验结果可以回答当事人的困惑,可以得到正确的资料,当事人有意愿,时间及费用上适合的时候,是可以在咨询历程中做测验的,但罗杰斯认为咨询中测验没有必要的。
当事人被动要求测验,是否同意受测,是否必要?首先要确认这样的测验真的有必要吗,有些时候是老师和家长想要操纵控制,这个时候咨询师要帮他做测验吗,还是通过对父母做咨询或者亲子沟通,
心理测验,是测量心理特质的工具。
心理特质是一种构念。跟物理特质不一样,看不到摸不着
心理测验是测量心理特质的工具,心理特质是一种构念,很难精确。
心理测验是心理衡鉴的工具之一。可以提供比较科学具体的数据,但只是资料的来源之一。
心理咨询历程中不一定要使用心理测验。
测验误用实例:
计分错误的伤害:我的性向测验怎么这么低?
性向测验是一种能力的测验。
解释错误的伤害:智力低下的人徒劳无益?
常模偏颇的问题:第一志愿高中生的学习能力低下?
常模老旧的问题:职业兴趣大惊奇
滥用测验意图彻底了解一个人?对于不正当的测验意图可以拒绝
使用测验以促使当事人接受收费心理咨询服务,把心理测验当做招来生意的工具,是不道德的。
心理测验拿来做为一种游戏
心理测验的性质:
1、心理测验是一种测量心理特质的工具。
2、心理特质是一种构念(construct),难以精确测量。
3、心理测验是心理衡鉴的工具之一。
4、心理咨询历程不一定要使用心理测验。
测验的误用实例:
1、计分错误的伤害。
2、解释错误的伤害。
3、常模偏颇的问题。
4、常模老旧的问题。
5、滥用测验意图彻底了解一个人?
6、使用测验以促使当事人接受收费心理咨询服务?
7、心理测验拿来作为一种游戏?
留意测验的品质
测验的构念
测验的编制过程
导读
内容:智力、性向、成就、兴趣、人格投射等测验及心理 症状检核
安排:三天
参考资料:
1、测验分数及其意义。简adk
2、中科院心理所列出的2014年大陆部分收费量表目录
3、心理卫生评量手册——中国心理卫生杂志社
标准差,标准误。1.96怎么来的?
“因为......所以......”这样的句子在测验报告里面不能够随意、轻易的使用,如果你要写,必须有理论,有实际测验结果做依据。
所以有些时候有些假设,你要提出来,你必须逻辑清楚,能够说服人,不能随便提假设。
如果它不是事实,只是你的推论,那你要很清楚地写,“你根据什么样的测验结果或者根据什么样的晤谈的内容或观察的结果,那你做这样的推论。”
所以你必须逻辑非常清晰,绝对不能够为所欲为,随笔乱写,因为测验报告他毕竟是一个科学的,严谨的文件。
另外测验报告里面,你的遣词用句必须很明确,比如说,你不能说,“估计这个人,相较之下,比较不聪明......”这到底在讲什么。
像这样的词句在测验报告里面不可能出现,你只能出现的是,比如说,“他的智力水准偏低(PI=9),所以在学习上会感到吃力。”
另外要简洁,你不能拖泥带水。
比较复杂的是后面,测验结果的应用那一部分,那一部分就跟咨询比较类似。
测验结果的报告,一般来讲,都应该逻辑非常清楚,尽量用测验结果当证据,然后明确、简短、简洁、有力,让人家看了一目了然(需要训练)。
练习简单、明了,来写测验报告很重要。
报告必须另外要交待受测者在约测,在施测,在解释结果的时候,他有哪些情绪反应,因为毕竟测验是用在人身上。
测验报告:你应该要考虑这个报告是给谁看的。
有些测验报告给受测者看,那大概就根据测验解释的那些内容对受测者来描述,但是有些测验报告,他可能会牵涉到家长要看,所以你要小心呈现,如果家长要看,他看到什么?可能会有什么反应?所以,你要怎么描述,要小心谨慎来下笔。
如果这个测验报告是法院要看,那么你就要考虑到你的所有的叙述,都要有证据。
写测验报告的时间,通常不必太久,也许半个小时、20分钟就可以完成,但是第一次写,通常会写很久,写完就要不断地删,把不必要的都删掉,把那个不清楚的描述变成具体、明确的词句。最后,你就可以直接写出一个科学性的报告(那就十分、二十分钟就可以写完,而且只要半页)。
测验结果要做解释就像医院化验的结果,这是一个非常专业,很重要的一个问题。
所以有时候来访者对高分、低分的判断,是用题目的难度去做判断,但是我们测验结果的呈现,是对照常模以后的分数,所以是相对地位的量数,这两个是不太一样。
所以测验的约测,也许10分,20分钟可以完成,测验的施测,如果是一般的不计时的测验,也许半小时以内会完成,最多一小时,但是测验结果的解释,一般都得1小时以上。
后面的解释其实相当于一般咨询,可能不止一次。
所以有一些个案,他会因为做完测验以后,后来就变成我们做心理咨询的对象。
约测、过滤很重要,因为要筛选,如果他需要做咨询,就得先咨询,而不是先测验再咨询。
约测可以在电话里面来做,但是施测基本上都是到咨询机构来做。
所以咨询机构要有一个空间是专门施测、测验的。
第一关先确认他有没有必要用测验来解答他的问题(他的目的、他的动机是不是适当。)
做完测验到底是有正向的影响还是会有负向的影响,我们都要审慎斟酌。
只有当他的测验目的,他的动机是纯正的,那我们才来考虑提供测验。
第二个很重要就是受测者他必须有意愿,如果他主动来谈,那一般是有意愿。
但是等他了解了测验能提供什么之后,他的意愿是不是还确定,那这个都需要再确认一次。
那如果是被动来的,比如说家长带来的,那这个我们可能要个别跟小孩在咨询室里面了解,请家长现在接待室等待,确认小孩有意愿。
如果小孩不是很有意愿,我们需要跟他讨论,也许经过讨论以后,他会愿意做。
我们一定要提醒小孩,做测验的时候要尽力做,免得到时候有不准确的状况。
施测的时候要有安静的环境,那最好施测者能够坐在对面(除了做指导语说明,然后让他开始做,尤其留意刚开始的阶段是否懂得怎么做)。
所以测验时间的安排必须跟要受测的人做一个讨论(测验时间的安排很重要)。
太长的测验可能要分段。
另外,解释的时间也要事先安排,因为施测完,你还要记分。
一方面他来做测验的时候,他的情绪状态是不是平稳,另外一方面,测验做到一半,焦虑的个案他有可能很焦虑,那你可能不能介入(虽然看到他在焦虑),那你就让他继续作答。因为是在实施测验,是标准化的施测程序,那他自己去应对。
如果是抑郁,他做到心情很不好,那也是让他继续作答,先不处理,但是如果他实在做不下去,那这时候就不能勉强。那这一次测验可能就没办法完成,那你可以关心他的状况,让测验暂停。
施测过程,他有哪些情绪表现,他有哪些特殊状况,都应该要做记录,提供在做解释的时候一个参照。
测验,在能力测验里面,有些测验是有副本,那买的时候就会两种版本都买。
学校的最小测验计划:有些测验一定要做,有些测验,可做可不做(那你应该用最少的测验来达到最大的使用测验的目的。)
所以一般来讲,智力或学业性向是一定要做,因为这个跟他的学业成就,跟他的学业诊断关系非常密切,甚至于跟编班等等都有关。
衍生分数里最常用到的是:标准分数,我们又称之为Z分数。
一般来讲到70,T分数就已经是很高了,那高于70的人数很少。
一般来讲,如果你的T分数低于30,那就已经是很极端的低分了。
标准参照分数:你的分数达到哪一个标准算是正确,算是及格。
常模参照:你要跟它建立常模的时候的那个样本的群组的人去做比较(没有所谓及格不及格的问题,它是在整个相对位置,你在哪里)。
因为抑郁跟自杀关系很密切,然后自杀跟对人生感到绝望又有关,所以它又发展出来两个量表,一个叫贝克绝望量表,一个叫贝克自杀量表。
那绝望可能你需要引发出来的就是关注希望,而不是一直跟他谈他负面的事,一直责备他。
抑郁程度跟抑郁症,这两个不是同一个概念。
有很多人会误解。事实上他达到轻度抑郁是超过一般人一个标准差。超过一个标准差不一定有显著差异,所以其实我们只能说他有抑郁的倾向,而不能说,他就已经是有抑郁症。
那如果达到两个标准差,那就会说是中度抑郁。那中度抑郁的人,有少部分是有抑郁的症状,如果他接近重度抑郁的话。
那中度抑郁的分数如果比较不是太高,也有可能他只是比较抑郁,也不见得是有抑郁症。
相关的研究显示,重度抑郁的人有2/3会自杀死亡,自杀死亡的人当中,也有2/3的比率是得了重度抑郁。所以重度抑郁跟自杀,那个相关非常的高。
抑郁量表在使用的时候,特别要注意到:不要轻易下定论说受测者有抑郁症,他可能有抑郁倾向,不见得有抑郁症的症状。
要说他有抑郁症,应该由医生去做诊断,按照精神疾病诊断的标准,去一条一条的检查,去一条一条讨论,最后再做认定。
心理咨询师千万不要轻易说,我们的来访者有抑郁症。
但是如果测验的分数已经达到重度抑郁,那这个自杀的几率是高的,那这个时候我们作为心理咨询师,应该要采取自杀防范的各种措施。也就是当做危机个案来处理。
如果超出我们的服务能力,那我们应该把它转诊到精神医科去就医。
对于有中重度抑郁的人,他可能需要被转诊到精神医疗的单位服药,但是基本上有抑郁症的人不是只有服药就都会好。
阿伦贝克会发现说,焦虑症的人,他一样有所谓的认知三角,自我很脆弱,容易受伤害,他觉得这世界很危险,到处都有危机。他觉得未来不可预测,他跟抑郁的认知三角一样是自我、认知跟未来。但是的它评价是不一样。
抑郁症是觉得自己确定自己是不好的,自己无能、无助、无用。
焦虑症的人是觉得自己是脆弱的,容易被伤害的,不见得是不好。
抑郁症的人觉得世界对自己很不好;焦虑症的人觉得世界是危险的,要时时小心、防范。
抑郁症的人觉得未来没有希望,确定没有希望;焦虑症的人觉得未来不可预测,不可掌握。
所以他都是疑问,而不是确定负向。三个都确定负向会是抑郁症,严重的,自我、世界跟未来都是负向的评价的话,人会活不下去,会自杀。
但是如果三个都是问号,自己是容易受伤害?世界是危险的?未来不可预测?那你就会惶惶不可终日,就会有焦虑。
那焦虑有时候也会引发强迫症,强迫思考、强迫行为,那这个也都是比较认知行为取向,治疗方法可以有帮助。
如果来访者谈到他想要自杀,那我们要判断他是不是有立即而又明显的危险,也就是说他的危险的程度有多高。
那我们可能会问,他想过要怎么自杀?他有没有准备自杀的工具?他想什么时候要采取行动?他以前有没有自杀过,等等,有一些问题要问他。
有一些时候,你问这些问题要小心谨慎。
如果来访者根本没想过,没讲过要自杀,你就不需要给他做这个测验。
如果来访者只谈到死亡,但是看起来不严重,不是积极马上要行动,那也不一定要做这个测验。
如果来访者有那个意图,而且看起来可能会采取行动,意图跟行动是不太一样的,那可能会采取行动,那这时候贝克自杀量表可以让他作答,而且可以一题一题和他讨论。那就可以对他的可能的自杀行动的危险性,以及可能采取的方式有一些了解,然后可以做一些处理。
事实上,人想要自杀,不见得不对或危险。
有自杀的念头,有自杀的想法并不危险,相反的,是有自杀的行动或有自杀的计划,那才危险。
语句完成测验(儿童版),做到10题以后,后面就会写出很多个人内在的想法。
测验的结果可以拿来分类,就是对家庭、对学校、对个人,对各个领域进行分类,看看他写了什么。
测验也可以记分,如果他回答的内容,非常正向就+2分,正向就+1分,中性的就0分,负向的就-1分,非常负向就-2分。
但是一般我们用这个测验,比较少会去记分,而是去分析他所填写的内容。
主题统觉测验,如果来访者讲停了我们就说,还有呢?再来呢?你还想到什么?让他尽量讲。那把他一个钟头左右讲的内容录音下来,事后再来分析,让他把内在世界投射出来。
画人测验,画完之后,有非常详细的指标,可以去做分析。
台湾有人研究,画人结果跟偷窃行为,跟被性侵害、性骚扰,有性的困扰,跟他的自我观念。甚至于画人测验还可以计算出智商。
投射测验画人测验里面,最重要的是它有一些特征,比如说它的图画得很大,超出边线,代表他的个性冲动,不太能够自我控制;比如说他画得人很小,小到低于5公分以下,那他表他个性内向、退缩;比如说他画的人里面有阴影,就是有涂黑,代表他那个部位是焦虑;那把手涂黑代表他可能有偷窃的问题;把性器官的部位涂黑或遮起来,那可能有性的困扰(这都是可能,不是绝对,因为是投射测验,它只是拿来做推论)。
那个画人测验,画完之后,我们还要问他,你画的是谁?他在想什么?他之前做过什么?他现在在做什么?他未来要做什么?他有什么感觉?那从这里面可以去探索他的生活经验、自我概念。
画我家人,画的时候你可以从他画的表情、动作、擦拭的次数以及速度,以及事后问他,这是谁?他常常在做什么?他以前做过什么?他现在在做什么?他未来会做什么?然后他常常跟你怎么互动,那从这些再收集更多资料。
那你就会发现,画家人的顺序以及把家人画成什么样子,以及后面我们跟他做谈论,那你不必到他家,你就可以知道他家里有几个人,然后家人相处的状况怎样,他对每一个家人的印象怎样。
家庭动力画,画出来以后,我们会去看,这个家里的人,有没有在互动,有的会各自在一个房间,如果人跟人之间有线条隔开,那就代表人跟人是有隔阂的。
然后每个人一样可以问他,这是谁,他在做什么,他以前做过什么,他以后可能会做什么,你对他的感觉怎样。
一张家庭动力画,一样可以对家庭互动状况有所了解。
小朋友在学校有困扰,来做咨询,咨询师不必去家庭访问,做家庭动力画就可以,不必去学校访问,让他画学校动力画,让他讲解,就可以对他在学校的可能的状态有一些了解。
投射测验,次激模糊的程度比较高,所以测验的品质其实是不太好。
处理效度:你做一个智力测验,做完了,你知道他资优,知道他智能不足,接着呢?他智力好,他智力不好,那你也改变不了。那你能怎么处理,不知道,对不对。可是你做了投射测验,做完之后,他会讲出很多东西,那他讲出的这么多的东西,那通常在心理咨询里面,我们后续可以有很多处理。所以它(投射测验)的处理效度是比较高的。
投射测验,虽然不是很精准,信效度不是很高,但是在心理咨询的应用里面,其实还是很好用。
它通常是拿来形成假设,也就是说在他画的图,在他写的语句完成测验,在他讲的主题统觉测验里面,我们可以发现一些问题,可以形成一些假设,然后我们再去确认是不是有这样的问题。
在生涯探索的阶段,其实不要太早定向,太早定向,有可能,选了不适当的组别或科系,将来会不满意。
兴趣的发展跟你有没有接触过那个领域会有关。如果你从来没有接触过,你根本不知道你自己有没有兴趣。
所以兴趣测验的构念、信效度,这些都比较低一些,都比较不确定一些。
所以光以测验品质来看,我们应该更相信性向测验,而不要过度相信兴趣测验。
有时候唱歌是你的兴趣,但不见得你会成为一个歌手。
所以有一些来访者,其实不见得需要做测验,而是应该做一些咨询,帮助他做一些生涯探索的活动,做完之后如果还不能决定,那才来做测验。
兴趣的构念是指某个人对于某一方面的活动、工作或学习的科系,它感到兴趣,愿意学习,会乐在其中。那这个叫兴趣。
事实上,兴趣的构念,一直到现在,都不是非常成熟。相较于智力、性向、学业成就这些构念。
兴趣是一个比较空泛的,是一个比较容易变动的,不是很稳定的一个构念。
那我们做完测验之后,六个分量表,那每个量表,你会得到一个分数,那这个分数,六个分数里面,你可以找出最高分的前三码。
那如果说第二高分跟第三高分差距太大,那你也可以只找前两码(这前三码或前两码就叫做何伦码)。
分化性良好的人在选择科系和职业的时候,就比较不会有困扰,也就是说他的方向感比较明确。
但是有一些人他的分化性不高,也就是说高低差都很小,要做未来生涯规划的时候,会茫然没有目标。
一般性向测验的第一个、第二个分测验,语文推理,数的能力,这两个分测验,通常加在一起就是智力,或者是称之为学业性向。
特殊性向是指经过某些方面的训练有训练的潜能。比如说有音乐的性向,各种行职业的性向。
就普通性向来讲,它通常包括普通能力,也就是学习(学业学习的能力),所以说它包含智力和学业性向。
但是就特殊性向来讲,它又包括普通能力跟特殊的行职业或音乐、美术等等,这些特殊的性向。
所以性向和智力其实是有重叠的。
性向VS成就测验:性向指的是未来可以训练的潜力,但是成就是指已经完成的,学习所达成的能力。
所以一个是指潜力,一个是已经完成的成就。
性向是一种能力,所以它是一种难度的测验,它是一种最大表现测验。
兴趣不是一种能力,而是你比较习惯,典型表现的方式,所以它是一种典型表现测验,没有标准答案。
每个人都可以有不同,不同不代表对错,而是代表你是比较偏向这样的个性,这样的嗜好。
所以,性向跟兴趣其实是非常不一样的两种构念。
学业性向测验其实就是传统的智力测验。
比西量表,是全世界第一套测量人类智力水准的测验。
所以,比西跟韦氏,它的IQ都是以100为平均数,但是韦氏的标准差是15,比西的标准差是16。
智力就是智力测验所测到的能力(这样的定义其实等于没有定义)。
资优生:比较是一种启发式教学。
智能障碍的学生,我们都是用一种注入式的学习,就是一步一步教,然后一步一步检验他的成果(比较少能够做所谓加深加广)。
它反过来,它可能要简化,只教必要的东西,那甚至于多教一些生活技能,而不是教一堆学术性的,比较抽象的东西(具体的东西他比较学得来)。
假设发现低分,那你一定要先确认,做测验的时候,当事人的身心状况,比如,有没有感冒生病,是不是前一节体育课被抽的很惨,所以到做智力测验的时候,没办法专心做。或者是他那一天心情不好根本不想做,或者是他填错表格,他对作答的方式理解错误,等等。
那我们可能要先试着重新记分,看有没有记分错误,接着再看看他有没有什么状况。如果找得到原因,认定这个测验结果跟他实际智力水准有太大的,明显的差异。那我们应该废弃这个测验结果。可以用重测,也可以不做,但是告诉他,他智力普通。那不要直接告诉他,他的智能低下。
那如果实在是各种因素都没有,能力水准确实低下,那我们也应该鼓励他,他可以选择一些比较具体的、明确的东西学习。他可以定一些在生活上能够自理,基本的能力学习就可以。那不要让他觉得说智能低下,好像他的人生就没有希望,那这个会对他有很大伤害。
资优生,我们应该小心、谨慎,提供适当的教养环境,而不是拿来炫耀。
另外有一些所谓的假性的资优,那假性资优就是当学校要甄选资优生的时候,那有些人会拼命去练习智力测验,甚至也曾经,外面有补习班,帮人家补智力测验。后来都被取缔了,因为智力测验应该是一个专业的,保密的工具。不应该被拿去练习。
所以,不论老师还是家长,都不应该对小孩资优,抱持太高的,过度虚荣的这样的心情。
智力测验的结果应该跟学业成就做一个比较。
你要实施一个测验,你一定要对这个测验相当熟悉,最好题本你自己做过,甚至也找几个人来测试看看。
指导手册,你一定要非常详细地阅读,要完全把它弄懂。
有关施测必须准备的材料,要准备充分,如果用电脑测验,那电脑要测试过。
测验的结果应该参照测验指导手册的常模以及相关的研究报告来做解释。
如果出现低分或者是异常的,比较严重的结果的状况,那你在解释之前,你要首先要去确认,记分有没有出错;其次,你应该要听听受测者,他在做测验时候,他的心情,他的心得感想,看看有没有异常的状态。其次,你要去考虑,这个受测者,他是不是语言能力,文化背景,各种关系哦,会影响到测验的结果。
那如果测验结果低分或者有明显异常的结果,那你发现有前面讲的这些原因,那你其实应该要考虑要不要重做测验或者是要不要就不提供测验结果。当然不提供的话,你要跟受测者做一个说明。
比较好的解释的方式,是由当事人,受测者自己来解释。那当然我们需要提供给他有关测验的构念,讨论原本测验的目的,以及各种测验衍生分数的意义。然后先让他猜测,它可能的结果,然后再让他看,最后测验的结果。然后请他自己解释测验的结果 ,去了解一下他看到测验之后,他的心情,他的感想。
测验最后,通常是让他做决定,做一些选择。那我们应该跟他讨论,测验之后,他打算做怎么样的决定,怎么样的选择。
有精神疾病的人,他可能性压抑会比较高,然后会特别喜欢谈论一些跟性有关的议题。
所以在解释测验结果的时候,我们真的要小心翼翼,而且我们也应该要保守,但是除了保守之外,我们还要观察到他的一些症状,现象。
温暖、关怀对任何一个接受测验的人,对任何一个心理咨询师,不管你用不用测验,都是很重要的基本精神。
不止是题本不标准化会有问题,施测的程序不标准化也会造成问题。
施测的时候,一定要原原本本,照着题本,照着指导语去念。
受试者问问题,你不能随便解释。因为你的解释可能会影响他的作答。
记分的时候也要标准化。
在心理测验里面,使用电脑来记分,我们一定要在整个结果出来之后, 要找几个受试者的分数验算一下,以确保没有状况。确定整个没有问题以后,这个结果才公布,或者去做解释,不要解释完以后才发现记分错误。
对原始分数要很小心的说明,甚至于它是没有什么意义的,有时候我们甚至也不讲。
也就是说当我们没有参照常模,那原始分数本身,它可能,它的意义会容易造成误解。
所以测验结果,我们在说明原始分数的时候,要特别跟受测者提醒,原始分数其实如果没有对照常模,它的意义其实不大(不要因为原始分数高或者低然后就影响到心情)。
常模取样要平均要带有代表性,然后做完之后,转换成像百分等级或者其他分数的常模。
后来估计信度,内部一致性信度的方法就进一步有所谓的阿尔法信度,阿尔法信度几乎是每一题跟扣掉那一题总分去累加的结果。所以它比起择半信度要更加的精密(所以阿尔法信度也是内部一致性的一个指标)。
信度有另外一种叫做稳定性。
有时候不稳定也可能来自于你接受测验的时候环境的状态,或者你个人身心状态。那身心状态比较好的时候可能得到比较高分,身心状况比较差的时候可能状况就会有所改变。那所以可能有各种误差。
稳定性间隔不能太久,可能会被学习成长所影响。那但是也不能太短,一般都在一两个礼拜到两三个月之间来做重测。
那如果是典型表现测验的话,他不是能力的问题,它是没有标准答案,让你来挑选你的感觉,你的想法,你习惯的反应。那这个有时候会受心情影响。
所以信度是会影响到在测验解释带的时候,那个误差的计算。
效度讲的是说一个测验能够有效测到该测验所要测得的心理特质的程度。
所以我们在编测验的时候,一般都要提供效度的资料。
一般来讲,测验的指导手册应该要附足够多的效度的证据。
那信度跟效度是测验的指标,那就会牵扯到:到底一个测验信度、效度应该多高,才可以用?
最大表现测验、能力测验,它一般来讲,它的信度都会比较高,因为它有标准答案,然后它的题目比较明确。
所以我们会说,如果是能力表现或者是最大表现测验的话,那它的信度系数最好要能够达到.90以上,最少能够达到.80才可用。
那如果是最大表现测验,像人格、态度量表这些,因为它的特质比较复杂,所以它的信效度通常没有太高。所以我们会说,如果它能够达到.80以上就很好,如果它能够达到.60以上算是可用。
心理咨询师应该具备一些统计和测验的基本能力。
如果你要使用测验,应该最少都要2分以上,最好是每个项。目能够达到3分。
平均数通常用来代表测验得分的集中的情形,一个数据。
一般来讲,如果是等距量数(就是一般测验的分数),那我们会用平均数;如果是秩序的量数(就是分等级,有高中低这样的顺序的),那我们会用中数来代表;如果是一个类别变相,那我们就会用众数来代表集中的情形。
所以我们通常在呈现测验分数的结果,我们会用平均数、标准差,这是最常用的集中量数和分散量数。
那次数分配里面就会牵涉到,一般在学理上来讲,自然的分配应该是一种所谓的常态的分配,那常态的分配是指,分配的结果应该是,靠近中间的人数最多,越往两,左右两个极端,高分组、低分组的人数会逐渐减少。
那这个像一个倒过来的钟,那这样的分配情形,那这个叫做常态分配。
理论上,如果一个测验有足够多的人,常态的人来做这个测验,他的得分的分配的情形,应该是一个常态的分配。
但是这是理论,实际上有很多的测验,编制出来以后它并不是常态分配,受试者在这个测验里面,如果普遍的得分偏低,那它的整个分配情形,那个钟,倒过来的钟就会靠左边倾斜。那一般来讲,我们把这种情形叫做“正偏态”(也就是说得低分的人偏多)。
那如果说得高分的人比较多,偏向得高分,那这个测验就会出现所谓的“负偏态”。那个倒过来的钟,上半段就会往右倾斜,那就造成高分的人多。
在测验里面,我们还会有一种叫做“地板效应”或者是“天花板效应”。
所谓“地板效应”是说测验的难度太高,导致多数的人拿不到分数,所以偏向低分,而且低到没有分数,所以这个测验所能测到的最低分还不足以描述能力更差的人。所以它就出现了“地板效应”。
出现“地板效应”就是难以区别低分群组的差异。
另外一个是指“天花板效应”-测验的难度太低,多数的人都可以拿高分,那甚至有很多人拿到满分。那这拿到满分的人,他的能力有可能超过这个“天花板”,就是满分。所以对能力比较高的那一群人,你就没有办法区别他的能力的差异,因为他们都已经拿满分。
如果一个测验出现“地板效应”或者“天花板效应”,这个都代表这个测验编制的时候,难度太高或太低,那它要拿来做区别,做检验的时候,就可能不是一个很好的工具。
比较好的测验,我们会希望它是一个常态分配。
名义量尺也就是所谓的类别变相,每一个项目是独立的,不同的类别,不同的名称。
如果是名义量尺,那它的集中量数就可能会用到所谓的众数。那它分散的情形,就比较难以估计了。
序级量尺,也就是秩序,等于是排出名次,这个时候它的集中量数会用到的就是中数。
等距量尺(一般测验最常用的一种评量的量尺)是指测验分数之间,它是等距的差异,所以这种测验分数可以做加减乘除,可以做运算。
前面的名义量尺或序级量尺,其实都不适合拿来做加减乘除的四则运算。那等距量尺可以做加减乘除,它一般用平均数、标准差来表现它的集中或分散的情形。
比率量尺在心理测验里面,其实很少用到。
等距量尺常用,那像序级量尺,有一种量表,现在比较少人编这种测验(1937年所采用的一种瑟斯通量表的方式),它是把态度量尺从最极端的态度到最低的态度,按照顺序然后去命很多题目:从极端赞成到极端反对,然后去测量以后算出每一个题目它的量表值(就是说这个题目他赞成到什么程度,反对到什么程度),之后再去挑选分散到从最低到最高,大概20-30个题目,那这20-30个题目,每一个题目其实都经过一个代表性的样本施测,算出来它的量表值,所以在做测验的时候,只要你在题本上勾选,那就是你赞成到哪一题以后你不赞成,那你的量表分数就是那一题的分数的量表值。也就是说,它其实是一根尺,从最低到最高,按照刻度排列,那这样的测验,它在施测的时候很方便(只要看你赞同到哪一题,你的态度就是到那边,分数就是那一题的量表值)。那这种测验编制比较麻烦,虽然使用很方便。
名义量尺现在还是蛮多人用,但是一般都不是用在测验,而是用在检核表。
那比如说你有焦虑的问题,那焦虑的各种症状,每一个题项,就是一个名义,一个列表,那你勾选以后,我们就看你出现哪些症状,那这些症状,这些列表你就有。
有的会把名义量尺再加上类似等距的量表,让你在每一个量词里面评估你出现的频率或严重的程度,那这个就成为现代很多心理症状的测验的基本的形式。
相关系数:两个测验的相关系数,或者一个测验做两次,第一次跟第二次的相关系数,那这个是指的是积差相关,那可以用来代表这个测验的效标、关联效度。或者是这个测验的重测的信度。
那所以在做测验编制、测验运用的时候,我们讲到信度、效度,大部分讲的都是所谓的“积差相关”。
那也有少部分用到所谓“点二序列相关”,这个用途比较少一些。
“最大表现测验”,它是让受试者,在作答的时候要尽力达到最高分,也就是说尽可能答对最多题,那一般来讲,这个通常是能力测验。
这些测验通常有标准答案,然后让你作答的时候,看你能够答对几题,那施测的时候,我们通常会鼓励我们的受试者,尽最大能力去表现,叫做“最大表现测验”。
那一般有像难度测验,就题目当中,从简单到困难,各种困难程度的题目都有,那让你尽量去回答,看你能够答对多少题。
那有另外一种叫速度测验,速度测验是题目本身难度本身不是很高,那但是题目非常的多。让你在一定的时间,严格管制时间,计时。那在一定的时间之内,看你能做多少题。那几乎做的题目都会答对,当然有少数题目不小心答错,难度不高,但是要看你的反应速度快还是慢。
不管是难度测验还是速度测验,这基本上都是一种能力的评定,那我们鼓励受试者做最大的表现,然后再以他所得到的分数去对照常模来看看他的能力水准到哪里,那这个是最大表现测验。
前面的最大表现测验,他是有标准答案的,有所谓对或是错,那典型表现测验它是问你会不会有这些表现?那会有就有,没有就没有。所以它其实没有标准答案,是不同的人可能会有不同的表现。
典型表现测验,作答的时候,一般也比较不会有计时,限制时间这样的状态(当事人可以认真作答、专心填答就可以)。
因为没有标准答案,所以最后记分的时候通常是按类型来分类,看你答几题。
重点在你要反映出来你平常最习惯,最经常表现的状态,那所以叫典型表现测验。
所以在典型表现测验,一般来讲,必要的时候都会加一些所谓的测谎题,或者会有一些题目重复,来做一致性的考验。
那这重复的题目分散在不同的地方,题目很多的时候,这个作答的人可能就不会发现其实有些题目是重复的。
那利用测谎或者是一致性的检验,假设这个作答的人不够真诚,测谎分数太高,或者是一致性太低,就是前后可能不认真或者是造假,导致到最后,自己选了不同的答案。那这样的结果,这一份典型表现测验的结果,我们就不予采用。
测验,有时包括不止一个量词,可能是一整套的套装的一个测验,比如说,智力测验有时候会包括,语文推理,数的能力等等。
性向测验可能,语文推理,数的能力之外,有什么空间关系,机械推理等等。
那这些都是一个测验里面包含的不止一个量词,那成为一个测验的组合。
百分等级60,不代表你及格,而是代表你赢过60%的人。是不是及格,不一定。
标准分数:把集中量数和分散量数,两个一起考虑。
标准分数除了变成标准九之外,其实我们也有所谓的T分数,T分数它是平均数用50,标准差用10。所以如果你的T分数是50分,那就代表你是在平均数。如果你的T分数是60分,那就是高过一个标准差,70就已经非常高,高过两个标准差。70以上的人很少。
T分数40分就是低于一个标准差,T分数30分就是低于两个标准差。
T分数看起来也跟我们平时考试讲的那个100分的分数很像,看起来好像是0-100分,可是其实它几乎都集中在30-70中间。几乎不可能出现T分数100或者0分、1分这样的情况。
在测验里面,通常会喜欢使用标准分数,最主要是因为,它透过平均数、标准差的计算,换算,可以成为一个等距的数量,可以拿来加减乘除。
预期表:这个测验如果你得几分,预期将来在学业或职业的表现,成功的可能性有多高,那这个叫做预期表(通常在筛选学生或者是工作的应征上面,他们会希望测验编制者能够做好预期表,让他们知道说这样的学生,这样的求职者,那做完这个测验之后,该不该录取他)。
所谓测量的标准误是指把测验扣掉它真实分数之后,那所出现的误差情形。那问题是我们根本不知道测验的真实分数是几分,所以我们一般是用所有的人的平均数假设是真实分数,或者同一个人做同一个测验的,多次做以后的平均数,算是真实分数。让他每一次做,或者很多人做,做出来的分数,和真实分数的差距,那个就叫做误差。那把这些误差,可能有大有小,每一次都不一样,每个人都不一样,那把这些误差标准化,就是误差的分散情形,算出标准差,那就是一个测量的标准误。
那我们在做测验解释的时候,我们必须知道这个测验的标准误有多大,然后我们再去估计高过这个测验多少标准误之后的几率有多大。
比如说,智力测验,我们都知道说,IQ100是平均数,假设这个测验的误差,测量的标准误,假设是3分,标准误是1.96(差不多两个测量标准误),那就是6分,那我们就要说如果他IQ出来是102/103,我们都不能说他IQ比较高,比一般人高,因为那个都在误差范围内。那如果他达到106/107,那我们说他高过1.96个测量标准误。那我们可以说,他的智力分数高于一般人。
当我们这样说,1.96个测量标准误的这个差距范围,我们错误的几率是5%(就是P小于.05)。也就是说,我说他的智力分数高于一般人,那我说错的几率只有5%。那这个是测验很科学的方在做计算。
那这个叫做测量标准误。然后乘以1.96,叫估计标准误。如果乘以2.35,那叫做P小于.01的测量误差。那一般来讲我们都是用P小于.05,就是容许5%的错误率。
所以你要解读测验的结果,你要先懂得测验分数的各种呈现方式。
一个构念本身,它是否清楚、明确还是很笼统或者是范围更过广泛,那这些都可能会影响到测验的品质。
一般我们要看到概念性的定义,也要看到操作性的定义,那让它对它所要测量的东西,做一个精确、明确的描述。构念越清楚,测验的品质、基础越好。那当然就会有比较好的测量的品质。
测验编制包括对构念的定义,如果一个测验除了他的主要构念之外,它可能还牵涉到有一些分测验。那它是不是每一个分测验的构念也都定义清楚。然后采用多少个分测验,是不是有学理的依据,或者有适时的,适当的考虑。
构念确定清楚、明确之后,接下来就会有命题,在测验编制的时候,它是怎么收集题目,它是怎么样命题,命题之后题目怎么修饰,怎么做一些增减,有没有请测验专家,有没有请它那个领域的专家。两方面的专家都来帮忙,做一些审查、筛选。
题目筛选出来之后,它先要预试,这部分人通常是100-200人,先去试做,试做的时候,一方面它要确定题目是不是适当,一方面要把预试的结果,要去做一些分析,看看它的难度,看看它的鉴别率,它的这个项目分析结果的分数是不是合理。要淘汰掉一些不好的题目,也要对题目的结构,分测验的相关,等等这些,做一些考验。经过预试,选题之后,题目确定。
测验的信效度:一致性的信度&重测信度&内容效度&测验结果和相关已经被证实是理想的测验&效标关联效度。
一个编好的测验,它的信度和效度都需要通过考验,确定它是还不错的一个测验,才可以变成正式要使用的测验。
时效性:常模过一段时间以后,5-10年应该要重建,不能一个常模用二三十年都不改正。
测验在心理衡鉴的历程当中,它其实只是参考的资料之一,而不是做完一个测验,就能够做诊断,就能够确诊。
行为观察:对当事人的服装仪容、言行举止,情绪表现的方式,人际互动的敏感性、适切性这些,我们可以透过行为的观察,对这个当事人有一些了解。
比如说多动症的小孩,你可能要去观察:他是不是活动量过多,没有办法安静下来,他是不是冲动,不太经思考,然后就会有一些动作。他是不是注意力集中的时间太过短暂,需要对实际的行为做观察,以便能够对他有一些了解。
进行晤谈:这种当面的晤谈,除了要我们把前面阅览到的资料,行为观察的资讯,透过对话来做一些理解之外,那我们也可以问一些相关的问题,来收集更多的资料。
进行晤谈也包括对转介者进行晤谈,对当事人的重要他人进行晤谈。
经过晤谈之后,我们可以收集到更多,更完整的资料。
如果经过资料阅览、行为观察跟进行晤谈这些步骤,我们还难以进行对心理咨询下结论或者做诊断,这个时候我们就会考虑到,是不是有适当的测验。透过测验来收集一些客观的资料,以便来做出诊断。
所以我们在对人做心理衡鉴的时候,我们并不是只做测验,然后根据简单,一个测验的几个题目的回答的结果,然后我们就要下定论。
衡鉴和诊断,却不见得都是客观的科学,它会牵涉到一些主观的判断,它会牵涉到一些多元资料、多重方法,综合出来的结论,所以有人说测验是科学,诊断是艺术。
测验只是心理衡鉴过程当中,所收集的资料之一,而不是唯一的依据。
先做测验再实施心理咨询,这个基本上是一个错误的观念。因为测验是一个比较权威的,是一个客观的工具。如果做咨询之前先实施测验,一方面会使得来访者对咨询师抱持着一种对权威的崇拜,过度听从权威意见,这样的不良的期待。另外心理测验本身,它都有它测量的适用的范围,如果我们跟当事人还没有足够的咨询、晤谈、了解,那我们贸然采用一些测验,那如果这个测验是不适当的,甚至于跟当事人的主要困扰,不是有必然的关系,那这个时候我们实施测验,就有可能选了错误的,不当的测验。当一旦测验完做了解释,后续的晤谈必然会被这个测验的氛围所限缩。而不能让来访者自由地选择关他切的话题来做谈论。所以有时候先做测验再做咨询有可能误导整个咨询的方向。
所以最好我们先对来访者先做咨询,先晤谈,观察,了解,确认他需要做测验,我们再选取适用的测验来施测,而不要先做测验,做完测验再谈,这样常常会有不良的影响。
如果是能力测验,当事人没有意愿的话,你强迫他做,他可能采取怠惰的方式,漫不经心地来作答,那这样的测验结果必然会低估当事人的能力。那如果你又过度相信测验结果,那可能对当事人的能力会有严重的误判,对他的做决定,升学或就业决定等等,都有可能会有不良的影响。
如果所实施的是人格测验或者是症状检核表,那因为这一类的测验,他是所谓的典型表现测验,它不像能力测验有标准答案。典型表现测验就是要看看他习惯怎么做反应。
如果他没有意愿接受这样的测验,他一方面可能给你乱答,比如说他通通勾负向的答案,测验结果就会显现他的不适应非常严重。或者是说他刻意就不勾选有问题的答案,他都勾正向的,那你就会误以为他的适应状况相当良好。
所以当事人如果没有意愿,强迫他做测验,那通常这个测验结果,会受到严重的,态度上的影响。而有不正确,不适当应用的这样的状况。
Carl Rogers 特别提到,在心理咨询当中应用测验,在他来看是根本没有必要。
他会觉得心理咨询应该更能够针对个别差异,更复杂的人的内在架构做了解,而心理测验常常是一个比较粗略的了解。
所以既然已经实施了心理咨询,是不是有必要再做测验,Carl Rogers 认为只有三种状况,他认为可以做测验:
一、当事人主动提到要做测验(意思就是说如果不是当事人主动提到要做测验,咨询师不宜主动建议要做测验);
二、当事人想要接受心理测验的理由、原因是合理的,而且确实有可以提供相关资料的心理测验存在(这个时候做了那个测验,可以回答当事人的困惑,可以得到正确而且必要的资料,这种几率其实不太高,因为测验并没有那么多,那么详细);
三、当事人有意愿,当测验可以提供必要的资料,而且时间安排上、费用上,适合的时候(因为心理测验从施测到解释其实也要付出相当的费用)。
那时间、费用以及当事人意愿都没有问题,又有适当的可用的测验,那这个时候是Carl Rogers觉得,可以在咨询历程中做测验,但Carl Rogers认为这种状况很少发生。
换句话说,在心理咨询的历程里面,Carl Rogers基本上是不太赞成做测验的(观点比较严格)。
旧的测验不要用,没有足够信效度的测验不要用,没有必要的测验不要做。
所以,心理咨询当中使用测验不是不可以,要谨慎,小心。
有一些测验确实蛮好用的,确实也可以提供不错的帮助,咨询师也应该要了解,在适当的时机,在有需要的时候,能够选用适当的测验,来提供科学化的数据,来帮助做判断,做决定。
当事人主动提出请求,说他要做测验,我们不应该一口答应,我们应该追问,你为什么想要做心理测验?去了解一下他对测验性质的理解是什么?他现在想要解决的问题是什么?那你就会发现,其实很多人需要的是心理咨询,而不见得是做测验。
当事人被动受测:甚至于有时候做完测验,关系可能更糟,小孩子的适应状况不见得会改善。
如果确实他是有合理的理由,适当的要求,那后面我们还要需要关心一个很重要的问题:这个未成年子女,他是不是有意愿来接受这个测验?如果他没有意愿,那我们也不能强迫他。这个是指当事人是被动,被要求来做测验的时候,我们应该留意的。
到目前为止,心理测验的种类、数量并不太多。
所以你不要当事人来谈,你就先答应他做测验,你先理解觉得他的理由适当,然后你再说你找找看有没有适用的测验。
不要你先答应了,结果后来发现找不到一个可用的测验。结果勉强用一个类似或相近的测验。那测验的结果未必真的有帮助。
授课老师
学员动态
相关课程