与远程调节或现场可用性测试研究相比,你更有可能在远程非调节研究中遇到问题参与者——特别是如果你是从专门测试服务机构主办的小组中招募的。

识别那些行为不能代表你的用户群体的人并从你的分析中排除他们的数据是很重要的。(测试代表用户是其中之一可用性测试的核心原则,以及不具代表性的参与者使许多研究结果无效。)

在本文中,我们将讨论如何识别三种类型的问题参与者:异常者、作弊者和专业参与者。

离群值参与者的行为或性能与您的其他用户群体非常不同,要么因为他们不是您的目标用户群体的一部分,要么因为他们在其他方面是特殊的。

骗子参与者只对获得报酬和继续下一个研究感兴趣。他们可能会随机点击,甚至不会尝试执行任务。

专业的参与者是那些频繁参与过多研究的人。通常情况下,这些人不能代表“常规”用户,因为他们看过太多ux研究,太适应研究人员的目标。

问题参与者可能是专业参与者、作弊者或异常者。

请注意,骗子通常都是局外人-换句话说,人们匆匆通过测试而没有真正尝试,通常在你的数据中脱颖而出的其他参与者。

然而,并非所有的异常值都是骗子.有些用户的行为与其他参与者不同,因为他们不同,不是因为他们想骗你获得奖励。(在过去的研究中我们发现6%的任务尝试异常缓慢我们用“坏运气”来解释,因为我们没有更好的解释这些异常值。)

识别问题参与者的最佳方法取决于你是否在运行定性或定量的可用性测试

定性研究:观看录音

大多数远程无节制的测试平台会在参与者执行任务时记录他们的屏幕(有时是他们的网络摄像头)的视频。如果你要做定性测试5 - 8人,那么你应该计划看所有的视频作为你分析的一部分。

当你在观看视频时,要留意你可能遇到问题参与者的信号。

离群值信号

注意任何可以告诉你参与者有不同的经验水平、背景或动机从你的其他用户。

例如,如果你招聘工业工程师,但是一个参与者听起来对UI中使用的术语很困惑,他可能实际上没有这个领域的背景。如果你在筛选时没有提出正确的问题来评估知识,他可能是一个意图良好的参与者,只是在错误的研究中结束了。

骗子的信号

寻找那些不要尝试这些任务在所有。有时你甚至会看到一些参与者收到任务指示后,不去阅读,然后离开去阅读Facebook或其他网站几分钟,然后点击进入下一个任务。

然而,只是因为有人是对你的设计不耐烦并不意味着她就是个骗子。许多用户要求产品在第一次尝试时就能完美而轻松地工作。如果你的网站加载时间很长在美国,他们可能会尝试做其他事情。没有耐心、要求苛刻的用户和根本不尝试执行任务的用户是有区别的。

对于作弊者来说,另一个信号是你的参与者忽略了任务指示或参数。

例如,如果任务是“访问西榆树和找到一个用金属框架餐椅,“但参与者选择第一项(一个咖啡桌)他认为(说他做的),那么他可能只是想尽快的任务。

Professional-Participant信号

专业参与者是最难识别的。这些人(在大多数情况下)会尝试你的任务,并给你很多反馈。他们通常非常善于大声思考。他们做了很多研究,知道了研究人员想从他们身上得到什么。

我倾向于通过他们的评论而不是他们的行为来识别专业参与者。监听任何暴露了太多知识的术语他们可能是从过于频繁地参与研究中获得的信息(“SEO”、“字距调整”、“心理模型”、“菜单栏”、“汉堡包”)。

(注:如今许多人已经从广告和流行文化中学到了“用户友好”、“可用性”甚至“用户体验”等术语,所以这并不总是一个警告信号。)

例如,当我在一个非营利网站上搜索信息时,我的一个研究参与者说:“看,使用搜索引擎的魔力逃过了很多人的眼睛。他们无法形成查询使他们认为搜索引擎是无用的。根据我的经验,学会如何重新措辞你的问题,以得到你想要的答案,这对它们的使用至关重要。所以这并不是真的简单或困难,这更多的是用户对搜索功能的体验。”正确使用术语的数量让我怀疑这个人可能是专业参与者,或者可能在ux相关领域工作过。

定量研究:从参数开始

如果你进行了一项定量研究,参与者超过30人,观看所有的视频可能并不实际。您可以使用指标来帮助您决定检查哪些视频。你也可以对每个视频进行抽查(每个视频看几分钟)。

大多数量化可用性研究至少包括两种常见指标:任务时间和任务成功。远程无节制的测试工具经常在运行测试时自动收集这两个指标,所以您可能已经可以访问它们了。查看这些指标以识别数据正常范围之外的响应。检查多个指标帮助你判断个别参与者是否可疑,然后观看视频让参加者确认他们确实不具代表性。

请注意,基于指标的方法有助于识别异常值和作弊者,但对于识别专业参与者通常用处不大。

时间的任务

查看单个任务的任务时间的频率分布,以及所有参与者的总时间,以确定这些移动得更快或更慢比其他参与者要多。

在9秒内完成任务的两名参与者比其他人快得多。这些人可能是骗子。在179秒内完成任务的4名参与者可能是作弊者、不具代表性的参与者,或者只是需要更多时间来完成任务的人。你得调查一下才能弄清楚。(柱状图显示了每个时间间隔内参与任务的人数。)

当参与者快速完成任务和会议时,他们可能是作弊者。当他们完成任务和会话的速度比其他参与者慢得多时,他们可能是作弊者、离群者,或者两者都不是——只是需要一点额外时间或遇到了错误的人。

任务成功

类似地,我们可以查看每个个体任务的参与者的任务成功,以及每个参与者在整个过程中的成功率。低成功率与非常快的任务时间相结合通常是一个很明显的作弊信号。

这两个在9秒内完成任务5的参与者在所有任务中的成功率非常低。标记这些参与者,并通过观看他们的视频进行跟踪。(柱状图显示的是在x轴上显示的间隔内获得成功率的参与者人数。)

开放式文本响应

在计划定量研究时,把它包括进来总是一个好主意一个带有开放式文本框的问题,参与者必须输入回应。您可以快速浏览响应列表,并识别任何可能暗示作弊的“懒惰”答案。

让我们来看看现实生活中对“如果你能改变这个网站,你想改变什么?”这个开放式问题的回答。

示例响应

描述

坏

“Asiojdfoiwejfoiasjdfiasjdf”

这些毫无意义的回答看起来就像有人为了继续研究而猛敲键盘,而没有费心去阅读问题并准备一个回答。这是一个明显的作弊迹象。

有问题的

“精美”

非常短的不答题且不正确或没有标点符号,比如这个,有时可能是作弊的信号,但并不总是如此。在这种情况下,参与者可能因为长时间的研究而感到疲劳,或者只是没有任何强有力的观点可以分享。

好

“在主页上,我将添加更多关于海洋的基本、引人注目的信息——每个人(几乎)都与海洋有某种联系,无论是小时候的海滩、贸易、皮划艇、游泳、巡航、船只等等。如果可能的话,我只想强调神奇的海洋动物/生命,以及海洋对贸易、军事和娱乐等的重要性。”

像这样详细、深思熟虑的回答是一个强烈的信号,表明这不是一个作弊参与者。

下一个步骤

当你确定问题参与者时,用稍微不同的方式处理每一种类型。

离群值

那些与你的目标用户非常不同的异常值应该完全从你的分析中删除。

回到招聘的时候,试着确定这个人是如何进入你的研究的。这个人到底有什么不同,让她和其他人不合适?你的筛选器有问题吗让这个人进入研究?从这个错误中吸取教训,以确保未来能招募到更好的员工。

但是,要确保参与者不能真正代表您的用户群体。一位UX专家曾经问我,他是否可以从他的分析中删除一个参与者的数据,因为她给出了非常负面的回应,而其他参与者则给出了积极的回应。我问:“那么,你还有其他理由相信她不具有代表性吗?”他没有这么做。对我们设计的负面反应并不是将某人从数据中删除的充分理由。

骗子

通常情况下,参与者可能会在一两个任务上“作弊”,特别是在长时间的会议结束时,但实际上会尝试其他任务。通过观看参与者的完整视频来判断作弊者是否如此。如果参与者只在一两个任务上作弊,只需删除她在那个任务上的数据。如果他们在整个过程中作弊,就彻底删除他们。

大多数远程测试工具都知道作弊是一个问题。如果你是通过工具面板招募的参与者,如果你提出要求,许多人会免费替换作弊的参与者。

如果招聘服务有办法让您对参与者的表现提供反馈,出于对其他研究人员的礼貌,请确保您这样做。

专业的参与者

专业参与者有时更难对付。在大多数情况下,他们并没有做错任何事——他们只是出现并参与其中,所以他们应该得到补偿,而不是报告或负面评价。

最好的办法是从一开始就避免让这些人进入你的学习。我总是包含一个筛选问题,询问受访者最近参与研究的时间,我排除了那些最近参与研究的人(0-3个月或0-6个月)。然而,没有什么能阻止参与者在回答这个问题时撒谎。一些测试工具允许您自动过滤频繁参与的参与者。然而,这些专业人员经常在许多不同的平台上执行测试(有很多平台)。

如果你找到一个专业的参与者,看看视频和数据来决定是否放弃会议。有时候你会发现参与者做出了听起来“专业”的评论,但实际行为和数据看起来与其他参与者非常相似。在这种情况下,您可以保留数据。只要确保你在定性分析中标记了参与者,并在从该参与者的评论和反馈中得出结论时权衡这一事实。

结论

在你的研究中,请留意那些异常值、作弊者和专业参与者。调查多个来源的信息,以帮助你查明情况,并决定如何做。如果你经常在你的研究中发现太多的问题参与者,你应该重新评估招募参与者的方式和地点。

想了解更多关于远程研究的规划、实施和分析的帮助,请查看我们的全天研讨会,远程可用性测试。