본문 바로가기
ᴜx/ᴀʀᴛɪᴄʟᴇ

A/B 테스트의 장점과 단점

by jinx2a 2020. 6. 18.
반응형

어떤 면에서는, 나는 A/B 테스트가 디자이너들이 의견 싸움을 줄이고, 가설을 테스트하고, 가장 효과적인 해결책을 사용자에게 신속하게 가져다 줄 수 있는 매우 강력한 도구라고 생각한다. 하지만 다른 면에서는, 여러 상황 속에서의 인간의 판단을 없애고 고객의 필요보다 회사의 KPI를 우선시하며, 현지 최대치를 향해 반복하는 위험도 안고 있다.

 

 

 

 

 

A/B 테스트의 이점

A/B 테스트의 이점은 상당히 명백하다. 여러분은 몇 가지 간단한 디자인이나 제품의 개선을 원하지만, 어떤 것이 가장 좋은 결과를 가져올지 100% 확신할 수 없다. 팀원 중 한 명은 어떤 방향에 대해 매우 강한 느낌을 받고, 한 명은 다른 방향으로 강하게 느끼고, 나머지 한 명은 어느 쪽이든 확신할 수 없다.


이런 종류의 교착상태에서는 정치가 항상 작동하게 된다. 조직에서 누가 가장 큰 영향력을 행사하고, 누가 자기주장을 가장 잘하며, 누가 화를 낼 수 없는가? 문제의 당사자가 특히 의견 피력을 잘한다면 대위론을 그만큼 설득력 있게 주장할 수 있을까? 어떤 경우에, 정말 명백하고 분명한 해결책이 있을까?


이런 상황에서는 두 가지 일이 일어날 수 있다. 한 사람이 자신의 의견이 피력되지 못한 것에 대해 좌절감을 느끼거나, 더 나쁜 것은, 어떤 결정도 내리지 않고, 이 대화가 메스껍게 반복되는 것이다. 우리 모두 경험해봤을 것이다.


이런 종류의 결정의 좋은 예는 중요하지 않은 등급 장치이다. 여러분이 별과 숫자 시스템 중 어느 것이 더 나을지 결정하기 위해 노력하는 프로덕트 팀에 있다고 상상해 보아라. 항성계로 간다면 별 4, 5, 6개를 사용해야 하며, 별의 일부만 보여줄 수 있도록 허용해야 하는가? 숫자 체계를 선택하면 5점, 10점, 100점 만점이 되어야 하는데 소수점 만점을 받아줄 것인가?


그 주제에 대한 연구 논문이 있는지 알아보기 위해 데스크 리서치를 할 수도 있겠지만, 이것이 특정 사용자들에게 효과가 있을지는 어떻게 알겠는가? 단순히 경쟁자들이 하고 있는 것을 따라 할 수도 있다. 결국, 그들은 당신보다 규모가 더 크니까 확실히 조사를 했을테니까.


오픈테이블의 Sim Wishlade가 최근 스스로 발견한 상황이며, '3/5가 6/10과 같지 않을 때'라는 제목의 미디엄 기사에서 이들이 수행한 연구와 그 결과에 대해 웅변적으로 쓰고 있다. 당신이 예측할 수 있듯이, 명백한 해결책이 항상 최선의 해결책은 아니다.

 

 

 

 

 

의견이 실패하는 경우

우리는 디자이너로서 자신을 의사결정이 불러올 효과 예측에 대한 예리한 감각을 가진 의사 결정자로 본다. 반복적인 A/B 테스트는 우리가 생각하는 것만큼 정확하지 않다는 것을 보여준다. 우리는 고객이 우리와 같은 편견의 희생물이 된다는 것을 깨닫지 못한 채, 미래의 행동에 대해 형편없는 판단자라는 것을 설명하고 싶다. 알고 보면 우리가 판단했던 미래의 사용자 행동이 꽤 서툴렀을수도 있다.


Dan Siroker는 2013년 '넥스트 웹' 강연에서 오바마 선거캠페인을 위해 수행한 테스트 중 일부를 설명했다. 그는 청중들에게 간단한 질문을 던진다. 이 비디오들 중 어떤 것이, 이 헤더 이미지들 중 어떤 것이 가장 좋은 것으로 증명되었을까? 여러분이 상상할 수 있듯이, 청중들은 그들의 디자이너들이 그랬던 것처럼 엄청나게 틀린 답을 얻었다.

 

 

 

 

디자이너들은 왜 더 많은 테스트를 하지 않는가?

아무리 훌륭한 디자이너라도 이런 종류의 실수를 한다면, 왜 우리는 더 많은 테스트를 하지 않는 것일까? 이에 대한 해답이 몇 가지 있는 것 같다.


첫 번째 답은 프로세스와 실행 문제다. 개별 설계자가 사용적합성 시험을 독립적으로 시작하는 것이 비교적 쉽지만, A/B 시험은 실행과 조정이 필요하다. A/B 테스트 플랫폼을 선택해야 하고, 이를 구현하기 위해 개발 파트너가 필요하며, 그 결과로 무언가를 할 수 있는 시간과 용량을 모두 갖추어야 한다. 보다시피 이런 부분에서 떨어질 수 있는 곳이 많다.


우선 A/B 테스트 솔루션을 선택하고 구현하는 데는 시간과 비용이 든다. 그렇다면 누가 이 시스템을 평가하고 조달할 책임이 있으며, 누가 이 시스템을 관리하고 시행할 것이며, 누가 그 비용을 지불할 것인가? 대부분의 프로덕트 팀은 더 많은 작업을 추가하지 않고 기존 밀린 작업량을 진척하는 것이 충분히 어렵다는 것을 알게 된다.


테스트 프레임워크를 구축하는 데 성공한다면, 테스트를 구현하려면 설계, 엔지니어링 및 분석 팀 간의 조정이 필요할 것이다. QA도 여기서 할 말이 있을 것이다. 디자인과 엔지니어링의 관계가 최상으로 어려울 수 있다는 점을 고려하면, 디자이너들이 대체로 스스로 관리할 수 있는, 보다 질적인 시험 접근법을 고수하는 것이 이상한가?


'별이나 숫자 등급을 써야 하나'와 같은 기본적인 질문에도 답을 모른다는 사실을 인정하는 것은 그들이 이미 가지고 있는 거의 없는 힘과 지위를 손상시킬 수 있다. 분석적으로 더 집중된 팀에게 그 힘의 일부를 넘겨주는 것은 훨씬 더 어려울 수 있는데, 특히 최근의 히스토리가 있었던 것이라면 더욱 그렇다.

 

 

 

 

41개 블루의 그늘

아니, 우린 새로운 E.L.James 시리즈에 대해 얘기하는게 아니다. 대신, 우리는 수년 전에 구글에서 일어났던 사건에 대해 이야기 하고 있고, 그 후에 디자이너의 문화에 영향을 끼쳤다. 구글 초기 디자인에는 아직 '테이블의 자리'가 마련되지 않았고, 디자이너들은 테스트가 지배하는 환경에서 번창하기 어렵다는 것을 알게 되었다. 버튼의 정확한 16진수 값을 포함하여 모든 작은 결정을 시험하고 검증할 필요가 있었다. 현재 유명한 글에서 디자이너 Doug Bowman은 그들의 시험 문화가 그를 어떻게 몰아냈는지 설명했다.

 

"그래, 구글의 한 팀은 두 블루 사이에서 결정을 내리지 못한 것이 사실이야. 그래서 그들은 어떤 것이 더 나은지 보기 위해 각각의 블루 사이에서 41개의 음영을 테스트하고 있어. 나는 최근에 테두리가 3, 4, 5픽셀이 되어야 하는지에 대해 논쟁을 벌였고, 내 경우를 증명해 달라는 요청을 받았다. 하지만 그런 환경에서는 제안할 수 없다. 나는 그런 사소한 디자인 결정들에 대해 토론하는 것에 싫증이 났다. 이 세상에는 다루어야 할, 그것보다 더 흥미로운 디자인 문제들이 있다."


이 글은 많은 디자이너들이 첫 번째 원칙에서 모든 작은 결정들을 증명해야 한다고 느꼈고, 결과적으로 디자이너로서의 그들의 에이전시는 줄어들고 있었다. 구글이 나중에 그들의 결정을 정당화했지만, 나는 이 관점을 이해할 수 있다. 종종 미심쩍은 결정이 실사가 거의 없는 다른 부서에서 생산으로 밀려나는 것처럼 느껴지지만, 디자이너가 작은 변화라도 하고 싶을 때는 그것이 옳은 일이라는 명백한 증거를 제시해야 한다.

 

 

 

 

실험문화 구축

그러므로 중요한 것은 균형이다. 논쟁에서 이기기 위해 A/B 테스트가 타자로 이용되지 않는 문화를 만들고, 올바른 테스트를 받도록 하는 것이다.


한 회사는 대부분의 회사보다 시험을 더 잘 이해하는데, 그것은 Booking.com의 사람들이다. 그의 훌륭한 구글 대화에서, 당시 디자인 담당 이사였던 스튜어트 프리스비는 그가 어떻게 그의 팀들 사이에서 실험 문화를 창조해냈는지 설명한다.

 

 

 

 

A/B 테스트의 잠재적 함정

디자이너는 현재보다 훨씬 더 많은 A/B 시험을 수행해야 하지만, 몇 가지 함정이 있다. 적어도 더 나은 성과를 내는 모든 솔루션이 그러므로 올바른 솔루션이라는 생각은 하지 않는다.


이런 태도가 어디서 비롯됐는지 쉽게 알 수 있다. 팀들은 고객 경험을 향상시키는 것이 그들의 일이고, 이를 위한 방법은 특정 KPI와 OKR을 최적화하는 것이며, 일반적으로 취득, 보유 및 고객 만족도와 관련이 있다. 그래서 팀들은 목표물을 맞추면 모든 것이 괜찮아질 것이라는 것을 알고 안전하게 다이얼을 움직이기 시작했다.


이러한 사고방식을 넷플릭스의 Anna Blaylock으로부터 엿볼 수 있다. 넷플릭스 팀에 합류하면서 안나는 왜 이 제품이 예비 고객들이 가입하기 전에 제공되는 모든 콘텐츠를 볼 수 없게 했는지 궁금해했다. 디자이너의 관점에서 볼 때, 이것은 현명한 일인 것 같고, 그래서 Anna는 시험을 고안하기 시작했다.


여러분이 상상하실 수 있듯이, 그 테스트는 부정적으로 돌아왔다. 미리 제공되는 모든 것을 보지 못하면 넷플릭스에 가입하는 사람이 더 많은 것으로 나타났다. Anna는 이것을 식당 메뉴를 읽는 것과 음식을 먹는 것의 차이점에 비유한다. 넷플릭스를 이용하는 경험은 제공되는 영화와 TV 쇼의 목록 그 이상이다. 다른 것은 무엇이든지 방해가 된다. 내가 넷플릭스에서 일했다면 아마 비슷한 일을 했을 것이다. 나는 그 제프로덕트가 놀랍다는 것을 알고 있었다. 왜냐하면 내가 그것을 만들었기 때문이다. 그래서 내가 할 일은 가능한 한 많은 장벽을 제거하는 것 뿐이었고, 다른 사람들도 그것에 반하게 하는 것이었다.


그러나 나는 등록이 중단된 또 다른 이유가 있을 수 있다고 믿는다. 만약 일부 사용자들이 콘텐츠에 대해 정보에 입각한 결정을 내리길 원했고, 그들에게 충분한 가치가 없다고 결정한다면 어떨까? 어쩌면 그들이 좋아하는 쇼가 그 특정 플랫폼에 있는지, 아니면 넷플릭스가 아마존보다 좋아하는 콘텐츠가 더 많은지 판단하려 했던 게 아닐까. 따라서 아마도 노래를 부르기 전에 사용자들에게 카탈로그를 보여 주는 것이 매출을 희생하더라도 "올바른" 일이었을 것이다.


나는 이것이 A/B 테스트의 어려움 중 하나라고 생각한다. 특정 이슈를 중심으로 최적화하는 것이 본질적으로 좋다고 생각하기 쉬우며, 그 숫자들을 맞추기 위해 전력을 다한다.


지금 이 특별한 사건은 꽤 무해하다. 그래서 내가 선택한 것이다. 그러나 나는 그것을 명백하게 확인하지않으면, A/B 테스트는 심각한 문제로 이어질 수 있다고 믿는다.

 

 

 

 

오늘날 우리가 살고 있는 세계

지금은 상황이 좀 이상하다고 해도 과언이 아니다. 세계적인 유행병은 돌고, 모든 종류의 변두리 믿음은, 평평한 지구 이론가들로부터, 5G 마스트를 불태우는 사람들에 이르기까지, 그리고 훨씬 더 나쁜 영향을 받고 있는 것처럼 보인다.


많은 사람들이 "알고리즘"을 탓하지만, 실제로 그들이 말하는 것은 다변량 테스트의 극단적인 형태다. 어떤 콘텐츠가 참여를 유도하는 데 가장 효과적인지 확인하고, 더 많은 콘텐츠를 제공하는 것. 현대의 플랫폼은 하루에 수십, 수백, 심지어 수천 개의 테스트를 실행할 수도 있다. 이러한 시험들 중 많은 것들이 자동화되어 있고, 그 결정들이 완전히 이해되지 않으며, 반드시 일종의 윤리적 수정체를 통과하지는 않는다. 지표가 오른편으로 올라가는 한 모든 사람은 행복하다.


나는 효율성에 대한 그들의 추구에서, 많은 대형 플레이어들이 그들의 디자인 프로세스를 지나치게 계발하고, 인간의 과실을 제거하며, 더 많은 것을 더 잘 의미한다는 그들의 변함없는 믿음으로 그들의 OKR 뒤에 숨어있는 것을 걱정한다.


내 말은, 우리 모두가 여행의 변화된 경험에 동의할 수 있다고 생각한다는 것이다. 하지만 '이 가격에 남은 마지막 방'이라는 것과 '지금 이 방을 다른 5명이 보고 있다'는 말을 교묘하게 내뱉은 즉흥적인 말로 스트레스를 가중시키는 것은 어떨까? (정보가 사실이라고 가정하면) 꼭 어두운 패턴은 아니고, 표현도 잘 테스트했을 텐데, 과연 '올바른' 일일까.


마찬가지로 나는 우리 모두가 추천서가 비디오 스트리밍 플랫폼에서 얼마나 유용한지 동의할 수 있다고 생각한다. 그러나 한 개의 비디오를 보려다가 결국 세 개의 비디오를 보게 되면 사용자에게 정말 유익할까? 이러한 스트리밍 플랫폼의 가장 큰 경쟁자는 수면일 수 있지만, 그것이 최적화할 수 있는 것인가?


이제 나는 A/B 테스트와 그 사촌, 프로그램적인 권고들이 단지 여기서만 비난할 것이 아니라는 것에 감사한다. 그러나 기업 내부에서 이런 일이 벌어지는 규모는 대응하기 어렵게 됐다. 특히 우리가 정말로 하고 있는 것은 우리가 항상 해왔던 것과 같은 KPI 세트에 최적화하는 것이라는 주장 뒤에 숨어 있을 때, 우리는 단지 더 잘 하고 있을 뿐이다.


그래서 나는 디자이너들이 현재보다 더 많은 테스트를 해야 한다고 생각하는 동시에, 의사결정을 자동화하지 말아야 할 때를 아는 것도 중요하다고 생각한다. 나는 당신이 기술을 가지고 놀기를 권하고, 다음에 직업을 바꿀 때 성숙한 시험 문화를 가진 곳으로 이직하는 것을 고려해 보길 바란다.


그러나 면접관들에게 다음과 같은 질문을 할 만한 가치가 있을 수도 있다.


"A/B 테스트에서 입증된 변경사항을 발송하지 않기로 결정한 것이 마지막으로 언제였으며, 그 이유는?"
그래야 개가 꼬리를 흔들고 있는지, 아니면 꼬리가 개를 흔들고 있는지 적어도 알 수 있다.

 

 

 

 

-

저자 : Andy Budd
원문 링크: https://uxdesign.cc/the-good-the-bad-and-the-ugly-of-a-b-testing-clearleft-90d2f01efca8

반응형

댓글