빅데이터

데이터 분석의 핵심, 모델링(중요: 고객프로파일링 만들어가는 절차.방법)

성공을 도와주기 2019. 6. 14. 10:03

데이터 분석의 핵심, 모델링①

모델링, 복잡한 세계를 바라보기 위한 안경

D I  C U R A T I O N

빅데이터 마케팅

  1. 마케팅과 과학의 만남①, ②
  2. 데이터 분석의 핵심, 모델링①, ②
  3. AB테스트와 웹사이트 최적화①, ②
  4. 데이터 사이언티스트의 현실과 미래①, ②

2. 데이터 분석의 핵심, 모델링①

데이터 분석은 마케팅 활동뿐 아니라 비즈니스 전반에 큰 도움을 준다. 하지만 구체적으로 어떻게 해야 하는 것일까. 이번 시간은 데이터를 활용해 비즈니스에 꼭 맞는 모델을 만들어 내는 ‘모델링’에 대해 알아본다.

모델링, 복잡한 세계를 바라보기 위한 안경

데이터 분석을 통해 비즈니스에 활용할 수 있는 인사이트를 찾아낸다고 하면, 대부분 마케터는 고개를 끄덕일 것이다. 고객의 행동을 데이터로 남기면 고객의 성향을 확인할 수 있고, 이를 잘 활용하면 분명 비즈니스에 도움이 되기 때문. 데이터 분석 전문가나 전문 마케터가 아니더라도 이 정도는 이해할 수 있다. 하지만 ‘구체적으로 어떻게 해야 하는지’에 대해서는 대부분 마케터가 고개를 절레절레 흔든다. 잘 모르기 때문이다.

필자는 그러한 질문을 받으면 ‘가지고 있는 데이터를 활용해서 적절한 모델을 만들어야 한다’고 대답한다. 대부분의 마케터는 속으로 생각할 것이다. ‘무슨 말인지 잘 모르겠다. 잘하면 된다는 말과 뭐가 다르지?’. 하지만 데이터 분석에 능한 마케터라면, 여기서 ‘모델’이 어떤 모델인지 궁금해해야 한다. 당연하지만 매우 중요한 의문이다. 사실 필자는 이러한 의문에 상대방이 만족스러운 표정으로 이해할 수 있는 깔끔한 설명을 해 준 적이 별로 없는 것 같다. 그만큼 쉽지 않기 때문이다.

‘모델링’이 무엇인지 한마디로 정의하면 ‘현실 세계의 복잡한 대상을 필요에 따라 특징을 잡아내 개념적으로 간략하게 표현하는 것’이다.

여전히 말이 어려운데, 서울 지하철 노선도의 경우를 예로 들자. 서울에서 지하철을 이용할 때 대부분 사람이 머릿속에 떠올리는 것은 아래 그림과 같은 노선도일 것이다.

서울시 지하철 노선도

위의 노선도가 바로 서울 지하철을 모델링한 결과물이다. 실제의 서울 지하철은 위 노선도보다 훨씬 복잡하다. 저 노선도에는 지하철이 몇 분 간격으로 언제 다니는지, 혹은 지하철 타면 시간이 얼마나 걸리는지 등 세세한 정보는 표현돼 있지 않다. 다만 역과 역 사이 연결상태 표시만 있을 뿐이다. 하지만 지하철 이용자의 입장에서는 이 정도 정보만 있어도 이용하는 데 큰 불편이 없다. 즉, 이용자에게 필요한 정보만을 뽑아 개념적으로 표현한 것이 지하철 노선도이다. 다시 모델링의 정의로 돌아가서 대입해서 설명하자면 다음과 같다. “모델링(지하철 노선도 만들기)은 현실 세계의 복잡한 대상(서울시 지하철)으로부터 필요에 따라(지하철 이용자가 필요한) 특징(역과 역 사이 연결상태)을 잡아내 개념적으로 간략하게 표현하는 것”.


Digital AD


고객 개개인에 대한 모델링, 고객 프로파일링

그런데 이 모델링이 비즈니스 데이터 분석하고 대체 무슨 상관일까? 비즈니스 현장에서 사용하는 데이터는 있는 그대로는 쓸 수가 없다. 파편화가 심하기 때문이다. 그래서 적절한 방법으로 모델링을 해야 한다. 모델링을 할 수 있는 주제는 여러 가지가 있는데, 그중에서 고객 개개인에 관한 모델링 방법론 중 하나인 ‘고객 프로파일링’에 대해 함께 살펴보자.

‘프로파일링’이라는 개념 또한 모델링 못지않게 설명하기 어려운 용어이다. 매우 추상적인 개념이고, 분야마다 프로파일링이라는 용어가 의미하는 바가 다르기 때문이다. 한국경제 경제 용어사전에서는 ‘자료수집이 원뜻이나 수사용어로는 범죄유형 분석법을 의미한다. 범죄 현상을 분석해 범인의 습관, 나이, 성격, 직업, 범행수법 추론한 뒤 이를 바탕으로 범인을 찾아내는 수사기법이다’고 정의한다. 뭔가 이해가 될 듯하지만 범죄학 용어라 그런지 아직 무슨 소리인지 잘 모르겠다. 이것을 우리에게 익숙한 마케팅 용어로 재정의하면 다음과 같다. ‘고객이 발생시킨 각종 데이터를 분석해 고객의 습관, 나이, 성격, 직업 등을 추론한 뒤 이를 바탕으로 고객이 원하는 것을 찾아내 제공하는 마케팅 기법’. 디지털 마케팅에 관심이 있는 사람이라면 이제는 확실히 감이 올 것이다.

프로파일링의 결과물은 프로필이다. 가장 흔히 생각할 수 있는 ‘프로필’은 아마도 연예인의 프로필일 것이다. 다음은 네이버 인물 정보를 통해 검색한 소녀시대 멤버 윤아의 프로필.

위 프로필을 보면 윤아가 대략 어떤 사람인지 알 수 있다. 본명이 ‘임윤아’인 것으로 보이며 성을 빼고 이름만 가져와서 예명으로 쓰고 있다. 인기 걸그룹 소녀시대에서 활동하고 있으며 유명 엔터테인먼트 펌 SM엔터테인먼트 소속이다. 하지만 위 정보가 전부인가 하면 그렇지 않다. 실제 윤아는 프로필에 나와 있는 여러 속성을 제외하고도 훨씬 더 복잡하고 다양한 특징을 가진 사람일 것이다. 키나 몸무게, 출신 학교, 성격, 가족관계 등 훨씬 더 많은 요소가 ‘윤아’라는 사람을 구성하고 있지만, 프로필에는 그런 정보가 없다.

‘모델링’의 의미를 생각해 보면 ‘그 사람의 프로필이 결국 그 사람을 모델링한 결과’란 사실을 알 수 있다. 앞서 언급했던 모델링의 정의에 프로파일링을 대입하면, ‘모델링(프로파일링)은 현실 세계의 복잡한 대상(실존 인물)으로부터 필요에 따라 특징을 잡아내서(성별, 연령, 소속그룹, 소속사 등) 간략하게 표현한 것’이 된다.

프로파일링 개념은 인터넷 서비스 고객에도 적용할 수 있다. 인터넷 쇼핑몰을 운영하는 회사라면 대부분 고객이 어떤 상품을 구매했는지에 관한 정보가 있다. 여기서 한 걸음 더 나아가 고객 데이터를 더 철저히 관리하는 회사라면, 고객이 콜센터에 전화해 클레임을 한 적이 있는지, 혹시 구매 취소나 반품을 한 이력이 있는지, 고객이 어떤 상품에 관심을 두고 있는지까지도 데이터화할 수 있다. 고객 데이터를 나름으로 열심히 수집하는 회사에서 고객 한 명에 대한 데이터를 뽑아 보면 보통 다음과 같은 형태가 나온다.

<표①>어떤 사용자의 인터넷 쇼핑몰 사용 기록

위의 <표①> 기록을 보면 이 사용자에 대해 여러 가지를 짐작할 수 있다. 먼저 이 사람은 이 사이트에서 주로 육아와 관련한 물품을 구매하는 사용자다. 구매빈도는 특별히 높다고도, 낮다고도 할 수 없는 중간 정도로 보인다. 또 육아에만 관심을 가진 것은 아닌 것으로 추측할 수 있다. 비록 구매까지 이어지지는 않았으나 TV나 컴퓨터 등 고가의 전자제품도 검색한 이력이 있는 것으로 볼 때, 이러한 상품을 구매할 의향이 있을지 모르는 사용자다. 재미있는 것은 이 사람이 결제방법으로 가상계좌를 많이 사용하는 사람이란 점이다. 온라인에서 물건을 살 때, 신용카드를 이용한 결제가 일반적이라는 점을 고려하면 이 고객은 흥미로운 사용자라 할 수 있다. 그런데 6월에 자신이 구매했던 물건을 반품한 다음에는 더 구매를 하지 않고 있다. 아마도 상품이나 고객센터에 크게 실망해서 이탈한 것으로 보인다. 만약 우리가 이 고객에 관해서 프로파일링한다면 아마도 다음과 같은 형태의 결과물이 나올 것이다.

<표②>사용자의 프로파일링 결과

<표②>와 같이 정리해 보면, 이 사용자가 어떤 사람인지 더 쉽게 눈에 들어온다. 사실, <표①>과 같은 형태의 데이터는 그 자체로는 제대로 활용을 할 수가 없다. 예를 들어, <표①>의 사용자와 유사한 속성을 가진 사용자가 몇 명이나 되는지를 알고 싶다고 해 보자. 먼저 ‘유사하다’는 개념을 어떻게 정의할 것인지 고민을 해야 한다. 하지만 <표②>와 같이 모든 고객에 대한 프로파일링이 되어 있으면, ‘주 구매상품이 유아용품이고 구매빈도가 중간인 사용자는 현재 10,235명’과 같은 형태로 정확하게 표현할 수 있다. 이는 실제로 사업전략을 짜거나 마케팅 캠페인을 기획할 때 참고할 수 있는 정보가 된다. 이것이 바로 프로파일링의 힘이다.

mbc’프로파일링’프로그램

이것이 바로 프로파일링의 힘이다.

하지만 프로파일링은 결코 쉬운 작업이 아니다. 프로파일링 항목을 정하는 것부터 만만치 않다. 앞서 언급한 사례에서는 온라인 쇼핑몰 고객의 구매빈도, 객단가, 주 구매상품, 관심상품, 주 결제수단, 이탈위험이라는 여섯 가지 항목을 이용해 프로파일링했다. 하지만 프로파일링이 가능한 항목은 사실상 ‘무한대’다. 무한한 프로파일링 항목 중에서 비즈니스적 관점에서 실질적으로 의미가 있는 프로파일링 항목을 선택해야 한다. 가령 결제수단과 같은 항목은 비즈니스의 속성에 따라서 중요할 수도 있고 별 의미가 없을 수도 있다. 걸그룹 멤버의 프로필이라고 하면 키나 몸무게, 사이즈 같은 신체적 특징에 관련된 정보가 관심의 대상이 될 수 있지만, 인터넷 쇼핑몰 고객의 프로필에서는 그것이 아무런 의미가 없다.

그리고 프로파일링 항목을 정했다고 하더라도 기준을 잡는 것 또한 만만치 않다. 예를 들어, 고객의 객단가를 높음, 중간, 낮음의 3단계로 나눈다고 했을 때 얼마 이상을 높다고, 얼마 이하를 낮다고 설정할지 명확하지 않다. 또 실무적으로는 3단계로 나누는 것이 맞는지, 4·5단계로 설정하는 것보다 효율적일지 등 기준에 대한 깊이 있는 고민이 필요하다.

이런 고민은 전부 모델링 과정의 일부이다. 모델링을 하는 데에 딱히 정답은 없다. 유일한 고려사항은 프로파일링 결과를 실제로 비즈니스에서 활용할 수 있어야 한다는 점이다. 그러려면 그 조직에서 사업을 바라보는 관점을 제대로 반영해야 한다. 회사에서 중요하게 생각하는 것이 무엇인지, 가령 회사의 전략이 한 개를 팔더라도 고가의 상품을 팔아 이익을 높이는 것이라면 객단가가 중요하겠지만, 싼 상품이라도 가급적 자주 사게 하는 것이라면 구매빈도가 훨씬 더 중요할 것이다. 고객층을 나누는 기준 또한 마찬가지다. 백화점 명품 매장은 100만 원이나 200만 원 구매했다고 해서 VIP로 규정하지 않지만, 프랜차이즈 커피숍이라면 100만 원을 쓴 고객은 VIP로 볼 수 있다. 즉, 이런 문제에 대해 합리적인 기준을 만들기 위해서는 비즈니스를 잘 알아야 한다. 경영 컨설턴트가 고객사에 들어갈 때 열심히 인터뷰하고 문서를 뒤적거리는 이유가 바로 이것이다.

<2.데이터 분석의 핵심, 모델링②>로 이어집니다.