https://towardsdatascience.com/how-to-design-better-metrics-9bad7bc8c875
읽게된 동기: karel 소개로 읽게 됨
요약
Principle 1: A metric should be a good proxy of what you’re trying to measure.
다르게 얘기하면... 'what you're trying to measure'를 알아야하는데... 이부분이 제일 어려운 듯.
Principle 2: The metric should be easy to calculate and understand
복잡한 분석이 안좋은 이유.
1. 🤔 They are difficult to understand. -> 매번 물어봐야하고 까먹고 오용하고..
2. 🧑🔬 They force a centralization of analytics. -> 데이터 민주화에 역행
3. ⚠️ They are prone to errors. -> 헷갈리니 자주 틀리고...
4. 🔮 They often involve projections.
ㄴ 이 부분은 살짝 이해하기 어려운데, 대략 "xxx를 예측하기 위해 만들어진다"라는 의미로 해서됨. 문제는 그 예측을 위해 어떤 가정이 깔리는데 그 가정이 시간이 지나면서 틀릴 수 있다는거...
ㄴ 즉, metric이 현재 상태 그대로를 얘기하지않고 어떤 가정을 기반으로 만들어지면 안좋다는 의미로 이해함.
Principle 3: A good (operational) metric should be responsive
Impact에 즉각 반응(responsive)해야 한다는 의미.
후행지표, 동행지표, 선행지표 뭐 그런 관점에서 후행지표는 안된다는 의미일듯.
당연한 얘기...
집계를 실시간으로 하라는 의미는 아님.
예를 들어 최근 2달간 이동평균을 구한다고 했을 때 오늘 왠만큼 큰 일이 벌어지지 않는 이상 이 Metric은 Response가 없을 것이다.
Principle 4: A metric should be hard to manipulate
Facebook에서 콘텐츠에 "relevant"한 사용자 반응 측정을 하고 싶어서 "relevance" 지표로써 like, comments 등을 썼더니..
사람들이 like, comments 등을 구걸하는 비즈니스가 생김... -> Metric의 신뢰도가 떨어짐.
“When a measure becomes a target, it ceases to be a good measure.”
— Goodhart’s Law
So one way to prevent manipulation is by designing the metric to restrict the unwanted behavior that you anticipate. Another approach is to pair metrics. This approach was introduced by Andy Grove in his book “High Output Management”:
“So because indicators direct one’s activities, you should guard against overreacting. This you can do by pairing indicators, so that together both effect and counter-effect are measured.” — Andy Grove, “High Output Management”
사용자 측정을 위한 주요 Metric을 산정할 때 어뷰징을 방어할 수 있는 pairing indicator를 같이 설계하자!
time to first response <-> couple it with a target for ticket resolution time (or customer satisfaction)
Principle 5: A good metric doesn’t have arbitrary thresholds
흔히들 "고충성도 사용자" 같은 Metric을 만들고 싶어하는데 이 Metric에는 임의(arbitary)로 지정된 threshold가 개입한다...
특정 시점에 분석관점에서 "고충성도 사용자"를 계산해볼 수는 있겠지만 그게 arbitary이면 위험하다는 의미
BUT: The threshold should not be arbitrary.
트위치는 "최근 5분"간의 stream 소비자를 주요 지표로 사용하는데 "5분"이 어떤 절대적 의미를 가졌을까?
우리 우버에서는 "low-density" 식당의 기준으로써 아래와 같은 분석을 통해 "elbow"를 찾아서 사용했다.
Principle 6: Good metrics create context
절대적인 수치가 큰 것은 (임팩트는 있겠으나) 정보로써 효용은 떨어진다.
Turning the absolute number into a ratio adds context.
Principle 7: A metric needs a clear owner that controls the metric
티아라tf가 Metric owner라고 봐야겠지?
Principle 8: A good metric minimizes noise
좋은 얘기인데...이걸 누가 하냐가 관건...서비스마다 직접 하는게 맞을텐데 다들 생각이 없는듯..
Principle 9: Certain metrics should be industry standard
업계 표준 Metric은 티아라tf에서 만들어주는게 맞을듯...
모던한 업계 표준 Metric 조사가 되면 좋겠다.
'SW-PRODUCT > 개발-데이터분석' 카테고리의 다른 글
Automatic Differentiation (0) | 2018.03.04 |
---|---|
[링크] Some Design Patterns for Real World Machine Learning Systems (0) | 2017.10.31 |
[링크] t-SNE : 다차원 데이터를 2차원에 그려주기! (0) | 2017.10.24 |
R에서 dist 객체 이해하기 (0) | 2017.10.24 |
[링크] Detecting Fake News with Scikit-Learn (0) | 2017.10.19 |