[RecSys] 추천시스템 전반적 개요 정리

추천 시스템의 주요 유형
콘텐츠 기반 필터링
협업 필터링
하이브리드 방법
추천 시스템의 핵심 요소
추천 시스템의 도전과제
데이터 희소성: Cold Start 문제
확장성: 대규모 데이터 처리의 어려움
편향 & 다양성 문제: 필터 버블 현상
추천 시스템 순위 평가 지표
오프라인 평가지표

이번 학기 추천시스템 강의를 듣게 되었는데, 수업 이전에 간단히 내용을 리마인드 하고자 글을 쓴다.

추천 시스템 순위 평가 지표

추천 시스템은 사용자가 선호할 가능성이 높은 항목을 순위별로 제공하여 사용자의 만족도를 높인다.

추천 시스템, 검색 엔진과 같은 순위 시스템은 목록의 항목을 우선순위에 따라 정렬하여 제공하는 알고리즘을 사용한다. 이들은 관련성을 기준으로 평가되며 사용되는 평가 지표 또한 유사하다.

추천 시스템의 평가 지표에 앞서 몇가지 용어를 정리해보자.

Ground Truth
- 모델이 예측한 정확도를 평가하는데 사용되는 참값으로, 예측된 추천 결과의 품질을 평가하기 위해 비교할 실제 사용자 행동 데이터를 의미한다.
- 이때, 예측된 순위나 추천 결과가 실제 사용자 선호도와 얼마나 일치하는지 관련성 점수를 사용하여 평가한다.
  - 관련성 점수: 추천된 항목이 사용자에게 얼마나 유용했는지 측정하는 척도

오프라인 평가
- 모델을 훈련하고 과거 데이터(ex. 평점, 이미 수집된 데이터)를 기반으로 미래 사용자 행동을 예측하여 성능을 평가하는 방법을 의미한다.
- 많은 사용자 access가 필요없기에 여러 모델을 비교하거나 최적의 모델을 선택하기 위한 평가 방식이다.
- ex) accuracy, precision, recall, F1-Score, RMSE, etc..
온라인 평가
- 실제 사용자를 대상으로 실제 운영 중인 환경에서 성능을 평가하는 방식

관련성
- 관련성이란, 추천된 항목이 사용자 프로필이나 쿼리와 얼마나 잘 부합되는지를 나타낸다.
- ex) 구매 가능성이 높은 항목, 주어진 쿼리에 잘 맞는 문서 등
관련성 측정 방법
- 이진 점수: 관련 여부를 1 or 0으로 단순하게 평가하는 방식이다.
- 등급점수: 다양한 사용자 행동에 가중치를 부여하여 관련성을 평가하는 방식이다.
  - ex) 클릭 = 1점, 장바구니 추가 = 3점, 구매 = 4점, etc..

수동 채점 방식
- 사용자 평가: 사용자가 항목에 직접 1~5점 등의 평점을 매겨 관련성을 평가하는 방식이다.
- 검색 엔진 평가: 평가자가 수동으로 문서의 관련성을 평가하는 방식이다.

이진 레이블 변환
- 많은 순위 지표는 이진 관련성을 사용하기 때문에, 등급 점수를 이진 레이블로 변환해야 한다.
  - ex) 4점 이상은 좋음, 3점 이하는 나쁨으로 변환 후 평가

Top-K 추천
- K는 평가하려는 상위 추천 항목의 수를 나타낸다.
- 시스템은 많은 항목을 추천할 수 있지만, 사용자가 실제로 상호작용할 가능성이 높은 상위 K개의 항목에 집중하는 것이 중요하다.
- 많은 추천 항목 중 모든 항목에 대해 평가하는 것은 비효율적이며, 대부분의 항목이 사용자에게 관련이 없다. (상위 K개 항목 평가에만 집중하는 것이 의미)

오프라인 평가지표

예측 오차 평가지표
- 사용자가 아이템에 부여한 실제 평점과 추천 시스템이 예측한 평점 사이의 차이를 측정하는 지표다. (예측 성능 평가 지표)
- ex) MAE, RMSE
- MAE는 모든 오차를 동일하게 평가하고, RMSE는 큰 오차에 더 민감하게 반응한다는 특징을 가지고 있다.

집합 평가지표
- Precision (정밀도): TPTP+FP
  - 추천된 상위 K개의 항목 중 얼마나 많은 항목이 관련성이 있는지를 측정하는 지표 (긍정 예측 중 실제로 긍정인 비율)
  - 사용자가 관련 항목을 많이 가지고 있고 그 중 일부만 추천해야 할 때 효과적이다.
  - 단점
    - 정확도는 사용자가 가진 관련 항목의 총 수에 영향을 받는다.
    - 다른 사용자들과 정확도를 비교하거나 평균화할 때 어려움을 겪는다.
- Recall (재현율): TPTP+FN
  - 상위 K개의 총 관련 항목 중 얼마나 많은 관련 항목을 성공적으로 추천했는지를 나타낸다. (실제 긍정을 얼마나 잘 예측했는지 비율)
  - 시스템이 상위 K개의 추천에서 얼마나 많은 관련 항목을 포착했는지를 평가한다.
  - 관련 항목이 소수인 애플리케이션에서 유용하며 Precision을 약간 희생하더라도 모든 관련 항목을 반환하는 것이 중요할 때 유용하다.
- F1-Score: 2∗Precision∗RecallPrecision+Recall
  - Precision과 Recall의 조화 평균 값으로, 균형 잡힌 평가를 제공한다.
  - 단점
    - 관련 항목의 총 수에 따라 값이 크게 변동된다. (성과 비교의 어려움)
    - 관련 항목의 순위를 고려하지 않는다는 단점이 존재한다. (위치에 상관없이 F-Score는 동일하게 계산)

순위 평가지표
- MAP (Mean Average Precision)
  - 여러 추천 목록에 대한 평균 Precision을 측정하는 지표다.
  - 각 쿼리나 사용자에 대한 Precision을 평가한 후 이를 평균하여 전체 시스템의 성능을 평가한다.

$rel_k$ : k번째 항목이 관련성이 있으면 1, 없으면 0
Precision@k: k번째 항목까지의 Precision 값
Q: 전체 사용자 or 쿼리 수

NDCG
- 추천 시스템이 관련성이 높은 항목을 얼마나 상위에 위치시켰는가를 측정하는 지표다.
- 순위가 낮아질수록 관련 항목의 중요성이 감소하는 것을 반영하여 순위별 가중치를 부여한다.

$rel_i$ : 순위 i에서 관련성이 있으면 1, 없으면 0
i: 항목의 추천 순위
IDCG: 관련성이 가장 높은 항목들이 최상위에 배치된 경우의 DCG값, DCG를 정규화하기 위한 기준으로 사용

기타 평가지표
- 다양성 (Diversity)
  - 추천 항목 간의 서로 다른 정도를 측정하는 지표로 추천 목록에 포함된 아이템들이 얼마나 상이한지 평가한다.
  - 계산방법
    - 코사인 유사도 or 유클라디안 거리 등을 이용하ㅣ여 추천된 항목들 간의 유사도를 측정하여 이를 바탕으로 다양성을 평가한다.
- 새로움 (Novelty)
  - 사용자가 이전에 접하지 않은 새로운 항목을 얼마나 추천하는지 평가하는 지표다.
  - 계산방법
    - 추천된 아이템 중에 사용자가 과거에 상호작용하지 않은 항목의 비율을 계산하여 평가한다.
- 의외성 (Serendipity)
  - 사용자가 예상치 못한 항목이지만 유용하거나 흥미를 느낄 수 있는 항목을 추천하는 정도를 평가하는 지표다.
  - 계산방법
    - 추천된 항목 중 사용자가 이전에 상호작용하지 않았으나 높은 상호작용 가능성이 있는 항목의 비율을 측정하여 평가한다.

'Analytics' 카테고리의 다른 글

[RecSys] Matrix Factorization (3)	2024.10.15
[ML/DL] ResNet (feat: Skip-Connection) (1)	2024.10.04
[Causal Inference] 메타러너 (1)	2024.09.28
[ML/DL] Transformer: Attention Is All You Need (2)	2024.09.26
[Causal Inference] 이질적 처치효과 (2)	2024.09.24

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[RecSys] 추천시스템 전반적 개요 정리

추천 시스템의 주요 유형

콘텐츠 기반 필터링

협업 필터링

사용자 기반 협업 필터링

아이템 기반 협업 필터링

하이브리드 방법

추천 시스템의 핵심 요소

추천 시스템의 도전과제

데이터 희소성: Cold Start 문제

확장성: 대규모 데이터 처리의 어려움

편향 & 다양성 문제: 필터 버블 현상

추천 시스템 순위 평가 지표

오프라인 평가지표

'Analytics' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역