데이터 분석에서 벡터의 의미 

: 하나의 벡터는 하나의 데이터 포인트의 독립변수들에 의해 반영되는 고유한 특성을 나타낸다. 

벡터들 간 유사도를 구하면 결국 그 벡터들로 표현되는 데이터 포인트들 간 유사도를 구할 수 있다. 

데이터 포인트를 고유한 특성을 잘 표현할 수 있게끔 벡터로 표현하는 게 매우 중요하다.

이를 위해 어떤 독립변수가 데이터 포인트의 특성을 잘 반영하는지 알아야 한다.




벡터 간 유사도 계산


1) 유클리디안 거리 (K-means 알고리즘에 사용)


2) 코사인 유사도 (K-means, Hierarchical 알고리즘에 사용)

방향이 비슷할수록 벡터 간 유사도가 높다는 가정 하에 두 벡터 간 사이각을 계산. 

코사인 거리 : 1 - cos(Θ)

cos(Θ)를 구하기 위해서는 내적을 알아야 한다. 내적의 결과는 하나의 스칼라 값


Norm

Norm이라는 개념을 알아야 한다. Norm은 벡터의 크기(혹은 길이)를 측정하는 방법(혹은 함수)이다. 두 벡터 사이의 거리를 측정하는 방법이기도 하다. 영어 설명을 보자면, The length of the vector is referred to as the vector norm or the vector's magnitude

벡터의 길이를 계산할 때 사용할 수 있는 대표적인 방법으로 Lp Norm이 있다. p는 숫자 의미!  




L2 norm을 가장 많이 쓰고, L1 norm을 그 다음으로 많이 쓴다. 

L2 norm는 유클리디안 거리 방법을 사용하고 L1 norm은 맨하탄 거리 방법을 사용한다.