[NLP] Text Representation
컴퓨터는 텍스트를 이해하지 못한다. 때문에, 컴퓨터가 텍스트를 이해할 수 있도록 잘 표현해주어야 하는데, 우리는 그것을 Text Representation이라고 한다. 즉, 우리는 NLP에 있어서 항상 텍스트를 어떻게 컴퓨터가 이해할 수 있도록 변환할까를 계속 고민해야한다. 오늘은 컴퓨터가 텍스트를 이해할 수 있도록 변형하는 몇가지 기법을 소개해보고자 한다. 원-핫 인코딩(One-Hot Encoding) 원-핫 인코딩(One-Hot Encoding)은 문장내에 등장한 모든 단어의 차원을 나열한 것을 의미한다. 아래의 예시와 같이 문장이 있는 경우, 문장에 들어가는 단어의 수만큼 차원을 만들고 각 차원마다 단어의 위치를 지정하여 해당 단어가 나오는 차원에 1을 부여하는 것이다. Bag Of Words 원-..