[VectorStore] FAISS(Faicbook AI Similarity Search) 사용법

https://baram1ng.tistory.com/59

벡터 데이터베이스 (VectorDB)

RAG를 공부하면서 Vector DB에 대해 자세히 알아볼 필요성을 느껴 포스팅을 진행해보고자 한다. Database 구분 Database는 크게 3가지로 구분이 된다.관계형 데이터베이스(RDBMS)비관계형 데이터베이스(N

baram1ng.tistory.com

이번에는 FAISS에 대해 정리해보고자 한다.

FAISS

출처: https://www.youtube.com/watch?app=desktop&v=sKyvsdEv6rk

FAISS는 Facebook AI Research에서 개발한 라이브러리로 대량의 고차원 벡터에서 효율적인 유사성 검색 및 클러스터링을 처리를 위해 개발된 라이브러리다. 딥러닝에서는 복잡한 이미지, 텍스트, 사운드 데이터들을 벡터화하는 작업이 우선적으로 처리되어야 하는데 FAISS는 특히 딥러닝에서 생성된 대량의 벡터 데이터에 대한 연산을 처리하는데 최적화되어 있는 라이브러리이다.

딥러닝 문제를 해결함에 있어서 벡터 간 유사성을 찾는 상황이 일반적으로 많이 발생한다. 벡터 간 유사성을 찾는 방법으로 유클리드 거리나, 코사인 유사도 같은 방법을 사용할 수 있지만 이는 고차원&대용량 벡터 데이터로 넘어가게 되면 계산량이 많아져 굉장히 비효율적이게 된다. 반면 FAISS는 양자화 및 압축, 색인 생성 등의 최적화 기법을 사용하여 대량의 고차원 벡터에서 유사 벡터를 빠르게 찾을 수 있다는 장점을 가지고 있어 딥러닝에 자주 사용된다.

FAISS 기능

FAISS는 크게 유사성 검색, 벡터 양자화의 2가지 기능을 제공한다.

유사성 검색의 경우 코사인 유사도와 비슷한 로직을 생각하면 되는데, 벡터 공간에서 가장 가까운 이웃 벡터를 효과적으로 찾아내는 기능을 제공하는 것을 의미한다. 이전에 언급했듯 딥러닝에 사용되는 이미지, 텍스트, 사운드 등 다양한 데이터 유형에 대한 유사성 기반 검색에 꽤나 빠르고 정확한 성능을 제공한다.

두 번째 기능인 벡터 양자화 이전에 개념부터 정리해보자.

벡터 양자화의 정의는 N개의 특징 벡터 집합 x를 K개의 특징 벡터들의 집합 Y로 mapping하는 것이다. 예를 들어 아래 X, Y 벡터가 있다고 생각해보자.

$$ X = (소녀시대, 한예슬, 코드브이, 얀, 이영애, 한석규, 안성기, 유재석, 강호동) $$

$$ Y = (가수, 영화배우, 개그맨, 연예인) $$

이 때 X -> Y로 mapping을 진행하면 아래와 같이 매핑할 수 있다.

$$ 가수 = (소녀시대, 코드브이, 얀) $$

$$ 영화배우 = (한석규, 안성기) $$

$$ 개그맨 = (유재석, 강호동) $$

$$ 연예인 = (한예슬) $$

이 때 위와 같이 매핑 하는 방법을 사상함수라고 하며, $y=f(x) $라고 했을 때 $f()$를 양자화 연산자라고 한다.

여기서 중요하게 알아봐야 할 점은 벡터 Y의 각 특징(원소)들은 벡터 X의 원소가 매핑이 되는 큰 카테고리라고 보면 되고 이를 코드워드, 코드벡터, 클러스터 등이라고 부른다. 그리고 Y 집합은 코드북이라고 부른다.

다시 FAISS의 기능으로 돌아와서 핵심을 살펴보면, FAISS는 벡터 데이터를 압축하고 저장하는데 사용이 되는 벡터 양자화 기능도 제공한다는 것이다. (대량의 데이터를 효율적으로 저장하고 메모리 사용량을 줄이는 데 도움을 준다. -> 속도 향상!!)

FAISS 사용법

사용법 이전에 FAISS 작동 원리에 대해 간략히 짚고 넘어가보면 아래와 같다.

FAISS의 핵심 개념은 인덱스 생성이다. 인덱스는 벡터 데이터의 구조를 나타내는 메타데이터라고 보면 된다. 먼저 데이터를 양자화하여 인덱스를 생성하고 이후 인덱스를 활용해서 유사성 검색을 수행하는 구조다. 이 때 FAISS는 복잡한 벡터 공간을 작은 클러스터로 분할하며 각 클러스터는 그 안에 벡터들이 서로 유사하다는 점에서 차별성을 가진다. 클러스터링은 원본 벡터 공간을 더 작고 이해하기 쉽게, 계산하기 편한 공간으로 변환하는 역할을 한다. 이렇게 만들어진 클러스터는 원래 대량 데이터 대신 사용되며 각 클러스터는 원본 데이터의 '대표', '중심'을 나타내게 된다.

FAISS를 사용하기 위해선 아래의 4단계로 요약할 수 있을 것 같다.

필요한 벡터 데이터 로드
로드한 벡터 데이터를 파시스 인덱스에 추가
인덱스 학습
1. 전역 클러스터링
2. 로컬 클러스터링
유사성 검색 수행

인덱스 학습(3)의 경우 위와 같이 두 단계로 나뉘게 되는데 가장 먼저 전체 데이터 셋에 대한 전역 클러스터링을 수행한다. (이 전역 클러스터는 벡터 공간을 광범위하게 커버) 다음으로 전역 클러스터 내에서 로컬 클러스터링을 수행하며 이 때 클러스터의 수를 늘리고 벡터 공간을 더욱 세밀하게 나누어 계산 속도 및 정확성을 향상시킨다.

유사성 검색 수행(4)의 경우 쿼리 벡터를 입력으로 받아 가장 유사한 벡터들을 인덱스에서 찾아 반환한다. 이 때 인덱스 내의 각 클러스터에 대해 계산되고 가장 유사도가 높은 클러스터들이 반환 결과로 선택된다.

위를 기능적으로 요약하면, FAISS의 컴포넌트를 2가지(인덱싱, 검색)로 쪼갤 수 있다. 인덱싱에서는 대량의 고차원 벡터 데이터를 관리 및 인덱스 구축에 기능을 담당하며 검색 부분에서는 구축된 인덱스를 통해 특정 쿼리 벡터와 가장 유사한 벡터를 찾아내는 기능을 한다.

더불어 FAISS는 크게 3가지 인덱스 유형을 지원한다. 크게 아래와 같은 3가지 유형을 지원한다.

플랫(flat) 인덱스: 간단히 모든 벡터 간의 거리를 계산하는 방식이다. (가장 비효율적인 인덱스)
계층적(hierarchical) 인덱스: 벡터 공간을 여러 계층으로 나누어 검색을 최적화한다.
제품 인덱스(product): 여러 벡터를 조합하여 더 복잡한 벡터를 생성하고 이를 인덱스화 한다.

코드 리뷰

OpenAIEmbeddings로 텍스트를 벡터로 변환해서 FAISS index에 저장하는 과정을 살펴보자.

from langchain_openai import OpenAIEmbeddings

# OpenAI 임베딩 모델 초기화
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

FAISS Index 초기화 후, vector_store를 생성한다.

IndexFlatL2로 FAISS의 인덱스를 초기화한다면, 추후에 vector_store에 입력될 임베딩들이 다 hello world와 동일한 차원으로 임베딩 된다고 생각하면 된다.
- 만일, 문서가 너무 길어서 한번에 임베딩하기가 어려운 경우, 문서를 일정한 길이의 chunk로 나눈 후에 각각 임베딩하는 방식으로 처리한다.
아래와 같이 초기화하고 vector_store를 생성한 이후에는 별도로 임베딩 과정을 호출할 필요없이, vector_store.add_documents(documents=documents, ids=uuids) 만으로 내부에서 임베딩을 처리한다.

import faiss
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore

# FAISS 인덱스 생성
index = faiss.IndexFlatL2(len(embeddings.embed_query("hello world")))
vector_store = FAISS(
    embedding_function=embeddings,
    index=index,
    docstore=InMemoryDocstore(),
    index_to_docstore_id={}
)

Vector DB에 문서를 추가한다.

from langchain_core.documents import Document
from uuid import uuid4

# 문서 생성
documents = [
    Document(page_content="LangChain을 사용해 프로젝트를 구축하고 있습니다!", metadata={"source": "tweet"}),
    Document(page_content="내일 날씨는 맑고 따뜻할 예정입니다.", metadata={"source": "news"}),
    Document(page_content="오늘 아침에는 팬케이크와 계란을 먹었어요.", metadata={"source": "personal"}),
    Document(page_content="주식 시장이 경기 침체 우려로 하락 중입니다.", metadata={"source": "news"}),
]

# 고유 ID 생성 및 문서 추가
uuids = [str(uuid4()) for _ in range(len(documents))]
vector_store.add_documents(documents=documents, ids=uuids)

만일, PDF 파일을 읽어서 Document 객체로 변환하고 싶다면, 아래와 같이 한다.

PDF 파일 검색: glob.glob를 사용해 지정한 디렉토리 내의 모든 PDF 파일 경로를 가져온다.
Document 객체 생성: 각 PDF 파일마다 PyPDFLoader를 사용하여 PDF를 로드하고, 각 페이지를 개별 Document 객체로 생성다.
메타데이터 추가: 각 Document의 metadata에 해당 PDF 파일의 경로를 "source" 키로 추가하여, 나중에 어떤 파일에서 온 문서인지 확인할 수 있게 한다.
고유 ID 생성 및 문서 추가: 모든 Document 객체에 대해 uuid4()를 사용해 고유 ID를 생성한 후, 이 ID들과 함께 vector store에 문서를 추가한다.

import glob
from langchain.document_loaders import PyPDFLoader
from uuid import uuid4

# PDF 파일들이 저장된 디렉토리 경로 (실제 경로로 수정)
pdf_dir = "path/to/your/pdf_directory"
pdf_files = glob.glob(f"{pdf_dir}/*.pdf")

all_documents = []

# 각 PDF 파일에 대해 Document 객체 생성
for pdf_file in pdf_files:
    loader = PyPDFLoader(pdf_file)
    documents = loader.load()  # PDF의 각 페이지가 개별 Document 객체로 반환
    
    # 각 Document의 metadata 수정 (예: source에 PDF 파일 경로 추가)
    for doc in documents:
        doc.metadata["source"] = pdf_file

    # 전체 문서 리스트에 추가
    all_documents.extend(documents)

# 고유 ID 생성
uuids = [str(uuid4()) for _ in range(len(all_documents))]

# Vector DB (예: FAISS)에 문서 추가
vector_store.add_documents(documents=all_documents, ids=uuids)

유사성 검색을 통해서 특정 쿼리와 유사한 문서를 탐색한다.

# 기본 유사성 검색
results = vector_store.similarity_search("내일 날씨는 어떨까요?", k=2, filter={"source": "news"})
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

# 점수와 함께 유사성 검색
results_with_scores = vector_store.similarity_search_with_score("LangChain에 대해 이야기해주세요.", k=2, filter={"source": "tweet"})
for res, score in results_with_scores:
    print(f"* [SIM={score:.3f}] {res.page_content} [{res.metadata}]")

그 다음으로 RAG Chain에 FAISS를 통합한다. FAISS를 Retriever로 변환하여 RAG 체인에서 사용한다.

retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 1})

Langchain 모델과 프롬프트를 연결하여 RAG 체인을 구성한다.

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

# 프롬프트 템플릿 정의
contextual_prompt = ChatPromptTemplate.from_messages([
    ("system", "Answer the question using only the following context."),
    ("user", "Context: {context}\\n\\nQuestion: {question}")
])


class DebugPassThrough(RunnablePassthrough):
    def invoke(self, *args, **kwargs):
        output = super().invoke(*args, **kwargs)
        print("Debug Output:", output)
        return output

# 문서 리스트를 텍스트로 변환하는 단계 추가
class ContextToText(RunnablePassthrough):
    def invoke(self, inputs, config=None, **kwargs):  # config 인수 추가
        # context의 각 문서를 문자열로 결합
        context_text = "\n".join([doc.page_content for doc in inputs["context"]])
        return {"context": context_text, "question": inputs["question"]}

# RAG 체인에서 각 단계마다 DebugPassThrough 추가
rag_chain_debug = {
    "context": retriever,                    # 컨텍스트를 가져오는 retriever
    "question": DebugPassThrough()        # 사용자 질문이 그대로 전달되는지 확인하는 passthrough
} | DebugPassThrough() | ContextToText()| contextual_prompt | model

# 질문 실행 및 각 단계 출력 확인
response = rag_chain_debug.invoke("내일 날씨는 어때?")
print("Final Response:")
print(response.content)

마지막으로 FAISS index를 추후에 사용할 수 있도록 저장한다.

현재 메모리 내에 있는 vector_store (FAISS 인스턴스)를 "faiss_index"라는 이름의 디렉토리(또는 파일)에 저장
이전에 save_local로 저장한 "faiss_index" 디렉토리에서 벡터 스토어를 로드

# 인덱스 저장
vector_store.save_local("faiss_index")

# 저장된 인덱스 로드
new_vector_store = FAISS.load_local("faiss_index", embeddings, allow_dangerous_deserialization=True)

FAISS 장/단점

Faiss의 장점은 앞서 언급했듯 굉장히 빠르고 효율적인 유사성 검색 기능을 제공한다는 것이다. 또한 벡터 데이터를 효과적으로 압축하여 저장하기에 메모리 효율성 및 검색 성능 향상을 이끌 수 있다.

그러나, Faiss의 경우 비벡터형 데이터에 대해 직접적으로 처리할 수 없기 때문에 라이브러리 사용 이전에 반드시 데이터를 벡터로 임베딩해주는 작업이 필요하다. (단점이라면 단점이지만, 이 정도 단점은 충분히 수용할 수 있을 것 같다.)

그럼에도 불구하고 단점이 주는 거부감보다 장점이 주는 이점이 더욱 크게 다가오기에 앞으로 더 좋은 라이브러리가 만들어질 때까지 Faiss를 자주 사용해볼 예정이다.

Reference

https://github.com/facebookresearch/faiss

GitHub - facebookresearch/faiss: A library for efficient similarity search and clustering of dense vectors.

A library for efficient similarity search and clustering of dense vectors. - facebookresearch/faiss

github.com

https://east-rain.github.io/docs/Deep%20Learning/vector%20search/

이미지 유사도 검색

차곡차곡 쌓아가는 기술블로그입니다. 되도록 정확한 자료만을 정리하려고 노력합니다.

east-rain.github.io

https://dajeblog.co.kr/16-faiss%EC%97%90-%EB%8C%80%ED%95%9C-%EB%AA%A8%EB%93%A0-%EA%B2%83/

16. FAISS에 대한 모든 것 - NLP AI

FAISS는 고차원 벡터 데이터의 유사성 검색을 빠르게 수행하는 도구입니다. 다양한 인덱스 유형, GPU 지원, 사용자 정의 인덱스 등을 제공하며, 딥러닝 분야에서 이미지, 텍스트, 음성 등의 검색에

dajeblog.co.kr

https://blog.naver.com/chrhdhkd/220949908720

벡터 양자화(Vextor Quantization)란?

정의 : N개의 특징 벡터 집합 x를 K개의 특징 벡터들의 집합 Y로 사상(mapping)하는것. 용어 정리 벡터 ...

blog.naver.com

'Langchain' 카테고리의 다른 글

[FineTuning] LoRA (Low-Rank Adaptation) (0)	2025.03.24
벡터 데이터베이스 (VectorDB) (1)	2025.02.02