grep vs codesight vs LSP — 토큰 효율 비교

코드 검색 방식 3종의 동작 원리와 추정 토큰 비용을 한 페이지로 정리

타이포: IBM Plex — 기술 문서용으로 설계돼 작은 크기에서 또렷하고, 한글(Sans KR)·코드(Mono)가 한 가족이라 선택.

01동작 방식

핵심 차이는 둘. grep은 매번 전체를 다시 훑고 글자를 맞춘다. codesight·LSP는 한 번 만든 정보를 재사용하고 구조·의미로 찾는다.

grep, codesight, LSP의 동작 방식 비교 다이어그램 grep은 매 검색마다 100개 파일을 전수 스캔해 노이즈 섞인 결과를 내고, codesight는 최초 1회 색인을 만들어 캐시처럼 조회하며, LSP는 언어서버가 코드 의미를 이해해 정확한 참조만 반환한다. grep 질의 키워드 파일 100개 전수 스캔 매 검색마다 처음부터 결과 + 노이즈 주석·유사이름 포함 매 검색마다 전체 반복 ≈ 3,500 토큰 / 조회 codesight 파일 100개 최초 1회 색인 빌드 (캐시) key → 위치 저장 이후 조회 지도 조회 정확한 위치 반환 ≈ 250 토큰 / 조회 + 빌드 1회 ≈ 1,200 lsp cclsp 질의 언어서버 코드 의미 이해 정확한 참조만 정의 · 참조 위치 ≈ 500 토큰 / 조회

02비교표

항목grepcodesightLSP (cclsp)
탐색 방식매번 전수 스캔최초 1회 색인 후 조회의미 기반 쿼리
이해 수준글자 매칭구조 (파일·심볼 지도)의미 (컴파일러 수준)
반복 비용매번 전체 재탐색색인 재사용 (거의 0)쿼리당 경량
결과 정확도노이즈 많음구조적으로 정확정확한 참조만
최초 비용없음색인 1회 빌드언어서버 워밍업
적합 상황일회성 · 소규모대형 · 반복 탐색정확한 참조 · 진단
1회 조회 추정 토큰~3,500~250 (+빌드 ~1,200)~500

03토큰 효율 추정

시나리오
특정 심볼(예: 함수명) 1개의 정의 + 호출처 찾기
코드베이스
파일 100개, 약 50MB (전체를 다 읽으면 ≈ 1,200만 토큰 상당)
세션 가정
같은 류 탐색을 5회 반복 (에이전트 탐색)
측정 기준
LLM 컨텍스트에 실제로 들어오는 토큰 (grep 자체 CPU 비용 아님)

세션 5회 누적 토큰 (낮을수록 효율적)

grep
17,500
codesight
2,450 ≈ 7× ↓
lsp
2,500 ≈ 7× ↓
방식1회 조회5회 누적grep 대비
grep~3,500~17,500기준
codesight~250~2,450 (빌드 1,200 + 조회 5×250)≈ 7× ↓
lsp~500~2,500≈ 7× ↓

단발(1회)만 보면 빌드 비용이 없는 LSP가 codesight보다 유리하지만, 반복할수록 codesight는 색인을 재사용해 둘 다 비슷하게 수렴한다. carve가 둘을 함께 까는 이유 — 구조 지도(codesight) + 정밀 참조(LSP)로 상호 보완.