grep vs codesight vs LSP — 토큰 효율 비교
코드 검색 방식 3종의 동작 원리와 추정 토큰 비용을 한 페이지로 정리
타이포: IBM Plex — 기술 문서용으로 설계돼 작은 크기에서 또렷하고, 한글(Sans KR)·코드(Mono)가 한 가족이라 선택.
01동작 방식
핵심 차이는 둘. grep은 매번 전체를 다시 훑고 글자를 맞춘다. codesight·LSP는 한 번 만든 정보를 재사용하고 구조·의미로 찾는다.
02비교표
| 항목 | grep | codesight | LSP (cclsp) |
| 탐색 방식 | 매번 전수 스캔 | 최초 1회 색인 후 조회 | 의미 기반 쿼리 |
| 이해 수준 | 글자 매칭 | 구조 (파일·심볼 지도) | 의미 (컴파일러 수준) |
| 반복 비용 | 매번 전체 재탐색 | 색인 재사용 (거의 0) | 쿼리당 경량 |
| 결과 정확도 | 노이즈 많음 | 구조적으로 정확 | 정확한 참조만 |
| 최초 비용 | 없음 | 색인 1회 빌드 | 언어서버 워밍업 |
| 적합 상황 | 일회성 · 소규모 | 대형 · 반복 탐색 | 정확한 참조 · 진단 |
| 1회 조회 추정 토큰 | ~3,500 | ~250 (+빌드 ~1,200) | ~500 |
03토큰 효율 추정
- 시나리오
- 특정 심볼(예: 함수명) 1개의 정의 + 호출처 찾기
- 코드베이스
- 파일 100개, 약 50MB (전체를 다 읽으면 ≈ 1,200만 토큰 상당)
- 세션 가정
- 같은 류 탐색을 5회 반복 (에이전트 탐색)
- 측정 기준
- LLM 컨텍스트에 실제로 들어오는 토큰 (grep 자체 CPU 비용 아님)
세션 5회 누적 토큰 (낮을수록 효율적)
| 방식 | 1회 조회 | 5회 누적 | grep 대비 |
| grep | ~3,500 | ~17,500 | 기준 |
| codesight | ~250 | ~2,450 (빌드 1,200 + 조회 5×250) | ≈ 7× ↓ |
| lsp | ~500 | ~2,500 | ≈ 7× ↓ |
단발(1회)만 보면 빌드 비용이 없는 LSP가 codesight보다 유리하지만, 반복할수록 codesight는 색인을 재사용해 둘 다 비슷하게 수렴한다. carve가 둘을 함께 까는 이유 — 구조 지도(codesight) + 정밀 참조(LSP)로 상호 보완.