영상 30개 던졌더니 릴스가 나옵니다. 비용 7원.

강 강진은2026. 3. 31.조회 0

여행 다녀오면 영상이 쌓입니다.
찍을 땐 신나는데, 편집은 안 하죠.

저도 그랬습니다.
그래서 내 영상을 넣으면 릴스가 자동으로 나오는 툴을 만들었습니다.

어떤 도구를 사용했고, 어떻게 활용하셨나요?

도구	역할	활용 방식
Claude Code	개발 전체	설계 논의, 코드 구현(35파일 2,569줄), 디버깅, 문서 작성, 이 글 작성까지 전부
Gemini 2.5 Flash	영상 분석 AI	소재 품질·에너지 판단, Critic 검수 — API 2회 호출로 $0.005
FFmpeg	영상 처리·렌더링	클립 자르기, 색보정, 음악 합성, M1 하드웨어 가속 인코딩
OpenCV	영상 분석	모션 감지(MAD), 에너지 레벨 측정
librosa	음악 분석	RMS 에너지 구간 분석, 비트 타이밍 추출
Python	메인 언어	8개 에이전트 파이프라인 구현
yt-dlp	레퍼런스 다운로드	참고 영상 링크 입력 시 자동 다운로드·분석

핵심은 Claude Code입니다.

설계 회의부터 코드 구현, 버그 수정, 이터레이션까지 전부 Claude Code 안에서 진행했습니다.
워크로그와 설계 문서도 Claude Code가 작성해줬고, 그 문서들이 다시 이 글의 재료가 됐습니다.

나머지 도구들은 Claude Code가 "이 상황엔 이걸 쓰는 게 맞다"고 제안한 것들이에요.
FFmpeg 명령어, librosa 파라미터, Gemini 프롬프트 전부 Claude Code가 작성했습니다.

이게 뭔데?

V-LogMaker — 영상·사진을 넣으면 AI가 자동으로 숏폼 영상을 만들어주는 파이프라인입니다.

동작 방식은 단순합니다:

영상 30개 폴더에 넣기 → 터미널에서 한 줄 실행 → 릴스 완성

▶ 인스타그램 릴스 보기

아직 프론트 개발은 하나도 안 했습니다. 터미널에서 명령어 한 줄로 돌리고 있어요.
기능 자체가 안정화되면 그때 UI를 입히고, 릴스·숏츠 업로드 자동화까지 붙일 계획입니다.

핵심 포인트 3가지

1 내 영상, 내 스타일

CapCut 템플릿이나 Submagic 같은 서비스는 "그 서비스 느낌"이 납니다.
V-LogMaker는 내 촬영 소재만 사용하고, 편집 스타일을 템플릿으로 저장해서 시리즈물도 일관된 톤으로 만들 수 있습니다.

{
  "music": { "genre": "cinematic", "bpm_range": "90-110" },
  "color": { "tone": "warm", "lut": "golden_hour.cube" },
  "transition": "cut"
}

한번 세팅하면 다음 여행부터는 영상만 넣으면 됩니다.

2 비용 7원

$0.005

영상 30개 분석 + 편집 + 검수 = 약 7원

Gemini 2.5 Flash를 쓰기 때문에 가능한 가격이에요.
월 100개 릴스를 만들어도 700원.

3 편집 시간 0분

명령어 한 줄 치고 2분 27초 기다리면 됩니다.
AI가 하는 일:

저품질 영상 자동 제외 (흔들림, 저조도)
음악 에너지에 맞춰 클립 배치 (드롭 구간엔 역동적인 클립)
0.3초 몽타주 훅으로 시작 → 본편은 리드미컬하게
자동 색보정 + 음악 페이드아웃
Critic AI가 검수해서 기준 미달이면 재편집

사람이 하는 건 영상 폴더 지정과 음악 선택 뿐입니다.

+ 음악은 어떻게?

원래는 Pixabay Music API를 연결해서 자동으로 음악을 검색·다운로드하려고 했습니다.
설계 단계에서 Claude Code가 "Pixabay에 Music API 있고, 무료이고, 상업 이용 가능합니다" 하면서 신나게 추천해줬거든요.

API 키 발급받고 연결했더니 404. 음원 서비스 자체를 API로 지원 안 하는 곳이었습니다.
Claude Code도 틀릴 때가 있습니다. 😂

그래서 지금은 Pixabay 사이트에서 직접 음악을 다운받아 로컬 폴더에 넣고 선택해서 쓰고 있어요.

오히려 장점도 있습니다:

내가 직접 고른 음악이라 결과물 만족도가 높음
한번 받아두면 오프라인에서도 사용 가능
시리즈물에 같은 음악을 재사용하기 편함
API 의존성 없이 안정적

단점:

음악을 직접 골라야 하는 수동 과정이 있음
새로운 음악을 쓰려면 매번 사이트 방문 필요

무료 음악 API 연동은 추후 과제로 남겨뒀습니다.

구조 (궁금한 분들을 위해)

8개 AI 에이전트가 역할 분담합니다:

에이전트	하는 일
오케스트레이터	전체 흐름 조율, 사용자 개입 시점 관리, 중단·재개
레퍼런스 분석	참고 영상 분석 → 색감·편집 패턴·컷 빈도 스타일 가이드 생성
소재 분석	영상 품질·에너지 측정, 씬 체인지 감지, 저품질 자동 제외
음악	에너지 구간 분석 (인트로→드롭→아웃트로)
편집	에너지 매칭으로 클립 배치 + 몽타주 훅
Critic	편집본 검수, 기준 미달 시 재편집 지시 (최대 2회)
자막	GPS 좌표 기반 장소별 자막 자동 생성 (.ass 파일로 편집 가능)
렌더링	색보정 + 음악 합성 → 클린본 + 자막 포함본 이중 출력

LLM은 Gemini 2.5 Flash, 영상 처리는 FFmpeg + OpenCV, 인코딩은 M1 하드웨어 가속.

만든 과정 — 실작업 21.5시간

날짜	시간	한 일
목 3/27	13:35~17:01 (3.5h)	설계 — 프로젝트 정의, 8개 에이전트 구조, 리서치 4건
금 3/28	11:50~17:38 (6h)	구현 — 35파일 2,569줄, 에너지 기반 편집 시스템, 첫 커밋
토 3/29	—	쉼 (완전히 다른 일)
월 3/30	12:30~24:12 (12h)	첫 테스트 → 치명적 버그 3건 즉시 수정 → GPS 장소 자막 시스템 구현 → 24번 이터레이션 → 완성

첫 테스트에서 "소재 20개 중 6개만 사용", "같은 영상 반복", "영상 앞부분만 나옴" 같은 문제가 터졌는데, 같은 날 전부 잡고 자막까지 붙여서 결과물을 뽑았습니다.

이 글도 Claude Code가 썼습니다

이 글을 쓴 프롬프트:

"지금 내가 진행중인 브이로그메이커의 설계, 워크로그 md 파일들을 활용해서 빠르게 작성하고 싶어"
"실제 걸린 시간을 추가해줘"

Claude Code가 참조한 파일:

worklogs/V-LogMaker/VLM-260327.md   ← 설계 워크로그
worklogs/V-LogMaker/VLM-260328.md   ← 구현 워크로그
worklogs/V-LogMaker/VLM-260330.md   ← 테스트 워크로그
V-LogMaker/CLAUDE.md                ← 프로젝트 컨텍스트
V-LogMaker/docs/design-decisions.md ← 설계 결정 사항
V-LogMaker/docs/reviews/001_first_test_review.md ← 테스트 리뷰
V-LogMaker/config/settings.yaml     ← 설정
git log                             ← 커밋 타임스탬프

설계 문서와 워크로그를 꾸준히 기록해뒀더니, 글 하나 쓰는 데도 그대로 써먹습니다.
프로젝트 문서화가 결국 콘텐츠 자산이 되는 셈이에요.

질문이나 피드백 환영합니다 🙌

댓글 1개

로그인하고 댓글을 작성하세요

김희태2026. 4. 1.

와... 대단하십니다