A2A 프레임워크를 활용하여 Nvidia Cosmos 모델을 Agent 형태로 연동하고, 사용자의 텍스트 프롬프트로부터 영상 생성까지의 전체 프로세스를 자동화한 멀티 에이전트 시스템입니다.
2025.03~06 | 5명
기술 스택
A2A,MCP,LLMDjango,FastAPI,Redis,Docker
담당 역할
- 환경 세팅 (Docker 및 Python 환경): compose.yml을 통한 모델, 폴더 마운트와 에이전트 포트 설정
- SessionManager 구현: 사용자 입력을 Session Context로 변환 후 Redis에 업로드
- Cosmos-Predict subprocess 구현: 기존 코드를 API 형태로 수정하여 Predict 모델 서빙
시스템 아키텍처

프로젝트 흐름
- 사용자가 Django 웹을 통해 프롬프트와 파일로 작업 요청
- Django가 Manager Agent에게 작업 전달
- Manager Agent가 Session Manager에게 Session Context 생성 요청 (이미지 포함 시 Llava로 이미지 설명 추출)
- Abstract Plan Generator에서 Llama3-7b-instruct를 활용해 작업 흐름 및 방향성을 위한 추상 계획 생성
- Plan Generator에서 추상 계획, 사용자 입력, Agent Registry를 입력받아 Deepseek Coder로 JSON 형태의 Plan Token 생성
- MCP Router를 통해 Plan Token 기반으로 실제 작업 수행
실행 화면

