멀티모달 생성형AI 심화과정 (총 120시간) - 서울대학교 AI 기업교육 센터

멀티모달 생성형AI 심화과정 : 총 강의 120시간 + 실습 48시간 (12주)
목표: 본 과정은 생성형 AI의 핵심인 LLM과 Diffusion 아키텍처를 융합하여, 기업의 복잡한 문제를 해결하는 커스텀 멀티모달 에이전트 개발 능력을 배양한다. 국내 최고의 실무 커리큘럼을 통해 단순 코딩을 넘어 시스템 전체를 설계하고 운영하는 AI 아키텍트로 도약하는 것을 목표로 한다.

강의방식: 매주 강의 10시간, 실습 4시간

　
Part1: 멀티모달 생성형 AI 기초 & 융합 개발 실무 (1~3주차 / 강의 30시간, 실습12시간)

1주차: 멀티모달 생성형 AI 개요 및 융합 원리 (10h)

– 생성형 AI의 진화: 텍스트 중심에서 시각적 지능으로 (NLP에서 멀티모달로)

– 딥러닝 기초: 생성 모델의 잠재 공간(Latent Space) 및 기본 구조

– 아키텍처 비교: Transformer Attention과 Diffusion Denoising의 상관관계 이해

2주차: 융합 개발 환경 구축 & 멀티모달 코딩 가속 (10h)

– 통합 스택: TF/PyTorch 기초 및 Hugging Face(Transformers·Diffusers) 활용법

– 멀티모달 API: OpenAI(GPT-4o, DALL-E 3) 및 오픈소스 모델 통합 실습

– 바이브코딩 실전: Cursor·Antigravity 기반 텍스트-이미지 융합 앱 개발 가속

3주차: LLM-Diffusion 융합 아키텍처 심화 (10h)

– 융합 모델 구조: Transformer LLM 및 Latent Diffusion 결합 아키텍처 분석

– VLM: 이미지-텍스트 상호 해석 및 프롬프트 기반 이미지 제어 기법 이해

– Cross-Attention 실습: 텍스트 프롬프트의 이미지생성 단계별 개입 및 제어원리 습득

Part 2: 멀티모달 데이터 엔지니어링 & 품질 관리 (4~5주차 /강의 20시간, 실습 8시간)

4주차: 멀티모달 데이터 전처리 기초 (10h)

– 텍스트·이미지 정제: 텍스트 정규화 및 이미지 해상도·종횡비 보정 실습

– 통합 토크나이징: 텍스트 토크나이징 및 시각적 특징(Visual Feature) 추출 기초

– 데이터 페어링: 이미지-텍스트 데이터셋 구축 및 멀티모달 Instruction 포맷 구성

5주차: 멀티모달 품질 및 안전성 설계 (10h)

– 데이터 품질 설계: 데이터 밸런싱 및 시각적 미학(Aesthetic Score) 검증

– 멀티모달 ICL: 시각 정보가 포함된 In-Context Learning 포맷 설계 실습

– 세이프티 필터링: 유해 문구 및 NSFW(Not Safe For Work) 이미지 자동 필터링 적용

Part 3: 도메인 특화 sLLM 최적화 실무 (6~7주차 / 강의 20시간, 실습 8시간)

6주차: 효율적 파인튜닝 기법 실습 (10h)

– 기법 비교: Full Fine-tuning, LoRA, QLoRA, PEFT의 기술적 특성 비교 및 선택 전략

– 최적화 실습: 저사양·고효율 파인튜닝 전략을 통한 모델 경량화 실습

– 리소스 관리: Quantization(양자화)을 활용한 GPU 메모리 점유율 최적화 기술

7주차: 도메인 특화 sLLM 구축 및 평가 (10h)

– 커스텀 sLLM: Open-source 기반 도메인 특화 모델 구축 및 성능 지표 설정

– 실전 구현: 사내 문서 QA 및 전문 지식 응답을 위한 조직 특화 LLM 구현

– 성능 개선: 추론 결과 평가를 통한 모델 성능 개선 및 반복 학습 전략

Part 4: 이미지 생성 고도화 및 멀티모달 서빙 (8~9주차 / 강의 20시간, 실습 8시간)

8주차: 이미지 생성 모델 파인튜닝 및 제어 (10h)

– 이미지 파인튜닝: Diffusion 기반 LoRA 및 Dreambooth를 활용한 스타일·캐릭터 학습

– 정밀 제어 기법: ControlNet(포즈, 외곽선) 및 IP-Adapter를 이용한 생성 결과물 제어

– 품질 최적화: 고해상도 업스케일링 및 이미지 디테일 보정 워크플로우 설계

9주차: 멀티모달 서빙 아키텍처 및 배포 (10h)

– 통합 서빙: vLLM(텍스트) 및 전용 이미지 서빙 프레임워크 기반 추론 최적화

– API 시스템: 텍스트와 이미지 모델을 통합한 실전 API 배포 및 연동 실습

– 서비스 안정성: 멀티모달 서비스 운영을 위한 트래픽 관리 및 시스템 안정성 확보

Part5: 멀티모달 AI 에이전트 & 융합 캡스톤 프로젝트 (10~12주차 / 강의 30시간, 실습 12시간)

10주차: 멀티모달 AI 에이전트 설계 및 도구 연동 (10h)

– VLM 기반 멀티모달 에이전트 아키텍처 및 MCP 설계

– LangGraph 활용 멀티모달 Tool Calling 및 워크플로우 제어

– 시각 데이터 메모리 관리 및 추론 제어 실습

11주차: 멀티모달 통합 비즈니스 애플리케이션 구현 (10h)

– RAG·sLLM·Diffusion 연동 고도화 업무 자동화 워크플로우 구현

– 시각 정보 분석 기반 의사결정 지원 및 멀티모달 지식 검색 실습

– 지능형 콘텐츠 생성 에이전트 기반 비즈니스 솔루션 구축

12주차: 최종 프로젝트 최적화 및 결과 발표 (10h)

– 멀티모달 파이프라인 최적화 및 통합 AI 에이전트 앱 완성

– 전문가 피드백 기반 프로젝트 고도화 및 포트폴리오 정리

– 실전 구동 결과물 최종 발표 및 성과 검증