Multimodal RL Study (2025.08.27 ~ Present)
<aside>
<img src="/icons/checkmark-line_blue.svg" alt="/icons/checkmark-line_blue.svg" width="40px" />
Multimodal RL Paper (링크)
Goal
- 본 스터디에서는 Multimodal Representation Learning (MRL)의 핵심 개념과 다양한 방법론을 이해하고, 특히 Text-Image 조합을 중심으로 한 최신 모델들을 학습함. 또한, 이러한 기법들이 언어모델과 추천시스템에 어떻게 활용되는지 파악하고, 관련된 Multimodal Representation Learning 연구들을 리뷰함
- Multimodal Representation Learning의 핵심 개념 이해
- Self-Supervised Learning 기반 학습: 외부 레이블 없이 데이터 자체의 supervisory signal을 활용하는 방식 이해 (예, 데이터 증강, 순서 예측, 인스턴스 구분)
- **대표적 학습 패러다임
- Contrastive**: 서로 다른 모달리티 간 대응 관계를 맞추는 방식
- Generative/Predictive: 하나의 모달리티로 다른 모달리티를 생성/예측 (예: captioning, masked modeling)
- Self-Distilled: 교사-학생 구조를 활용한 representation 정제
- **네트워크 구조적 관점
- Single-Stream**: 이미지와 텍스트를 동일한 joint encoder에 통합 → 주로 similarity search, contrastive learning에 활용
- Dual-Stream: 각각 별도 인코더 사용 후 cross-attention/interaction → retrieve-ranker, retrieve-reader 방식에 활용 (Siamese network 구조는 dual-stream의 대표적 예시)
- 연구 흐름 및 실제 활용 사례
- 언어모델 응용:
- Vision-Language Pretraining: 이미지+텍스트를 같이 학습해서 공유 임베딩 확보 (주로 classification, retrieval, grounding)
- Bridge Models (VLP → LLM 연결): BLIP, BLIP-2, Flamingo, LLaVA 등 → LLM에 멀티모달 입력을 연결
- Multimodal Large Language Models: 그 임베딩을 LLM과 결합해서 instruction-following, 멀티모달 reasoning, 대화 생성까지 확장
- 추천시스템 응용:
****- Self-Supervised Recommender Systems: contrastive, generative, self-distillation 기반으로 대규모 데이터에서 레이블 없이 표현 학습
- Multimodal Recommender Systems: 텍스트 리뷰·이미지·메타데이터 활용
</aside>
Graph RL 101 Study (2024.11.14 ~ 2025.06.02)
<aside>
<img src="/icons/checkmark-line_blue.svg" alt="/icons/checkmark-line_blue.svg" width="40px" />
**Graph RL 101 Paper (링크)**
Goal
- 다양한 형태의 Graph와 그에 따라 달라지는 Graph Representation Learning (RL) 모델들을 파악함. 특히, Homogeneous Graph, Heterogeneous Graph, Knowledge Graph에 대해 집중적으로 학습함
- Graph RL에 대한 핵심적인 논문들을 읽고 리뷰함
- word2vec, translation, graph convolution, aggregation, attention 방식을 기반으로 하는 모델들의 차이점을 이해함
- 각 모델의 non-pretained/pretrained, shallow/complex embedding 등을 구분할 수 있음
- Graph RL을 활용한 다양한 응용을 살펴봄. 자연어처리, 추천시스템, 그래프 분류, 생성과 같은 다양한 분야에서의 응용을 확인하고, 이러한 응용을 위한 Graph RL 학습 모델 설계를 할 줄 알아야 함
</aside>