Field

Multimodal

Systems that connect text, vision, audio, and other modalities.

4 papers · latest 2026-04-22

Common topics in this field

Multimodal Understanding · 2 Diffusion Models · 1 Model Compression · 1 Vision-Language Models · 1

Multimodal Transformer for Sample-Aware Prediction of Metal-Organic Framework Properties

Seunghee Han, Jaewoong Lee, Jihan Kim

breakthrough🔴 AdvancedMultimodal Multimodal Understanding

cs.AI

Multimodal Transformer models sample-level variability in MOFs, not just framework identity—enabling accurate property prediction for real experimental materials, transforming ML in materials science.

Details → arXiv →

Cross-Modal Bayesian Low-Rank Adaptation for Uncertainty-Aware Multimodal Learning

Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin

breakthrough🔴 AdvancedMultimodal Multimodal Understanding Model Compression

cs.LGcs.AIcs.LG

CALIBER introduces Bayesian low-rank adaptation for uncertainty-aware multimodal learning, enabling robust, efficient fine-tuning in low-resource settings—essential for builders deploying reliable multimodal systems under data scarcity.

Details → arXiv →

Causal Diffusion Models for Counterfactual Outcome Distributions in Longitudinal Data

Farbod Alinezhad, Jianfei Cao, Gary J. Young et al.

breakthrough🔴 AdvancedMultimodal Diffusion Models

cs.LG

CDM is the first diffusion model for counterfactual longitudinal outcomes, enabling accurate, uncertainty-quantified treatment effect predictions—vital for clinical decision systems and causal AI in healthcare.

Details → arXiv →

Do VLMs Truly "Read" Candlesticks? A Multi-Scale Benchmark for Visual Stock Price Forecasting

Kaiqi Hu, Linda Xiao, Shiyue Xu et al.

breakthrough🟡 IntermediateMultimodal Vision-Language Models

cs.LGcs.CLcs.LG

Introduces the first rigorous benchmark proving whether VLMs truly understand candlestick patterns—not just correlate them—essential for financial AI builders relying on visual market signal interpretation.

Details → arXiv →