iT邦幫忙

multimodal相關文章
共有 6 則文章
鐵人賽 AI/ ML & Data DAY 22
30 Days of AI Research 系列 第 23

技術 [Day 22] PaLM-E: An Embodied Multimodal Language Model

Paper link | Note link | Code link | ICML 2023 整體想法 這篇研究嘗試通過整合包括圖像在內的多模態資訊來開發一...

鐵人賽 AI/ ML & Data DAY 21
30 Days of AI Research 系列 第 22

技術 [Day 21] ILLUME: Rationalizing Vision-Language Models through Human Interactions

Paper link | Code link | ICML 2023 整體想法 這項研究採用了人機互動的解釋方法來處理多模態 Transformers 模型...

鐵人賽 AI/ ML & Data DAY 20
30 Days of AI Research 系列 第 21

技術 [Day 20] Visual Instruction Tuning

Paper link | Note link | Code link | NeurIPS 2023 整體想法 這項研究展示了視覺指令調整的有效性。 他們引入...

鐵人賽 AI/ ML & Data DAY 18
30 Days of AI Research 系列 第 19

技術 [Day 18] Evaluating Object Hallucination in Large Vision-Language Models

Paper link | Note link | Code link | EMNLP 2023 整體想法 這項研究對多個大型視覺語言模型(LVLMs)進行了...

鐵人賽 AI/ ML & Data DAY 17
30 Days of AI Research 系列 第 18

技術 [Day 17] Learning to Answer Questions in Dynamic Audio-Visual Scenarios

Paper link | Code link | CVPR 2022 整體想法 這篇論文介紹了一項名為 音頻-視覺問答(AVQA) 的新任務。 他們建立了一...

鐵人賽 AI/ ML & Data DAY 16
30 Days of AI Research 系列 第 17

技術 [Day 16] RLEG: Vision-Language Representation Learning with Diffusion-based Embedding Generation

Paper link | ICML 2023 整體想法 這項研究提出了一種簡單但有效的表示學習方法,稱為 RLEG,由基於擴散的嵌入生成器指導。 擴散模型在...