Paper link | ICML 2023 整體想法 這項研究提出了一種簡單但有效的表示學習方法,稱為 RLEG,由基於擴散的嵌入生成器指導。 擴散模型在...
Paper link | Code link | CVPR 2022 整體想法 這篇論文介紹了一項名為 音頻-視覺問答(AVQA) 的新任務。 他們建立了一...
Paper link | Note link | Code link | EMNLP 2023 整體想法 這項研究對多個大型視覺語言模型(LVLMs)進行了...
Paper link | Note link | Code link | ICML 2023 整體想法 這篇研究嘗試通過整合包括圖像在內的多模態資訊來開發一...
Paper link | Note link | Code link | NeurIPS 2023 整體想法 這項研究展示了視覺指令調整的有效性。 他們引入...
Paper link | Code link | ICML 2023 整體想法 這項研究採用了人機互動的解釋方法來處理多模態 Transformers 模型...