VLT : Vision-Language Transformer and Query Generation for Referring Segmentation

We propose a Vision-Language Transformer (VLT) framework for referring segmentation to facilitate deep interactions among multi-modal information and enhance the holistic understanding to vision-language features. There are different ways to understand the dynamic emphasis of a language expression,...

Ausführliche Beschreibung

Bibliographische Detailangaben
Veröffentlicht in:	IEEE transactions on pattern analysis and machine intelligence. - 1979. - 45(2023), 6 vom: 28. Juni, Seite 7900-7916
1. Verfasser:	Ding, Henghui (VerfasserIn)
Weitere Verfasser:	Liu, Chang, Wang, Suchen, Jiang, Xudong
Format:	Online-Aufsatz
Sprache:	English
Veröffentlicht:	2023
Zugriff auf das übergeordnete Werk:	IEEE transactions on pattern analysis and machine intelligence
Schlagworte:	Journal Article

Online verfügbar	Volltext