PiGLET : Pixel-Level Grounding of Language Expressions With Transformers

This paper proposes Panoptic Narrative Grounding, a spatially fine and general formulation of the natural language visual grounding problem. We establish an experimental framework for the study of this new task, including new ground truth and metrics. We propose PiGLET, a novel multi-modal Transform...

Ausführliche Beschreibung

Bibliographische Detailangaben
Veröffentlicht in:IEEE transactions on pattern analysis and machine intelligence. - 1979. - 45(2023), 10 vom: 20. Okt., Seite 12206-12221
1. Verfasser: Gonzalez, Cristina (VerfasserIn)
Weitere Verfasser: Ayobi, Nicolas, Hernandez, Isabela, Pont-Tuset, Jordi, Arbelaez, Pablo
Format: Online-Aufsatz
Sprache:English
Veröffentlicht: 2023
Zugriff auf das übergeordnete Werk:IEEE transactions on pattern analysis and machine intelligence
Schlagworte:Journal Article