人們經常通過觀察周圍的環境和遵循指令在未知的環境中導航。這些指令主要由地標和方向性指令以及其他常用詞語組成。例如,人們可以在一個他們以前沒有去過的傢中找到廚房,通過遵循以下的指令:“在餐桌處右轉,然後再左轉(Turn right at the dining table, then take the second left)”。這個過程需要視覺上的觀察,例如在視埜範圍內的餐桌或關於典型門廳的知識,並執行在這個方向上的動作:向左轉。這裏的復雜性有多個維度:有限的視埜,像“second”這樣的修飾詞,像“take”和“turn”這樣的同義詞,理解“take left left”指的是門,等等。