Robot Görev Ve Hareket Planlaması İçin Büyük Dil Modeli Destekli Görsel Eşzamanlı Konum Belirleme Ve Haritalandırma


Ata B. (Yürütücü), Sarıgül M., Karacan L.

TÜBİTAK Projesi, 2024 - 2027

  • Proje Türü: TÜBİTAK Projesi
  • Başlama Tarihi: Nisan 2024
  • Bitiş Tarihi: Nisan 2027

Proje Özeti

Bu proje kapsamında, otonom mobil robotların insanlara günlük yaşamlarında yardımcı olma kabiliyetlerini geliştirmek amacıyla, robotların ilk kez karşılaştığı ortamda hareket ve görev planlaması için uçtan uca bir büyük dil modeli destekli görsel eşzamanlı konum belirleme ve haritalama sistemi geliştirilmesi hedeflenmektedir. Böylece robotun ilk defa bulunduğu ortamda konumunu belirlemesi ve ortamı gezerek haritalandırması sağlanacak ardından ise büyük dil modeli yardımıyla insanlar tarafından verilen karmaşık görevlerden anlam çıkarımı yaparak ilgili görevi yerine getirmesi beklenecektir. 

Eşzamanlı konum belirleme ve haritalama (SLAM) problemi literatürde üzerine yoğun bir biçimde çalışılan zorlu bir konu olarak bilinir. Son dönemde yapay zekânın etkinliğinin artması ile birlikte, derin öğrenme destekli SLAM modelleri birçok farklı ortamda başarıyla kullanılmaktadır. Bu modeller, robotların çevrelerini daha iyi anlamalarına ve bu çevreleri haritalamalarına olanak tanımaktadır. Robotik sistemlerde SLAM için lidar, sonar ve kamera gibi geniş bir sensör yelpazesi kullanılmaktadır.  Bu sensörlerin vasıtasıyla robotlar çevrelerindeki nesneleri algılayabilir ve bu bilgileri kullanarak konumlarını belirleyebilirler.

Bilinmeyen nesnelerin ve çevrelerin görsel bilgisini almak için kameranın ana sensör olarak kullanıldığı uygulamalar Görsel SLAM (VSLAM) olarak adlandırılmaktadır. Literatürde VSLAM modelleri ile oluşturulmuş haritalar üzerinde büyük dil modelleri vasıtasıyla semantik segmentasyon gerçekleştirebilen modellerin kullanımında önemli bir artış olduğu görülmektedir. Bu proje kapsamında, ortamın ve nesnelerin açık sözlük üzerinden semantik olarak anlamlandırılması amacıyla büyük dil modellerinin gücünden faydalanılarak bir görsel - dilsel eşzamanlı konum belirleme ve haritalama (VLSLAM) modeli geliştirilecektir.

Bu çalışma özellikle robotik algılama ve büyük dil modellerinin entegrasyonuna odaklanmaktadır. Bu yenilikçi entegrasyon ile robotlar sadece görsel verileri değil, aynı zamanda kullanıcıların talimatlarını da anlayabilecek, bu da robotların daha etkili ve bağımsız görev planlaması yapmasına olanak sağlayacaktır. Dolayısıyla robotların çevresindeki nesneleri daha iyi tanıma ve komutları daha iyi anlama yeteneğinin artırılması, günlük yaşamdaki kullanıcı ihtiyaçlarına daha etkili bir şekilde cevap verebilme potansiyelini artıracaktır.

Projenin bir diğer önemli hedefi ise, robotların sadece mekanik hareketlerle sınırlı olmaktan çıkarak dil anlama ve yorumlama yeteneklerinin geliştirilmesine katkı sağlamaktır. Robotların kullanıcılarla daha doğal bir iletişim kurabilmesi ve kullanıcıların verdiği talimatları anlayarak bu talimatlara uygun şekilde hareket etme yeteneğinin gelişmesi, robotların günlük yaşamda daha etkili bir şekilde kullanılmasının yolunu açabilecek önemli bir kazanımdır.

Sonuç olarak, bu proje otonom mobil robotların çevrelerini daha iyi anlamalarını ve kullanıcılarla daha etkili bir şekilde iletişim kurmalarını sağlamak amacıyla yenilikçi bir yaklaşım sunmaktadır. Büyük dil modelleriyle desteklenen görsel eşzamanlı konum belirleme ve haritalama sistemi ile yine büyük dil modelleriyle desteklenen hareket ve görev planlama yaklaşımı, robotların günlük yaşamdaki çeşitli görevlerde daha etkin ve bağımsız bir şekilde çalışmalarına olanak tanıyacaktır.