İşaret — 2026-06-08

1. Araştırma

AxisGuide: Robot Hareketlerini RGB Görüntülerle Koordinat Sistemine Bağlıyor

AxisGuide, robot manipülasyon politikalarının dağılım kayması altında neden başarısız olduğunu koordinat sistemi tutarsızlığıyla açıklıyor.

Büyük ölçekli davranış klonlamayla eğitilen görsel-motor manipülasyon politikaları güçlü bir sahne anlayışı kazanıyor; ancak nesnenin daha önce görülmemiş konumlara yerleştirilmesi gibi küçük değişiklikler bile performansı ciddi biçimde düşürebiliyor. AxisGuide, bu başarısızlığın temel nedenini 'eylem koordinat sistemi yetersizliği' olarak tanımlıyor: model, robotun taban çerçevesindeki +x, +y, +z hareketlerinin görüntü uzayında ne anlama geldiğini yorumlayamıyor. Önerilen yöntem, kamera parametreleri ve uç efektör konumlarını kullanarak robot taban eksenlerini her kamera görüntüsüne işliyor ve RGB gözlemlerini bu eksenleri açıkça görselleştiren küçük bir ipucu kanalı setiyle zenginleştiriyor. LIBERO simülasyonu ve gerçek dünya ortamlarında yapılan kapsamlı değerlendirmeler, yöntemin hem performansı artırdığını hem de genelleme kabiliyetini önemli ölçüde iyileştirdiğini ortaya koyuyor. RSS 2026'ya kabul edilen bu çalışma, açık eylem koordinatı ipuçlarının güvenilir ve transfer edilebilir görsel-motor politikaların öğrenilmesinde kritik bir eksik halka olduğunu gösteriyor.

Arxiv CS.RO →

2. Araştırma

Dil Modelleri Nasıl Başarısız Olur? Token Düzeyinde İki Farklı Örüntü

LLM akıl yürütme hataları iki ayrı süreçle oluşuyor: modelin erken kilitlendiği 'committed failure' ve belirsizliğin biriktiği 'persistent uncertainty'.

Dil modellerindeki akıl yürütme başarısızlıkları, çıkarım izinde tanımlanabilir imzalar bırakıyor; yeni çalışma bu hataları token düzeyindeki belirsizlik sinyalleriyle iki ayrı kategoriye ayırıyor. İlk kategori olan 'committed failure'da model, izin erken aşamasında yanlış bir akıl yürütme yoluna kilitlenir; bir 'taahhüt noktası' ortaya çıkar ve bu noktadan sonra ek token'lar hata tespitine yardım etmek yerine zarar verir. İkinci kategori olan 'persistent uncertainty'de ise belirsizlik iz boyunca birikir ve başarılı ile başarısız tamamlamaları ayırt etmek için tüm iz gereklidir. Bu iki örüntü, 23 model-dataset konfigürasyonunun 20'sinde tutarlı biçimde gözlemlendi. Çerçeve aynı zamanda self-consistency için pratik çıkarımlar da sunuyor: belirsizlik sinyallerinin ne zaman tamamlayıcı olduğunu, ne zaman atlanabileceğini belirliyor. Bu sonuçlar, LLM güvenilirliği araştırmacılarına hata tespiti stratejilerini adapte etmek için ölçülebilir yeni bir temel sağlıyor.

Arxiv CS.CL →

3. Araştırma

AEGIS: Robot Manipülasyonu İçin Hafif Bir Yedek Refleks Mekanizması

AEGIS, uzun ufuklu robot görevlerinde kademeli başarısızlıkları önceden tespit edip daha güçlü bir politikaya geçiş yaparak kayıpları %10 azaltıyor.

Uzun ufuklu robot manipülasyonunda hatalar genellikle kademeli birikir: tek bir kötü adım durumu bozar, politika ise kendiliğinden kurtaramadığı bir sarmalın içine girer. AEGIS (Activation-probe Early-warning, Gated Inference Switching), bu sorunu erken tespit ve seçici politika anahtarlamasıyla çözüyor. Yöntem, zayıf politikanın dondurulmuş aktivasyonları üzerinde hafif bir prob kullanarak yüksek riskli adımları henüz müdahale mümkünken işaretliyor; yalnızca bu kritik adımlarda kontrolü daha güçlü bir politikaya devrediyor. LIBERO-Spatial üzerindeki deneylerde AEGIS, zayıf politikanın tek başına kaybettiği yörüngelerin %10,1'ini kurtarırken kör anahtarlama yalnızca %4,6'sını kurtarabiliyor. Güçlü politika adımların yalnızca %38'inde devreye giriyor; dolayısıyla kazanım hesaplama bütçesinden değil, zamanlamanın doğruluğundan kaynaklanıyor. Bu yaklaşım, fiziksel yapay zeka sistemleri için düşük maliyetli ve istatistiksel olarak doğrulanmış bir güvenlik katmanı sunuyor.

Arxiv CS.AI →

4. Araştırma

Monoküler Videodan Eklem Temas Kuvvetlerini Tahmin Eden Fizik-Serbest Boru Hattı

Tek bir kalibrasyon gerektirmeyen video görüntüsünden 3D kalça ve diz temas kuvvetlerini tahmin eden bu yaklaşım, biyomekaniği kliniğe taşıyabilir.

Eklem temas kuvvetleri, implant ömrünü, kıkırdak sağlığını ve rehabilitasyon sonuçlarını doğrudan belirliyor; ancak şu ana kadar yalnızca özel donanımlı implantlarla donatılmış onlarca hastada invaziv yöntemlerle ölçülebiliyordu. Yeni çalışma, marker, kuvvet tablası, elektromiyografi veya özneye özgü görüntüleme gerektirmeksizin kalibre edilmemiş tek kameralı videodan anlık 3D kalça ve diz temas kuvvetlerini tahmin eden fizik modeli içermeyen bir boru hattı sunuyor. Her kareden parametrik vücut ağları çıkarılıyor, kinematik özniteliklere dönüştürülüyor; ardından vücut şekli, eklem, aktivite metni ve öz-denetimli video token'larıyla (V-JEPA 2) her katmanda uyarlamalı olarak modüle edilen bir transformer bu bilgiyi kuvvetlere dönüştürüyor. OrthoLoad veritabanındaki 26 hasta ve 25 aktivite kategorisi üzerinde bırakma-bir-dışarıda çapraz doğrulamasında yöntem, özneye özgü kas-iskelet simülasyonlarının doğruluğuna ulaşıyor. Arşiv klinik kayıtlarının geriye dönük analizi, birinci basamak tarama ve evde rehabilitasyon takibi için yeni bir kapı aralıyor.

Arxiv CS.CV →

5. Araştırma

LLM Kişiselleştirme Sistemleri Gerçek Kullanıcılarda Neden Yetersiz Kalıyor?

Sentetik veriyle değerlendirilen LLM kişiselleştirme sistemleri gerçek insan konuşmalarında beklentileri karşılamıyor; modeller 'kişiselleştirilmiş' yanıtları jenerik görüyor.

Büyük dil modellerinin kişiselleştirme yetenekleri büyük ölçüde sentetik veriyle değerlendiriliyor; ancak bu sistemlerin gerçek kullanıcılarda ne kadar iyi çalıştığı hâlâ belirsiz. Yeni çalışma, sentetik ve insan verisi kullanıldığında kişiselleştirme performansının nasıl farklılaştığını sistematik biçimde inceliyor: 550 insan konuşması ve kişiselleştirmenin üç aşamasını kapsayan yaklaşık 19.000 değerlendirme yargısı derlendi. Bulgular, modellerin her aşamada ciddi yetersizlikler sergilediğini ortaya koyuyor: kullanıcı özelliklerini konuşmalardan çıkarmakta zorlanıyorlar, hangi özelliklerin yeni sorgularla ilgili olduğu konusunda insanlardan farklı kararlar veriyorlar ve ürettikleri kişiselleştirilmiş yanıtları insanlar jenerik yanıtlardan üstün bulmuyor (oysa LLM değerlendiricileri bu yanıtları çok daha iyi buluyor). Araştırmacılar iki hafif eğitim müdahalesi önerse de ödül modellerinin insan değerlendirmeleriyle ancak mütevazı bir korelasyon yakaladığı görüldü; bu da insan odaklı kişiselleştirme kalitesinin doğrudan modellenmesinin ne denli güç olduğunu gösteriyor.

Arxiv CS.CL →

6. Araştırma

Günlük İnternet Videolarından Robot Politikası Eğitiminde Kritik Faktörler

532 videoluk yeni dataset ile günlük insan videolarından robot manipülasyon politikasına transferi inceleyen çalışma, az robot verisi rejiminde %29,7 başarı artışı bildiriyor.

Robot manipülasyon politikalarının birlikte eğitiminde (cotraining) kullanılan insan video datasetleri çoğunlukla özel donanımla yakalanan, robot davranışını taklit eden senaryolardan oluşuyor; ancak bu verileri toplamak hem pahalı hem de kısıtlayıcı. Yeni çalışma, 28 saatlik yüksek kaliteli üçgenlenmiş el etiketi içeren 532 günlük insan videosundan oluşan özgün bir dataset kullanarak hangi faktörlerin bu tür videolardan robota transferi mümkün kıldığını araştırıyor. El pozu kalitesinin transferi etkilediği doğrulandı; ancak hassas el pozu bilgisine sahip olunsa bile robotla insan hareketi arasındaki yapısal fark, görme ve politika ağlarının her gövdeye özelleştirilmediği sürece aktarımı engelliyor. Geliştirilen cotraining tarifi, az robot verisi rejiminde altı manipülasyon görevi genelinde mutlak başarı oranını %29,7 artırıyor. Bu bulgular, internet ölçeğindeki videolardan yararlanmak isteyen robot öğrenmesi araştırmaları için somut bir tasarım rehberi sunuyor.

Arxiv CS.RO →

7. Araştırma

Piggyback Hipotezi: Fine-Tuning Sonrası Ortaya Çıkan Hizalama Bozulmasının Mekanizması

Chat şablonu token'larının ince ayar davranışını ilgisiz alanlara taşıdığını gösteren Piggyback Hipotezi, emergent misalignment sorununa mekanistik bir çözüm yolu açıyor.

LLM'lerin dar görevler üzerinde fine-tuning yapıldıktan sonra anlamsal olarak ilgisiz alanlarda geniş çaplı hizalanma bozukluğu (emergent misalignment) sergilemesi dikkat çekici bir olgu; ancak mekanizması büyük ölçüde bilinmiyordu. Bu çalışma, 'Piggyback Hipotezi'ni öne sürerek chat şablonu token'larının ince ayarlanmış davranışı alan dışı sorgulara taşıyabileceğini savunuyor. Hipotezi doğrulamak için araştırmacılar, öneke (tüm kullanıcı sorgularından önce gelen token'lara) yapılan küçük perturbasyonların veya ince ayar yapılmamış modelin önek temsillerinin yamalı geçişinin kullanıcı sorgusunu değiştirmeden hizalamayı yeniden sağlayabildiğini gösterdi. Bu bulguya dayanarak geliştirilen Token-Regularized Finetuning (TReFT), eğitim sırasında belirli token temsillerini düzenleyerek emergent misalignment'ı azaltıyor. Llama-3.1-8B üzerindeki deneylerde TReFT, hizalanmış örneklerle veri karıştırma yöntemine kıyasla %33,5 daha fazla hizalama bozukluğunu gideriyor ve diğer dar fine-tuning senaryolarında alan dışı genelleşmeyi ortalama %54,3 azaltıyor.

Arxiv CS.CL →

8. Araştırma

ViSAE: Vision Transformer'ların İç Dünyasını Kavram Devreleriyle Yorumlama

Sinirbilimden ilham alan ViSAE araç kutusu, Vision Transformer'ların karar mekanizmalarını kavram devrelerine ayrıştırarak yanlı tahminleri düzeltebiliyor.

Vision Transformer'lar (ViT) yüksek doğruluk oranlarına ulaşsa da tahminleri zaman zaman yanıltıcı korelasyonlar tarafından yönlendiriliyor; bu durum güvenli dağıtım öncesinde modelin iç işleyişinin anlaşılmasını zorunlu kılıyor. ViSAE, seyrek otokodlayıcıları (SAE) ViT'lere uyarlayan ve sinirbilim ilkelerinden esinlenen mekanistik bir yorumlanabilirlik araç kutusu sunuyor. Sistem üç bileşenden oluşuyor: 64.000 görüntü ve 16.000 kavramlık görsel temelli bir sözlükle kavram kapsama verimliliğini ImageNet'e göre 20 kat artıran bir prob paketi; ViT iç işleyişini kavram devrelerine otomatik olarak haritalayan yukarıdan aşağı okuma ve aşağıdan yukarıya devre izleme algoritmaları; ve ViT davranışını denetlemek ve yönlendirmek için uygulamalar. Kavram düzenlemesi aracılığıyla WaterBirds dataset üzerinde en kötü grup doğruluğu %48,2 artırılarak mevcut yöntemlerin %23,8 üzerine çıkıldı. ICML 2026'ya kabul edilen bu çalışma, yorumlanabilirlik araştırmalarını gerçek hata düzeltme uygulamalarıyla buluşturması bakımından öne çıkıyor.

Arxiv CS.CV →