İşaret

2026-06-04 Yapay Zeka · Bilgisayarlı Görü · Doğal Dil İşleme · Robotik

Affordance2Action: Robotlar için Gerçek Zamanlı Nesne Etkileşim Tespiti

A2A, karmaşık sahnelerde görev odaklı nesne fonksiyonlarını gerçek zamanlı olarak tespit eden yeni bir benchmark ve öğrenme çerçevesi sunuyor.

Affordance2Action (A2A), robotların karmaşık ortamlarda nesne kategorileri yerine göreve özgü fonksiyonel bölgeleri tespit etmesini sağlayan sahne düzeyinde bir öğrenme çerçevesidir. Mevcut affordance veri setleri genellikle tek nesne odaklı ya da sentetik sahnelere dayalıyken, A2A hem tek bölgeli hem çok bölgeli komut-bölge eşleşmelerini kapsayan gerçekçi bir benchmark olan A2A-Bench'i tanıtıyor. Bu benchmark, dil modeli filtreleme, etkileşimli parça segmentasyonu ve insan doğrulamasını bir araya getiren A2A-AffordGen adlı ajansal bir anotasyon hattıyla büyük ölçekte oluşturulmuş. Çerçeve, genel segmentasyon modellerinin ve VLM tabanlı grounding yöntemlerinin bu görevde önemli ölçüde yetersiz kaldığını ortaya koyarken, gerçek zamanlı affordance tespiti ve manipülasyon politikası gibi uygulamalarda somut iyileşme sağlıyor. Veri seti ve kodun kamuya açılacağı belirtilen bu çalışma, robotik manipülasyon araştırmalarında nesne etkileşimi değerlendirmesine standart bir altyapı kazandırma potansiyeli taşıyor.

Arxiv CS.RO →

Transformer'lar Gerçekten Üç Projeksiyon Gerektiriyor mu?

ICML 2026 kabul alan çalışma, Q-K=V paylaşımının KV önbelleğini %50 azaltırken kaliteyi koruduğunu kanıtladı.

Transformer mimarisinin temel yapı taşı olan sorgu (Q), anahtar (K) ve değer (V) projeksiyonlarının gerçekten üçüne birden ihtiyaç duyulup duyulmadığını sistematik biçimde inceleyen bu çalışma, dikkat mekanizmasına dair köklü bir varsayımı sorguluyor. Araştırmacılar üç paylaşım kısıtını — Q-K=V, Q=K-V ve Q=K=V — sentetik görevler, görü benchmarkları (MNIST, CIFAR, TinyImageNet) ve 300M ile 1,2B parametreli dil modelleri üzerinde kapsamlı deneylerle test etti. Temel bulgu: Q-K=V paylaşımı yalnızca %3,1 perplexity artışıyla KV önbelleğini %50 küçültüyor; bu yöntem GQA-4 ile birleştirildiğinde önbellek tasarrufu %87,5'e, MQA ile birlikte ise %96,9'a ulaşıyor. Anahtarlar ve değerlerin benzer temsil uzaylarını paylaşabildiği ve dikkat mekanizmasının düşük ranklı bir rejimde çalıştığı gösterilen bu sonuçlar, özellikle uç cihaz dağıtımı için pratik bellek optimizasyonu sunarken mimari tasarım anlayışını da yeniden şekillendiriyor.

Arxiv CS.LG →

AgenticDiffusion: İHA'lar için Difüzyon Tabanlı Yol Planlama

Çok görüşlü difüzyon planlamasını dil güdümlü akıl yürütmeyle birleştiren AgenticDiffusion, kapalı alan İHA navigasyonunda %80 görev başarısı elde etti.

AgenticDiffusion, kapalı alan ortamlarında insansız hava araçlarının (İHA) navigasyonu için dil güdümlü akıl yürütme, açık kelime dağarcıklı hedef tespiti, difüzyon tabanlı yörünge planlama ve doğrusal olmayan model öngörülü kontrol (NMPC) bileşenlerini tek bir çerçevede birleştiriyor. Mevcut görüntü tabanlı navigasyon sistemleri genellikle tek bir bakış açısına bağlıyken, bu çerçeve birinci şahıs ve üstten görüş gözlemlerini eş zamanlı kullanarak tıkalı sahnelerde engel ve hedef görünürlüğünü daha iyi modelliyor. Doğal dil komutu verildiğinde sistem önce en bilgilendirici bakış açısını belirliyor, ardından görüşe özgü difüzyon planlayıcıları aracılığıyla yörünge üretiyor. Uyarlanabilir bakış açısı seçimi, çok aşamalı görev yürütme ve uzun ufuklu navigasyon senaryolarını kapsayan 40 gerçek dünya denemesinde genel görev başarı oranı %80, difüzyon planlayıcılarının yörünge üretim başarısı ise %100 olarak ölçüldü. Bu sonuçlar, özerk İHA sistemlerinde difüzyon modeli tabanlı planlama yaklaşımının güçlü bir alternatif olduğuna işaret ediyor.

Arxiv CS.RO →

LiftQuant: LLM'leri Esnek Bit Genişliğiyle Sıkıştırın

ICML 2026 Spotlight seçilen LiftQuant, 70B'lik bir modeli 24 GB GPU'ya tam uyacak şekilde 2,4 bit'e sıkıştırıyor.

LiftQuant, büyük dil modellerinin (LLM) kuantizasyonunda mevcut yöntemlerin takıldığı sabit tam sayı bit genişliklerinin (2-bit, 3-bit) ötesine geçerek sürekli bit genişliği kontrolü sunan yeni bir çerçevedir. Temel mekanizma olan 'lift-then-project' yaklaşımı, düşük boyutlu ağırlık vektörlerini daha yüksek boyutlu bir uzaydan 1-bit kafes yapısı projeksiyonuyla yaklaşık olarak temsil ediyor; etkili bit genişliği ise orijinal ve yükseltilmiş boyut oranıyla doğrudan belirleniyor. Bu yapı, Vektör Kuantizasyonu'nun (VQ) ifade gücünü korurken çözme sürecinde yalnızca doğrusal dönüşümler ve 1-bit düzgün kuantizatörler kullandığından donanım dostu kalıyor. Pratik sonuç dikkat çekici: 70B parametreli bir LLM, 24 GB VRAM'e tam oturacak şekilde 2,4 bit'e sıkıştırılabiliyor ve aynı donanımdaki 2-bit modellerden belirgin biçimde daha iyi performans gösteriyor. Bu esneklik, özellikle tüketici GPU'larında ve uç cihazlarda büyük modelleri çalıştırmak isteyen geliştiriciler için dönüştürücü bir olanak sunuyor.

Arxiv CS.LG →

CLAW: Videolardan Aksiyonsuz Dünya Modeli Öğrenimi

CLAW, eylem etiketi gerektirmeden ham videolardan sürekli gizli eylem temsilleri öğreniyor; taklit öğrenmesi ve hedefe yönelik planlama görevlerini destekliyor.

CLAW (Continuous Latent Action World Models), robotik sistemler için eylem etiketi ya da anotasyon gerektirmeksizin doğrudan ham videolardan dünya modeli ve sürekli gizli eylem temsilleri öğrenen tam uçtan uca öz-denetimli bir çerçevedir. Çerçeve, çekişmeli gizli düzenlileştirme ve difüzyon tabanlı video üretimini bir araya getirerek ortam geçişlerini görsel gözlemlerden çıkarıyor. Gizli Eylem Modeli ve dünya modeli eş zamanlı eğitilerek eylemlerin ortamda nasıl değişim yarattığı öğreniliyor. Bu gizli temsiller hem ham videodan davranış klonlaması yoluyla taklit öğrenmesini hem de hedef durumuna ulaşmak için gizli eylem dizileri üreten hedefe yönelik planlamayı mümkün kılıyor. Farklı görev ve robot gövdelerinde yapılan kapsamlı deneyler, CLAW'ın mevcut yöntemleri geride bıraktığını gösteriyor. Etiketli veri toplamanın maliyetli ve zahmetli olduğu gerçek dünya robotik uygulamalarında öz-denetimli dünya modellemesi için güçlü bir yol haritası sunuyor.

Arxiv CS.RO →

DLO-Lab: Robotlar için Deforme Nesne Manipülasyonu Benchmark'ı

ICML 2026 kabul alan DLO-Lab, halat ve kablo gibi esnek nesnelerin robot manipülasyonu için diferansiyel fizik simülatörü ve kapsamlı benchmark sunuyor.

DLO-Lab, robotların halat, kablo ve lastik bant gibi deforme olabilir doğrusal nesneleri (DLO) manipüle etmesi için diferansiyel fizik simülatörü, kapsamlı bir görev benchmark'ı ve uzmanlaşmış bir ajan mimarisinden oluşan bütünleşik bir çerçevedir. Mevcut çalışmaların dar görev tanımları ve el yapımı sezgisel yöntemlerle sınırlı kalmasının ötesine geçen bu simülatör; uzamaz ve esnek malzeme özellikleri, bükülme plastikliği ve nesne etkileşimlerini modelleyerek geniş bir materyal yelpazesini kapsıyor. Üzerine inşa edilen benchmark, topolojik karmaşıklık ve tutma noktası duyarlılığı gibi DLO'lara özgü zorlukları ön plana çıkaran temsili görev setlerinden oluşuyor. Önerilen ajan, stratejik tutma noktaları belirleyerek ve uzun vadeli görevleri alt parçalara bölerek bu zorlukların üstesinden geliyor. Çeşitli politika öğrenme algoritmalarının değerlendirildiği ve simülasyondan gerçeğe (sim-to-real) aktarım deneylerinin sunulduğu çalışma, deforme nesne manipülasyonu araştırmalarında standart bir değerlendirme altyapısı eksikliğini gidermeyi hedefliyor.

Arxiv CS.RO →

JetBrains'den 12B MoE Kod Modeli: Mellum2

JetBrains, token başına yalnızca 2,5B parametre etkinleştiren Mellum2'yi Apache 2.0 lisansıyla açık kaynak olarak yayımladı.

JetBrains, yazılım geliştirme görevlerine odaklanan 12B parametreli Mixture-of-Experts (MoE) modeli Mellum2'yi duyurdu. Model, her token için yalnızca 2,5B parametreyi etkinleştiren seyrek MoE mimarisini kullanarak benzer boyutlu modellerden 2 kattan fazla daha hızlı çıkarım yapabiliyor. Mellum2; yönlendirme (routing), RAG pipeline'ları, özetleme, alt-ajan görevleri ve özel dağıtım senaryoları için tasarlanmış olup büyük modellere sürekli başvurmadan çözülebilecek gecikme duyarlı işlemleri hedefliyor. Apache 2.0 lisansıyla yayımlanan model, metin ve kod modalitelerini destekliyor; çok modlu görevler yerine yazılım mühendisliğine özel iş yüklerine odaklanarak kompakt ve verimli kalıyor. Çok modelli yapay zeka sistemlerinde orkestrasyon ve ara işlem adımları için büyük modellere olan bağımlılığı azaltmayı hedefleyen Mellum2, üretim ortamlarında yüksek hacimli kod görevleri için pratik bir açık kaynak alternatifi sunuyor.

Hugging Face Blog →

GroupToM-Bench: Yapay Zekâ Grup Zihin Teorisinde Başarısız

ACL 2026 kabul alan GroupToM-Bench, mevcut çok modlu LLM'lerin grup düzeyindeki sosyal dinamikleri modellemekte ciddi biçimde yetersiz kaldığını ortaya koyuyor.

GroupToM-Bench, çok modlu büyük dil modellerinin (MLLM) grup düzeyinde Zihin Teorisi (Theory of Mind) kapasitesini ölçen ilk benchmark olarak sunuldu. Bireysel zihinsel durum çıkarımındaki ilerlemenin ötesine geçen bu çalışma, kolektif davranışın bireysel niyetlerin toplamına indirgenemeyeceğini; sosyal gerilimlerin, uyum dinamiklerinin ve yapısal kısıtların doğrusal olmayan etkileşiminin ürünü olduğunu temel aldı. Benchmark, mikro düzeyde inanç-arzu-niyet (BDI) durumlarını, mezo düzeyde grup gerilimleri ve yapısal kısıtları, makro düzeyde ise sonuç tahmini ve mekanizma atfını kapsayan nedensel bir zincir üzerine inşa edildi ve yedi kademeli bilişsel denetim çerçevesiyle değerlendiriliyor. Deneyler, mevcut modellerin insan temel çizgisinin belirgin biçimde gerisinde kaldığını; özellikle sosyal yapıları işleme ve doğrusal olmayan kolektif dinamikleri modelleme konusunda köklü bir yetersizlik sergilediğini gösteriyor. Bu bulgular, gerçek anlamda genel yapay zekâya ulaşmak için sosyal dünya modellemesinin kritik ve henüz çözülmemiş bir sorun olmaya devam ettiğine işaret ediyor.

Arxiv CS.CV →