İşaret

2026-06-23 Yapay Zeka · Bilgisayarlı Görü · Doğal Dil İşleme · Robotik

Bu hafta yapay zeka ve robotiğin iki temel sorusuna odaklanıyoruz: Sistemler fiziksel dünyada nasıl daha güvenli ve daha akıllı hareket eder; bilgi ise bu süreçte nasıl korunur, ölçülür ve değerlendirilir? Mekânsal bellekten güvenli pekiştirmeli öğrenime, gömü güvenliğinden bilgi teorisine uzanan bu seçki, birbirini tamamlayan bir bütün oluşturuyor. Tüm makaleleri birlikte okuduğunuzda yalnızca ayrı teknik katkılar değil, güvenilir yapay zeka sistemleri inşa etmenin entelektüel haritası ortaya çıkıyor.

MIT'den Robotlar İçin Mekânsal Bellek Sistemi

MIT'nin DAAAM sistemi, robotların keşfettikleri ortamdaki nesneleri uzun süreli bellekle takip etmesini sağlıyor.

MIT araştırmacıları, robotların çevrelerini keşfederken karşılaştıkları nesneleri verimli biçimde kaydedip daha sonra sorgulayabilen DAAAM adlı uzun süreli bellek çerçevesi geliştirdi. Sistem, gelişmiş harita temsilleriyle zengin çevresel açıklamaları birleştiriyor: robot bir ortamı gezerken karşılaştığı her nesneye ayrıntılı anlamsal etiketler ekliyor ve bu bilgilere daha sonra doğal dil sorgusuyla ulaşabiliyor. Örneğin bir kampüste gördüğü heykelleri hatırlamak için "sculpture" anahtar kelimesiyle belleğini tarayabiliyor, nesnelerin konumunu ve bağlamsal özelliklerini birlikte geri getirebiliyor. Mevcut sistemlerin büyük çoğunluğu kısa vadeli algıya ya da basit konum haritalarına dayandığından karmaşık, çok adımlı sorgulara yanıt vermekte yetersiz kalıyor. DAAAM ise anlamsal zenginliği mekânsal hassasiyetle birleştirerek bu kritik boşluğu kapatıyor. Çerçevenin modüler tasarımı, farklı robot platformlarına ve ortam türlerine uyarlanabilmesini kolaylaştırıyor. Ev robotlarından arama-kurtarma sistemlerine, müze rehberi robotlardan depo yönetim platformlarına kadar uzanan geniş bir yelpazede robotların insan yaşam alanlarında çok daha pratik ve bağlamsal biçimde işlev görmesini mümkün kılabilir. Uzun vadede bu tür bellek altyapıları, robotların yalnızca anlık çevreyi değil, zaman içindeki değişimleri de takip etmesine olanak tanıyan sistemlerin temelini oluşturabilir.

MIT News — AI →

MAGNIFIED: RL ile Çok Modlu LLM'leri Hareket Planlamaya Uyarlama

MAGNIFIED, çok modlu büyük dil modellerini RL ile ince ayar yaparak otonom araçlarda yol dışına çıkma oranını %38,9 azaltıyor.

Waymo ve iş ortaklarından araştırmacılar, otonom sürüş için tasarlanmış çok modlu büyük dil modellerini pekiştirmeli öğrenmeyle fine-tune eden MAGNIFIED çerçevesini ICRA 2026'da sundu. Geleneksel denetimli fine-tuning (SFT), modeli yalnızca token imitasyonuna yönlendirdiğinden çok adımlı planlama gereksinimlerini ve diğer trafik aktörlerine yeterli alan bırakma gibi kritik sürüş kurallarını karşılamakta yetersiz kalıyor. MAGNIFIED, tahmin edilen token dizilerini araç yörüngelerine eşleyerek bu yörüngelerden elde ettiği planlama ödülleriyle modeli doğrudan eğitiyor; böylece model ham metin taklidi yapmak yerine gerçek planlama hedeflerini optimize etmeyi öğreniyor. Bu yaklaşım, dilin bir araç olarak kullanıldığı alanlarda ödül sinyallerini modelin üretim sürecine entegre etmenin somut bir örneğini sunuyor. Waymo Open Motion Dataset üzerinde gerçekleştirilen kapsamlı deneylerde MAGNIFIED, SFT taban çizgisine kıyasla çakışma oranını %10,5, yol dışına çıkma oranını ise %38,9 oranında azalttı. Bu iyileşmeler, güvenlik açısından kritik olan sürüş senaryolarında doğrudan ölçülebilir kazanımlar anlamına geliyor. Sonuçlar, çok modlu büyük dil modeli tabanlı sürüş ajanlarını gerçek dünya koşullarına uyumlu hale getirmede token düzeyli pekiştirmeli öğrenmenin güçlü ve ölçeklenebilir bir yöntem olduğuna işaret ediyor.

Arxiv CS.RO →

Moonshot AI'dan Açık Kaynak Hibrit Dikkat Modeli: Kimi-Linear-48B

Kimi-Linear-48B, 1 milyon token bağlamda tam dikkate göre 6 kat daha hızlı çıkarım yapan hibrit bir dil modeli.

Moonshot AI, 48 milyar toplam parametreye sahip ancak çıkarım sırasında yalnızca 3 milyar parametre aktive eden karma uzman mimarili Kimi-Linear-48B modelini Hugging Face üzerinde açık kaynak olarak yayımladı. Modelin temelinde, Gated DeltaNet'in rafine edilmiş bir versiyonu olan Kimi Delta Attention (KDA) mekanizması yer alıyor. KDA, geleneksel tam dikkat mekanizmasına kıyasla KV önbellek ihtiyacını %75 oranında azaltırken 1 milyona kadar uzanan token dizilerinde kod çözme verimini 6 kata kadar artırıyor. Hibrit mimari, 3:1 KDA-global MLA oranıyla hem kısa hem uzun bağlamlarda tam dikkate eşdeğer ya da üstün performans sergiledi. MMLU-Pro, RULER ve çeşitli uzun bağlam benchmark'larında da rakip modellerle kıyaslanabilir sonuçlar elde edildi. Model, 5,7 trilyon token ile eğitilmiş iki ayrı checkpoint olarak sunuluyor: Base ve Instruct sürümleri farklı kullanım senaryolarına hitap ediyor. vLLM aracılığıyla kolayca dağıtılabilen mimari, üretim ortamlarına entegrasyonu da hızlandırıyor. Uzun bağlam işleme maliyetini dramatik biçimde düşüren bu tasarım, sınırlı donanım kaynaklarıyla büyük bağlamlara ihtiyaç duyan araştırmacılar ve geliştiriciler için önemli bir açık kaynak referans noktası sunuyor.

Moonshot AI (Kimi) Model Releases →

LLM Değerlendirme Yöntemleri: Dört Temel Yaklaşım

Kod örnekleriyle çoktan seçmeli benchmark, doğrulayıcı, liderboard ve LLM yargıcı yöntemlerini karşılaştıran kapsamlı bir rehber.

Sebastian Raschka, büyük dil modellerini değerlendirmek için kullanılan dört temel yöntemi kod örnekleriyle birlikte sistematik biçimde ele alan kapsamlı bir makale yayımladı. Çoktan seçmeli benchmark'lar (MMLU gibi), doğrulayıcı tabanlı değerlendirme, topluluk liderboard'ları (LMSYS Chatbot Arena gibi) ve LLM yargıcı kullanımı olarak sıralanan bu yaklaşımların her biri farklı güçlü ve zayıf yönlere sahip. Makale, benchmark'ların ölçüm kolaylığı ve tekrar edilebilirlik sunduğunu ancak veri sızıntısına ve benchmark oynaşmasına açık olduğunu ortaya koyuyor. LLM yargıcıların öznel görevlerde esneklik sağladığını fakat kendi pozisyon ve model önyargılarını taşıdığını vurguluyor. Doğrulayıcı tabanlı yaklaşımların ise matematik ve kod gibi nesnel alanlarda en güvenilir ve manipülasyona en dayanıklı sonuçları ürettiğini gösteriyor. Topluluk liderboard'ları ise gerçek kullanıcı tercihlerini yansıtması bakımından değerli olmakla birlikte örneklem yanlılığı sorununu beraberinde getiriyor. Her yöntem için sıfırdan yazılmış Python kodu örnekleri sunuluyor; bu da makaleyi salt teorik bir incelemenin ötesine taşıyor. Model seçimi sürecinde ya da fine-tuning çalışmalarında ilerlemeyi izlemeye çalışan araştırmacılar ve uygulayıcılar için değerlendirme ekosistemini kavramsal ve pratik düzeyde birlikte haritalaması açısından güçlü bir başvuru kaynağı niteliği taşıyor.

Ahead of AI →

İnsansı Robotlar Yük Taşırken de Merdiven Çıkıyor

TACT-ful, insansı robotların 15 kg yük taşırken saniyede 1 metreyle merdiven çıkmasını sağlayan çok kanallı bir hareket politikası sunuyor.

Araştırmacılar, insansı robotların engebeli ve yapısal arazilerde güvenli ayak basma noktalarını seçebilmesi için TACT-ful adlı çok kanallı zemin maliyet çerçevesini geliştirdi. Sistem; düzlük, eğim ve hıza duyarlı yükseklik uygunluğunu tek bir birleşik sinyal yerine ayrı kanallar olarak modelliyor ve bu çok boyutlu bilgileri GPU paralel DCM ayak planlayıcısıyla PPO tabanlı aktör-eleştirmen politikasına eş zamanlı besliyor. Bézier eğrili salınım yörüngesi, taban yönlendirmesini merdiven basamaklarına dinamik olarak uyarlayarak tırmanmayı daha güvenilir ve akıcı kılıyor. Yük dayanıklılığı içinse politika, sanal kuvvet-moment enjeksiyonuyla eğitiliyor; bu sayede gerçek kuvvet sensörü gerektirmeden yük kaynaklı sarsıntılara uyum sağlanabiliyor. Simülasyon deneyleri, 0,20 m rıhtım yüksekliğine sahip merdivenlerde saniyede 1 m hıza ve 15 kg merkezlenmiş yük taşımaya ulaşıldığını gösterdi. Tüm sistem, distilasyon aşaması veya öğretmen-öğrenci aktarımı olmadan doğrudan simülasyondan gerçek donanıma aktarıldı; bu sim-to-real geçişin başarısı metodolojinin sağlamlığını ayrıca doğruluyor. Sonuçlar, insansı robotların karmaşık yapılı ortamlarda yük taşırken dahi güvenilir ve otonom biçimde hareket edebileceğine dair somut bir kanıt sunuyor.

Arxiv CS.RO →

SafeDojo: Dünya Modeli Aracılığıyla VLA'lar için Güvenli RL

SafeDojo, pahalı gerçek dünya denemeleri olmadan VLA modellerini güvenli RL ile eğitmek için etkileşimli bir video dünya modeli kullanıyor.

Araştırmacılar, vision-language-action (VLA) politikalarını güvenli biçimde eğitmek için SafeDojo adlı model tabanlı pekiştirmeli öğrenme çerçevesini önerdi. Mevcut güvenli RL yöntemleri ya gerçek dünyada maliyetli ve riskli keşif gerektiriyor ya da elle tasarlanmış güvenlik fonksiyonlarına dayanıyor; bu yaklaşımların hiçbiri açık uçlu fiziksel ortamlara ölçeklenemiyor. SafeDojo, etkileşimli bir video dünya modeli üzerinde çevrimiçi RL gerçekleştirerek bu kısıtlamaları aşıyor. Dünya modeli aksiyona koşullu gelecek tahminleri üretiyor; hafif bir güvenlik başlığı adım adım güvenlik maliyetlerini tahmin ediyor; ResNet tabanlı sınıflandırıcı ise görev ilerlemesini değerlendiriyor. Görev ödülü ve güvenlik maliyeti sinyalleri, Lagrangian tabanlı kısıtlamalı GRPO hedefiyle dinamik olarak dengeleniyor; bu da sistemin hem başarıyı hem güvenliği eş zamanlı optimize etmesine olanak tanıyor. SafeLIBERO benchmark'ında SafeDojo, model içermeyen ve model tabanlı tüm RL taban çizgilerini geride bıraktı; Seviye I görevlerinde en iyi güvenli-başarı oranını ve en güçlü rakibe kıyasla 8,25 puanlık iyileşme elde etti. Gerçek Franka robotu üzerinde yürütülen deneyler de simülasyon bulgularını doğruladı. Çerçeve, özellikle insan ortamlarında çalışan robotlar için güvenli somutlaşmış zekâya giden ölçeklenebilir bir yol olarak öne çıkıyor.

Arxiv CS.RO →

Metin Gömleri Ters Mühendislikle Orijinal Metne Dönüştürülebilir

Vec2text, metin gömülerini yüksek doğrulukla orijinal metne geri çeviriyor; vektör veritabanlarındaki gizlilik riskleri yeniden değerlendirilmeli.

The Gradient'ta yayımlanan bu analiz, metin gömülerinin (embedding) sanıldığı kadar geri döndürülemez olmadığını gözler önüne seriyor. Vec2text adlı yöntem, embedding vektörlerinden orijinal metni yüksek doğrulukla yeniden üretebiliyor ve bu durum RAG tabanlı sistemlerde ciddi güvenlik endişeleri doğuruyor. RAG sistemlerinin kurumsal düzeyde yaygınlaşmasıyla birlikte şirketler ve geliştiriciler, büyük miktarda belgeden ürettikleri embedding'leri vektör veritabanlarında depolamaya başladı. Bu ham sayı dizilerinin anlamsız ve güvenli olduğu yaygın biçimde kabul görüyordu; ancak Vec2text araştırması bu varsayımı kökten sarsıyor. Bir saldırganın yalnızca embedding vektörlerine erişmesi, hassas kaynak metni kurtarmak için yeterli olabiliyor. Bu bulgu, özellikle sağlık kayıtları, hukuki belgeler ve kurumsal bilgi tabanları gibi gizlilik gerektiren alanlarda RAG altyapısı kuran sistemlerin güvenlik modellerini temelden sorguluyor. Embedding'lerin şifrelenmiş ya da anonim veri gibi korunduğu senaryolar artık yeniden değerlendirilmeli. Ham kaynak veriyle aynı güvenlik düzeyinin embedding'lere de uygulanması; erişim kontrolü, şifreleme protokolleri ve saklama politikalarının gözden geçirilmesi artık zorunlu görünüyor. Bu araştırma, vektör veritabanı güvenliğinin göz ardı edilen kritik bir saldırı yüzeyi oluşturduğunu net biçimde ortaya koyuyor.

The Gradient →

Bilgi Teorisiyle Görüntüleme Sistemleri Tasarımı

Berkeley araştırmacıları, karşılıklı bilgi miktarını doğrudan optimize ederek görüntüleme donanımını daha verimli tasarlayan yeni bir çerçeve geliştirdi.

Berkeley BAIR araştırmacıları, görüntüleme sistemlerini çözünürlük ya da sinyal-gürültü oranı gibi geleneksel metrikler yerine doğrudan bilgi içeriğine göre değerlendiren ve optimize eden bir çerçeve geliştirdi; çalışma NeurIPS 2025'te sunuldu. Karşılıklı bilgi (mutual information), bir ölçümün nesne hakkındaki belirsizliği ne ölçüde azalttığını tek bir sayıyla ifade ediyor ve gürültü, çözünürlük ile spektral duyarlılığı birlikte ele almayı mümkün kılıyor. Araştırmacılar, bilgi miktarını tahmin etmek için yalnızca gürültülü ölçümleri ve gürültü modelini kullanan bir yaklaşım geliştirerek nesne modelinin önceden bilinmesi zorunluluğunu ortadan kaldırdı. Bu, yöntemi gerçek dünya koşullarında uygulanabilir kılan kritik bir pratik kolaylık sağlıyor. Yöntem, dört farklı görüntüleme alanında sistem performansını başarıyla öngörebildi. Optimize ettiği tasarımlar, uçtan uca eğitilmiş yöntemlerle eşit sonuçlara çok daha az bellek ve hesaplama kaynağıyla ulaştı. Akıllı telefon kameralarından tıbbi görüntülemeye, otonom araçlardaki sensörlerden uydu sistemlerine kadar geniş bir yelpazede algoritma kalitesinden bağımsız olarak donanım tasarımını temelden iyileştirebilecek bir paradigma sunuyor. Uzun vadede bu çerçeve, sensör tasarımcılarının sistemlerini sezgisel mühendislik yerine bilgi teorik temellere dayandırmasına zemin hazırlayabilir.

Berkeley BAIR Blog →