İşaret

2026-06-22 Yapay Zeka · Bilgisayarlı Görü · Doğal Dil İşleme · Robotik

Hugging Face Hub'dan Fiziksel Robota Tek Ajan Döngüsü

Strands Agents ve LeRobot entegrasyonu, veri setinden gerçek robot donanımına geçişi tek bir ajan döngüsüyle mümkün kılıyor.

AWS'nin açık kaynak SDK'sı Strands Robots, LeRobot yığınını AgentTools olarak sarmalayarak Hugging Face Hub'daki bir demo veri setinden fiziksel robot donanımına kadar uzanan tüm iş akışını tek bir ajan döngüsünde birleştiriyor. Geleneksel yaklaşımda kayıt, eğitim, simülasyon testi, donanım dağıtımı ve çoklu robot koordinasyonu için beş ayrı araç gerekiyordu; bu araçlar birbirleriyle konuşamıyordu. Strands Robots, simülasyon ile gerçek donanımın aynı LeRobotDataset formatını kullanmasını sağlıyor; GR00T ve LerobotLocal politika çıkarımını ortak bir arayüzün arkasında sunuyor, Zenoh ağ örgüsü ise komutları robot filolarına yayıyor. Politika değiştirmek tek bir string argümanı değiştirmek kadar basit; simülasyondan gerçek SO-101 donanımına geçiş ise yalnızca bir anahtar kelime argümanı farkıyla gerçekleşiyor. GPU veya Hugging Face kimlik bilgisi gerektirmeyen bu yaklaşım, açık kaynak robotik geliştirme ekosistemindeki parçalanmışlık sorununa pratik ve yeniden kullanılabilir bir çözüm sunuyor.

Hugging Face Blog →

TD Öğrenmesi Olmadan Ölçeklenebilir Pekiştirmeli Öğrenme

Berkeley araştırmacıları, TD öğrenmesinin bootstrapping sorununu aşan 'böl ve fethet' tabanlı yeni bir off-policy RL algoritması sunuyor.

Berkeley BAIR'den Seohong Park, temporal difference (TD) öğrenmesinin bootstrapping kaynaklı hata birikmesi sorununu ortadan kaldırmak için 'böl ve fethet' paradigmasına dayanan yeni bir pekiştirmeli öğrenme algoritması tanıtıyor. TD öğrenmesinde Bellman güncellemeleri sırasında biriken hatalar, uzun ufuklu görevlerde Q-learning'in ölçeklenmesini zorlaştırıyor; n-adımlı TD veya Monte Carlo karışımı gibi geçici çözümler ise problemi tam olarak çözmüyor. Önerilen yaklaşım, bir görevi daha küçük alt görevlere bölerek her birini bağımsız biçimde çözüyor ve sonuçları birleştiriyor; bu sayede hata birikimi minimize ediliyor. Yöntem özellikle veri toplamanın pahalı olduğu robotik, diyalog sistemleri ve sağlık gibi alanlarda kritik öneme sahip off-policy RL senaryolarını hedefliyor. 2025 itibarıyla on-policy RL için iyi tarifler mevcut olsa da off-policy RL'de ölçeklenebilir bir algoritmanın yokluğu önemli bir boşluk oluşturuyordu; bu çalışma o boşluğu kapatmaya yönelik umut verici bir teorik ve pratik adım sunuyor.

Berkeley BAIR Blog →

Sağlık Benchmark'ları Değerlendirme ile Gerçeği Neden Yakalayamıyor?

LLM'lerin sağlık benchmark'larındaki başarısı ile gerçek kliniklerde ki performansı arasında 61 puanlık uçurum var.

CMU araştırmacıları, büyük dil modellerinin sağlık ortamlarındaki değerlendirme performansı ile gerçek klinik kullanımdaki performansı arasındaki derin uçurumu mercek altına alıyor. Bean ve arkadaşlarının 2025 tarihli bulgularına göre bu fark 61 yüzde puanına ulaşıyor. Araştırmacılar bu boşluğun kötü tasarlanmış benchmark'lardan değil, değerlendirme protokollerine gömülü örtük varsayımlardan kaynaklandığını savunuyor: değerlendirme ortamlarında sabit ve net sorular, gerçek kullanımda ise belirsiz, bağlama bağlı ve çok turlu etkileşimler söz konusu oluyor. Çalışma, sağlık alanındaki LLM değerlendirmesine özgü bu varsayımları sistematik biçimde katalogluyor ve dağıtım ortamında da geçerliliğini koruyan daha sağlam değerlendirme protokolleri için somut öneriler sunuyor. Kliniklerde yapay zeka araçlarının benimsenmesinin hız kazandığı bir dönemde, benchmark tasarımındaki bu köklü sorunu görünür kılmak, hem model geliştiriciler hem de klinik karar vericiler için hayati önem taşıyor.

CMU ML Blog →

Google'ın ScreenAI Modeli Arayüz Anlayışını Yeniden Tanımlıyor

Google Research'ün ScreenAI'ı, UI ekranlarını ve görsel dili anlayan özel bir görsel dil modeli sunuyor.

Google Research'ten Srinivas Sunkara ve Gilles Baechler, kullanıcı arayüzlerini ve görsel bağlamda konumlandırılmış dili anlamak üzere özel olarak tasarlanmış bir görsel dil modeli (VLM) olan ScreenAI'ı tanıtıyor. Model, mobil uygulama ekranları, web sayfaları ve masaüstü arayüzleri gibi UI ortamlarındaki metinsel ve görsel unsurları bütünleşik biçimde yorumlayabiliyor. ScreenAI, genel amaçlı VLM'lerin aksine UI erişilebilirliği, ekran içeriği sorgulama ve otomasyon görevlerine odaklanarak bu alanlarda güçlü performans sergiliyor. Mimari, görsel öğeleri ve metni birlikte kodlayan özelleştirilmiş bir yaklaşım benimsiyor; bu sayede model, bir arayüzün hangi bölgesinde ne tür etkileşimin gerçekleşebileceğini anlayabiliyor. Engelli kullanıcılar için erişilebilirlik araçlarından otomatik UI test sistemlerine kadar geniş bir uygulama yelpazesine hitap eden bu çalışma, bilgisayarlı görü ile NLP'nin kesiştiği UI anlama araştırmaları için önemli bir referans noktası oluşturuyor.

Google Research Blog →

MELON: Bilinmeyen Pozlardan 3B Nesne Yeniden Yapılandırması

Google'ın MELON modeli, kamera pozu bilinmeden görüntülerden 3B nesneler yeniden oluşturabiliyor.

Google Research'ten Mark Matthews ve Dmitry Lagun, kamera pozlarının önceden bilinmediği durumlarda görüntülerden 3B nesne yeniden yapılandırması gerçekleştiren MELON modelini sunuyor. Geleneksel 3B yeniden yapılandırma yöntemleri, farklı açılardan çekilmiş görüntüleri hizalamak için hassas kamera kalibrasyon bilgisi gerektiriyor; bu durum gerçek dünya uygulamalarında ciddi bir kısıt oluşturuyor. MELON, bu kısıtı aşmak için görsel tutarlılık sinyallerinden yararlanarak kamera pozlarını eş zamanlı olarak tahmin ediyor ve 3B yapıyı buna göre optimize ediyor. Yöntem, kontrollü kalibrasyon ortamları dışında, örneğin internetten toplanan görüntüler veya arşiv fotoğrafları gibi koşullarda da çalışabiliyor. Poz kalibrasyonu gerektirmeyen bu yaklaşım, e-ticaret ürün görselleştirmesinden kültürel miras dijitalleştirmesine, artan gerçeklik uygulamalarına kadar uzanan geniş bir kullanım alanı açıyor ve bilgisayarlı görü araştırmalarında poz gerektirmeyen 3B anlama yönünde önemli bir adım atıyor.

Google Research Blog →

Graf Yapılarını LLM'lere Aktarmanın En İyi Yolu

Google'ın yeni çalışması, grafları metin olarak kodlamanın hangi yönteminin LLM akıl yürütmesini en çok güçlendirdiğini ortaya koyuyor.

Google Research'ten Bahare Fatemi ve Bryan Perozzi, büyük dil modellerine graf yapılarının nasıl aktarılacağını sistematik biçimde inceleyen 'Talk Like a Graph' çalışmasını sunuyor. Graf verisi doğası gereği metin değil; ancak LLM'ler metinle çalışıyor. Bu nedenle kenar listeleri, komşuluk matrisleri veya doğal dil tanımlamaları gibi farklı kodlama stratejileri, modelin akıl yürütme kalitesini doğrudan etkiliyor. Çalışma, çeşitli metin tabanlı graf temsil formatlarını karşılaştırmalı olarak değerlendiriyor ve hangi formatın hangi tür graf görevlerinde (yol bulma, bağlantı analizi, topluluk tespiti vb.) daha iyi performans sergilediğini ölçüyor. Sonuçlar, kodlama seçiminin model performansını dramatik biçimde etkileyebildiğini gösteriyor. Sosyal ağ analizinden ilaç etkileşimi grafiklerine kadar geniş alanlarda LLM'lerin graf üzerinde akıl yürütmesini konu alan bu araştırma, NLP ile graf makine öğrenmesinin kesişiminde referans bir kaynak niteliği kazanıyor.

Google Research Blog →

Chain-of-Table: LLM'ler Tablolar Üzerinde Adım Adım Akıl Yürütüyor

Google'ın Chain-of-Table yöntemi, LLM'lerin tabloları adım adım dönüştürerek tablo anlama görevlerinde yeni SOTA elde etmesini sağlıyor.

Google Cloud AI ekibinden Zilong Wang ve Chen-Yu Lee, büyük dil modellerinin tablo anlama görevlerindeki performansını artırmak için Chain-of-Table yöntemini öneriyor. Geleneksel chain-of-thought akıl yürütme metni adım adım işlerken, Chain-of-Table tabloyu dinamik olarak evrimleştiriyor: model her adımda filtreleme, gruplama, sıralama gibi ara operasyonlar uygulayarak tabloyu dönüştürüyor ve her adımın çıktısı bir sonraki akıl yürütme adımının girdisi oluyor. Bu yaklaşım, modelin dikkatini ilgili satır ve sütunlara odaklamasını kolaylaştırıyor, karmaşık çok adımlı sorguları yönetilebilir parçalara bölüyor. WikiTableQuestions ve FeTaQA gibi standart benchmark'larda mevcut en iyi sonuçları geride bırakan yöntem, yapılandırılmış veri üzerinde çalışan soru-cevap sistemleri ve analitik asistanlar için güçlü bir teknik temel sunuyor.

Google Research Blog →

NVIDIA XR AI ile AR Gözlükler İçin Akıllı Ajan Altyapısı

NVIDIA'nın açık kaynak XR AI kütüphanesi, AR gözlükler ve XR cihazlar için çok-modal yapay zeka ajanları geliştirmeyi kolaylaştırıyor.

NVIDIA, artırılmış gerçeklik gözlükleri ve geniş XR cihaz ekosistemi için GPU hızlandırmalı yapay zeka hizmetlerine bağlanmayı sağlayan açık kaynak XR AI kütüphanesini kamuya açık beta olarak duyurdu. Donanım hazır olsa da geliştiriciler canlı kamera/mikrofon akışları, çok-modal yapay zeka modelleri, kurumsal veri entegrasyonu ve cihaza özgü çalışma ortamlarını bir araya getirmekte zorlanıyordu. NVIDIA XR AI bu boşluğu modüler bir mimariye sahip yeniden kullanılabilir bir temel sunarak kapatıyor: medya taşıma, görme için Cosmos ve dil için Nemotron model hizmetleri, Model Context Protocol üzerinden kurumsal bağlantı ve NeMo Agent Toolkit ile ajan orkestrasyonu ayrı bileşenler olarak tasarlandı. Stanford Tıp Okulu ve Princeton Üniversitesi araştırmacıları kök hücre terapisi araştırmalarında, Siemens ise fabrika bakım süreçlerinde bu altyapıyı araştırıyor. Saha servisinden uzaktan yardıma, endüstriyel operasyonlardan sağlığa kadar uzanan uygulamalarıyla XR AI, kurumsal düzeyde çok-modal ajan geliştirme için kapsamlı ve esnek bir platform sunuyor.

NVIDIA Developer Blog →