İşaret

2026-06-05 Yapay Zeka · Bilgisayarlı Görü · Doğal Dil İşleme · Robotik

Tek Elde Çok Nesne: Sıralı Kavrama için Diffusion Policy

MoDex, tek bir robotik elin serbest bırakmadan sırayla birden fazla nesneyi kavramasını sağlayan diffusion policy çerçevesi sunuyor.

MoDex, tek bir dexterous robotik elin önceden tuttuğu nesneleri bırakmadan sırayla yeni nesneler kavrayabilmesini sağlayan bir diffusion policy çerçevesi sunuyor. Mevcut yöntemlerin büyük çoğunluğu elin tüm serbestlik derecelerini tek bir nesneye tahsis ediyor; bu yaklaşım hem elin becerisini yetersiz kullanıyor hem de sonraki kavrama görevleri için hiç artık kapasite bırakmıyor. MoDex bu sınırlamayı iki bileşenle aşıyor: farklı nesne konumları ve boyutları için parmak konfigürasyonunu öğrenen bir diffusion policy ile daha önce tutulan nesnelerin yarattığı kısıtlamaları açıkça modelleyen bir atama mekanizması. Sistem, artık serbestlik derecelerini akıllıca yeni kavrama hedeflerine yönlendirerek elin gerçek çok yönlülüğünden yararlanıyor. Haofei Lu ve ekibinin simüle ortamlarda gerçekleştirdiği deneylerde MoDex, çeşitli nesne şekilleri ve üç nesneye kadar uzanan sıralı görev senaryolarında güçlü başarı oranları sergiledi. Yöntem yalnızca sentetik kavrama gösterimlerinden öğrenebiliyor ve gerçek robot donanımına aktarılabilecek biçimde tasarlanmış. Depo sıralama, mutfak yardımcılığı veya hassas montaj gibi gerçek dünya uygulamalarında birden fazla nesneyle eş zamanlı çalışabilen robotların gelişimi açısından bu araştırma kritik bir kapı aralıyor; beş parmaklı robotik ellerin tam potansiyeline ulaşma yolunda önemli bir adım.

Arxiv CS.RO →

VideoKR: Video-Dil Modelleri için 315K Örnekli Yeni Korpus

VideoKR, bilgi ve akıl yürütme yoğun video anlama için 315K örnekten oluşan ilk büyük ölçekli eğitim korpusunu sunuyor.

VideoKR, video anlama modellerinin bilgi gerektiren ve karmaşık akıl yürütme içeren soruları daha iyi yanıtlayabilmesi için tasarlanmış, 315K video akıl yürütme örneği ve 145K yeni derlenmiş CC lisanslı uzman alan videosundan oluşan ilk büyük ölçekli eğitim korpusunu tanıtıyor. Mevcut video veri kümelerinin büyük çoğunluğu tanımlayıcı veya basit görsel anlamaya odaklanırken, VideoKR tıp, hukuk, bilim ve mühendislik gibi uzmanlık gerektiren alanlarda derinlikli bağlamsal akıl yürütmeyi ön plana çıkarıyor. Lin Fu ve ekibi tarafından geliştirilen insan döngüsüne dahil, beceri odaklı örnek üretim hattı her videoyu uygun soru-cevap çiftleriyle eşleştiriyor; bu süreç hem soru kalitesini artırıyor hem de kapsamlı konu çeşitliliği sağlıyor. VideoKR ile fine-tune edilen modellerin, bilgi yoğun video anlama benchmark'larında mevcut video-dil modellerine kıyasla belirgin biçimde daha iyi performans sergilediği gösteriliyor. Bu çalışma, bilgisayar destekli eğitim, tıbbi video analizi ve bilimsel içerik anlama gibi yüksek riskli alanlarda yapay zekanın çok daha güvenilir ve derin çıkarımlar yapabilmesinin önünü açıyor; video-dil araştırması için değerli bir referans kaynak.

Arxiv CS.CV →

RePHO: Monoküler Videodan Fiziksel İnsan-Nesne Etkileşimi

RePHO, tek kameradan çekilen videolardan fiziksel açıdan tutarlı insan-nesne etkileşimlerini yeniden inşa ediyor.

RePHO, monoküler videolardan insan ve nesneler arasındaki fiziksel açıdan tutarlı etkileşimleri yeniden yapılandıran yeni bir yöntem sunuyor. Mevcut kinematik tabanlı yaklaşımlar görsel açıdan makul hareketler üretse de interpenetrasyon (insan bedeninin nesneyle kesişmesi) ve nesne sürüklenmesi (yerçekimine aykırı pozisyonlar) gibi fiziksel açıdan imkânsız yapıtlar üretmeye devam ediyor. RePHO bu sorunları, fizik motoru kısıtlamalarını doğrudan optimizasyon sürecine dahil eden bir çerçeveyle aşıyor; hareket yörüngeleri yalnızca görsel tutarlılık değil, fiziksel yasalarla da uyumlu hale getiriliyor. Dingbang Huang ve ekibinin geliştirdiği yöntemde beden ve nesne yörüngeleri önce kinematik olarak tahmin ediliyor, ardından fizik simülatörü geri bildirimi kullanılarak rafine ediliyor. Bu iki aşamalı yaklaşım, gerçekçi temas noktası modellemesini ve ağırlık aktarımını mümkün kılıyor. Standart insan-nesne etkileşimi benchmark'larında RePHO, hem görsel doğruluk hem de fiziksel tutarlılık metriklerinde güçlü sonuçlar elde ediyor. Bu araştırma, robotik öğrenme için hareket verisi üretimi, spor analizi ve dijital içerik yaratımı gibi alanlarda monoküler videodan güvenilir insan-nesne dinamiklerini çıkarmanın yolunu açıyor; tek kameralı sistemlerin erişilebilirliği göz önünde bulundurulduğunda bu önemi daha da artırıyor.

Arxiv CS.CV →

MLM'nin Ötesinde: JEPA İlhamıyla Dil Temsili Öğrenmek

BERT'teki maskeli dil modellemesinin ötesine geçen yeni yaklaşım, JEPA ilhamıyla daha derin anlamsal dil temsilleri üretiyor.

BERT'ten bu yana metin kodlayıcılar için baskın ön-eğitim yöntemi olan maskeli dil modellemesi (MLM), token kimliğine dayalı yüzeysel yapıyı temsil etmeye eğilimlidir ve derin anlamsal yapıyı yeterince yakalamaz. Aimen Boukhari tarafından sunulan bu çalışma, LeCun'un 2022'de görüntü ve ses için önerdiği Ortak Gömme Kestirimsel Mimarileri'nden (JEPA) ilham alarak Tahmin ve Yeniden Yapılandırma adını verdiği yeni bir ortak eğitim hedefi geliştiriyor. Yaklaşım, MLM'yi iki tamamlayıcı hedefle zenginleştiriyor: gömme uzayında anlamsal komşu temsilleri tahmin etmek ve bağlamdan tam token sıralarını yeniden yapılandırmak. Bu sayede model hem yüzeysel sözdizimi hem de soyut anlamsal ilişkileri aynı anda öğreniyor. Standart NLP benchmark'larında Tahmin ve Yeniden Yapılandırma ile eğitilen kodlayıcılar, yalnızca MLM kullanan eşdeğer modellere kıyasla cümle temsili, anlamsal benzerlik ve doğal dil çıkarımı görevlerinde belirgin iyileşmeler sergiliyor. Yaklaşım, büyük ölçekli etiketli veri gerektirmeden çalışabiliyor ve mevcut BERT tabanlı sistemlere kolayca entegre edilebiliyor. Bu araştırma, görüntü işleme alanındaki JEPA başarısının dil modellerine de taşınabileceğini kanıtlarken özellikle sınırlı veri ortamlarında daha verimli ve transfer edilebilir dil temsilleri geliştirmenin önünü açıyor.

Arxiv CS.CL →

LeanMarathon: Uzun Ufuklu Matematik için Çok-Ajanlı Lean Formalizasyonu

LeanMarathon, araştırma düzeyindeki matematiksel kanıtları Lean ispat asistanına güvenilir biçimde çeviren çok-ajanlı bir sistem sunuyor.

LeanMarathon, araştırma düzeyindeki matematiği Lean ispat asistanına uzun ufuklu otomatik formalizasyon yoluyla güvenilir biçimde çeviren çok-ajanlı bir çerçeve sunuyor. Mevcut otomatik formalizasyon sistemleri yalnızca zor lemmaları değil, ölçekte de başarısız oluyor: ifadeler kayıyor, bağımlılıklar dolanıyor, bağlam bozuluyor ve yerel düzeltmeler uzak bölümlerdeki çalışmayı mahvediyor. LeanMarathon'ın temel soyutlaması gelişen bir taslak: sistem tüm formalizasyon süreci boyunca tutarlı bir Lean dosyası şablonu üzerinden çalışarak bağımlılıkları ve tanımlama görünürlüğünü açıkça takip ediyor. Yuanhe Zhang ve ekibinin geliştirdiği bu çok-ajanlı sistem, tanımlama, bağımlılık çözümleme ve taktik tamamlama görevlerini uzmanlaşmış alt ajanlara devrediyor. Mimarinin temel başarısı uzun ufuklarda kendini gösteriyor: sistem yalnızca yalıtılmış lemmaları değil, birbiriyle bağlantılı ispat adımları içeren gerçek araştırma makalelerini de ele alabiliyor. Değerlendirmeler, LeanMarathon'ın tek geçişli mevcut sistemlere kıyasla uzun ispat dizilerinde belirgin biçimde daha başarılı olduğunu ortaya koyuyor. Bu çalışma, yapay zekanın matematiksel araştırmada güvenilir bir ortak haline gelmesi açısından kritik bir adım; teorik çalışmalarda AI destekli biçimsel doğrulamanın kapsamlı kullanımının önünü açıyor.

Arxiv CS.AI →

Discrete-WAM: Otonom Sürüş için Ayrık Vizyon-Eylem Dünya Modeli

Discrete-WAM, ayrık token düzenleme yoluyla otonom sürüşte dünya modeli ve politika öğrenimini tek çerçevede birleştiriyor.

Discrete-WAM, otonom sürüş için eylem koşullu dinamikleri açıkça modelleyen birleşik bir ayrık vizyon-eylem token düzenleme çerçevesi sunuyor. Mevcut uçtan uca otonom sürüş yöntemlerinin büyük çoğunluğu doğrudan durum-eylem eşlemelerine dayanıyor; bu yaklaşım korelasyonları yakalasa da nedensel dinamikleri açıkça modelleyemiyor. Sürekli gizli değişkenli dünya modelleri ise genel olarak nedensel akıl yürütme için gerekli bileşimsel yapıdan yoksun kalıyor. Discrete-WAM bu ikilemden çıkış yolu olarak görsel ve eylem bilgisini ortak bir ayrık token uzayında temsil ediyor: dünya modeli gelecekteki görsel durumları tahmin ederken, politika bu ayrık temsiller üzerinden optimum eylemleri seçiyor. Ziyang Yao ve geniş ekibinin geliştirdiği bu yaklaşımda token düzenleme mekanizması, hem görsel tutarlılık hem de eylem etkinliği açısından optimize ediliyor. Standart otonom sürüş benchmark'larında Discrete-WAM, uçtan uca planlama doğruluğu ve çevresel değişikliklere uyum açısından mevcut yöntemleri geride bırakıyor. Ayrık temsiller, modelin iç durumlarını doğrudan izlenebilir kılarak güvenlik analizini de önemli ölçüde kolaylaştırıyor. Bu özellik kritik sürücüsüz araç uygulamalarında sistemin denetlenebilirliğini artırırken otonom araçlar için toplumsal güven inşasına da katkı sağlıyor.

Arxiv CS.RO →

VASO: Robot Becerilerini Güvenilir Kılan Biçimsel Doğrulama Çerçevesi

VASO, temel modellerin ürettiği robot becerilerini biçimsel doğrulama ile güvence altına alarak kendi kendine gelişmesini sağlıyor.

VASO, fiziksel yapay zeka ajanlarına yönelik yeniden kullanılabilir robot becerilerini biçimsel doğrulama yoluyla güvenilir ve kendi kendine gelişen bir döngüye sokan yeni bir çerçeve sunuyor. Temel modeller bu becerileri oluşturmanın maliyetini önemli ölçüde düşürmüş; ancak bu becerilere güvenmenin maliyeti hâlâ yüksek. Mevcut beceri evrim döngüleri yürütme geri bildirimi ve birim testleri aracılığıyla becerileri iyileştirse de kritik güvenlik gerekliliklerine karşı biçimsel güvenceler sunamıyor. Yunhao Yang ve ekibinin geliştirdiği VASO, her beceri revizyonunda biçimsel doğrulama koşullarını —ön koşullar, son koşullar ve güvenlik sınırları— açıkça belirterek doğruluğu kanıtlanmış becerilerin gerilemedikçe güncellenmemesini sağlıyor. Sistem, temel model çıktılarını biçimsel doğrulayıcı geri bildirimiyle döngüye alarak hem işlevsellik hem de güvenilirlik açısından güçlü beceriler elde ediyor. Beceriler, biçimsel koşullar ile temsil edildiğinden farklı görevler ve robot platformları arasında güvenle paylaşılabiliyor. Deneyler, VASO'nun uzun ufuklu fiziksel görevlerde biçimsel garantileri korurken beceri başarısını artırdığını gösteriyor. Bu araştırma, sertifikalandırılabilir güvence gerektiren üretim robotik ortamlarında —özellikle sağlık, imalat ve insanlarla yakın çalışma senaryolarında— AI destekli beceri geliştirmenin güvenle kullanılabilmesinin önünü açıyor.

Arxiv CS.RO →

Güvenlik Temsilleri Modeller Arasında Taşınabilir mi?

Araştırmacılar, görsel üretimde güvenlik kontrolünü modelden modele taşınabilir hale getiren çapraz model yönlendirme tekniğini keşfetti.

Görsel üretim modellerindeki güvenlik kontrolü büyük ölçüde modele özgü ve yeniden eğitim gerektiren yaklaşımlara dayanıyor; bu da her yeni mimari için müdahale maliyetini artırıyor. Bu çalışmada araştırmacılar, güvenliğin taşınabilir bir gizli yön olarak temsil edilip edilemeyeceğini sorguluyor: bir modelden öğrenilen güvenlik yönü, tamamen farklı bir görsel üretici mimarisini de yönlendirebilir mi? Sonuçlar oldukça çarpıcı: güvenlik temsilleri heterojen üretici mimarileri arasında şaşırtıcı derecede tutarlı. Tobia Poppi ve ekibi, tek bir referans modelden öğrenilen ve farklı mimari ailelere —diffusion modelleri, otoregresif modeller— aktarılan yönlendirme vektörlerinin güvenli görsel üretim başarısını koruyabildiğini gösteriyor. Çapraz model yönlendirme yaklaşımı, standart güvenlik vektörü enjeksiyonuyla karşılaştırıldığında modele özgü ince ayar gereksinimini büyük ölçüde azaltıyor. Araştırmanın bulguları, güvenlik hizalamasının temel iç temsillerde daha evrensel olduğuna işaret eden önemli bir kavramsal katkı sunuyor; bu sonuç, farklı model ailelerinin nasıl benzer anlamsal düzenlemeler geliştirdiğine dair kapsamlı soruları da gündeme taşıyor. Bu çalışma, hızla büyüyen görsel üretim ekosisteminde yeni modeller çıktıkça güvenlik kontrolünün geniş ölçekte ve ekonomik biçimde uygulanabilmesini mümkün kılan kritik bir yapı taşı niteliğinde.

Arxiv CS.CV →