İşaret

2026-06-30 Yapay Zeka · Bilgisayarlı Görü · Doğal Dil İşleme · Robotik

Bu sayı, yapay zekanın hem üretim hem de algı cephesinde olgunlaştığını gösteren somut kanıtlarla dolu: difüzyon modellerinin dili ve görseli yeniden şekillendirdiği, sensör verilerinin ortam anlayışına dönüştüğü ve öğrenilmiş sistemlerin gerçek dünya değişkenliğini kucaklamaya başladığı bir kesiti yakalıyor. Sekiz makaleyi bir arada okumanın asıl değeri şuradan geliyor: farklı alanlar aynı mimari ilkeleri bağımsız biçimde keşfediyor; bu örtüşmeleri görmek, bir sonraki sıçramanın nerede gizlendiğine dair güçlü bir sezgi sunuyor.

Etiketsiz Aktivite Tanıma için Bellek Artırmalı LSTM Otokodlayıcı

IMU sensör füzyonuyla çalışan yeni mimari, etiketli veri olmadan %98'i aşan aktivite tanıma doğruluğu sağlıyor.

Saeid Arabzadeh ve ekibi, IMU sensörlerinden gelen ham verileri etiket gerektirmeden analiz edebilen bellek artırmalı bir LSTM otokodlayıcı çerçevesi geliştirdi. Sistem iki ana bileşenden oluşuyor: birden fazla sensörden gelen sinyalleri hiyerarşik olarak işleyen Yığılmış Otokodlayıcı uzamsal özellikleri çıkarırken, diziden diziye LSTM Otokodlayıcı bu özellikleri zamansal bağlamda rafine ederek geçmiş hareket örüntülerini etiketsiz biçimde harmanlıyor. Kısa zaman pencereleri altında özellik ayrışabilirliğini maksimize eden hiperparametre konfigürasyonları da ayrıca incelendi. DaLiAc ve PAMAP2 veri kümeleri üzerinde sırasıyla yüzde 96,6 ve yüzde 98,4 doğruluk elde edildi; bu sonuçlar hem denetimli hem de denetimsiz tüm karşılaştırma yöntemlerini geride bırakıyor. Gerçek dünya geçişlerini daha iyi yansıtmak amacıyla benimsenen sınıflar arası segmentasyon yaklaşımı genel doğruluğu yaklaşık yüzde 7 düşürse de özellik ayrışabilirliği yüzde 9'a kadar iyileştirildi; bu denge, sistemin gerçek ortam koşullarına uyum kapasitesini artırıyor. Etiketli veri kıtlığının ciddi bir engel oluşturduğu sağlık izleme, düşme tespiti ve rehabilitasyon uygulamalarında bu yaklaşım, büyük ölçekli etiketleme maliyeti olmaksızın ölçeklenebilir ve gerçek zamanlı bir çözüm alternatifi sunuyor. Giyilebilir sensörlerin yaygınlaştığı günümüzde denetimsiz hareket tanıma alanındaki bu ilerleme, klinik ve tüketici odaklı uygulamalar için pratik bir zemin hazırlıyor.

Arxiv CS.CV →

Robotik Kol ile Çileğin Tatlılığı Tahribatsız Ölçüldü

YOLOv11s ve spektral algı entegre eden robotik sistem, 42 denemede %88 başarıyla çilek tatlılığını tahribatsız ölçtü.

Yi Yang ve ekibi, çileklerin tatlılığını meyvede herhangi bir hasar oluşturmadan ölçebilen kapalı döngülü bir robotik kol sistemi geliştirdi. Sistem; gerçek zamanlı çilek tespiti için YOLOv11s dedektörü, geometrik tutarlı konum belirleme için RGB-ToF kalibrasyonu ve maske-derinlik hizalaması ile el-göz kalibrasyonuna dayalı özel bir iş akışından oluşuyor. Robot, belirlenen ara noktalar üzerinden arama yaparak yakın kızılötesi spektroskopi sensörünü optimum ölçüm mesafesine konumlandırıyor ve ardından toplanan spektral verilerden meyvenin tatlılığını tahmin ediyor. 42 deneme üzerinden hesaplanan uçtan uca başarı oranı yüzde 88,10 olarak ölçüldü; tespit aşamasında yüzde 95,24, hedef tespit edildiğinde yaklaşma aşamasında ise yüzde 100 koşullu başarı elde edildi. El-göz kalibrasyonunda Park yönteminin örnekler arası tutarlılık açısından Andreff yöntemini geride bıraktığı gözlemlendi. Çalışma, RGB-ToF algı, robotik manipülasyon ve tahribatsız sensörlemenin bir arada kullanılmasının tarımsal kalite kontrolde uygulanabilirliğini somut verilerle kanıtlıyor. Vision-Language-Action modelleri gibi öğrenme tabanlı politikaların bu altyapıya entegre edilmesiyle sistemin farklı meyve türlerine ve değişken tarla koşullarına genelleştirilebileceği öngörülüyor; bu durum, hassas tarım ve hasat otomasyonu alanlarında ölçeklenebilir bir temel oluşturuyor.

Arxiv CS.RO →

PinNet: LiDAR SLAM'de Döngü Kapama için Geometrik Öğrenilmiş Tanımlayıcılar

PinNet, nokta bulutlarından anahtar nokta farkındalıklı geometrik tanımlayıcılar üretip LiDAR SLAM'de döngü kapama doğruluğunu artırıyor.

Yanlong Ma ve ekibinin geliştirdiği PinNet, büyük ölçekli ortamlarda LiDAR tabanlı SLAM sistemlerinin en kritik sorunlarından biri olan döngü kapamayı güvenilir biçimde çözmeyi hedefliyor. Sinir ağı, nokta bulutlarından anahtar noktalar ve bu noktalara karşılık gelen tanımlayıcılar üretiyor. Düzlem tabanlı geometrik öz-dikkat modülü, anahtar noktalar arasındaki uzamsal ilişkileri modelleyerek tanımlayıcıların ayırt edicilik kapasitesini artırıyor; böylece hem döngü kapama tespiti hem de nokta bulutu kaydı için daha güçlü bir temsil elde ediliyor. Yöntem, farklı LiDAR sensörleriyle toplanan birden fazla dataset üzerinde kapsamlı biçimde değerlendirildi; güçlü yer tanıma performansı, hassas göreli konum tahmini ve değişken ortam koşullarında başarılı tek çekimli lokalizasyon sonuçları raporlandı. Nokta bulutlarının seyrek ve düzensiz yapısından kaynaklanan geometrik bilgiye dayalı ayırt edici özellik üretimi zorluğunu aşmaya yönelik bu yaklaşım, SLAM araştırmalarında önemli bir teknik boşluğu dolduruyor. GPS sinyalinin erişilemez olduğu tünel, bina içi ve ormanlık alan gibi ortamlarda bağımsız navigasyon gerektiren otonom araçlar, insansız hava araçları ve mobil robotlar için güvenilir ve ölçeklenebilir bir altyapı katkısı sunuyor. Uzun mesafeli haritalamada birikimli hata sorununu çözmeyi hedefleyen bu çalışma, gerçek dünya koşullarında SLAM sistemlerinin dayanıklılığını artırma yolunda anlamlı bir adım niteliği taşıyor.

Arxiv CS.RO →

Düşük Çözünürlüklü LiDAR'ı Gerçek Zamanlı Süper Çözünürlükle İyileştiren SLAM Yöntemi

Deep Unrolling tabanlı süper çözünürlük modeli, düşük maliyetli LiDAR sensörlerinin SLAM doğruluğunu gerçek zamanlı olarak artırıyor.

Christos Anagnostopoulos ve ekibi, düşük çözünürlüklü LiDAR sensörlerinin SLAM uygulamalarındaki sınırlamalarını gidermek için Deep Unrolling tabanlı yeni bir Süper Çözünürlük modeli önerdi. Yöntem, klasik model tabanlı optimizasyon adımlarını öğrenilebilir sinir ağı katmanlarına dönüştürerek yüksek çözünürlüklü nokta bulutlarını verimli biçimde yeniden oluşturuyor. Entegre aykırı değer kaldırma modülü, gürültülü ve eksik ölçümlerden kaynaklanan bozulmaları temizlerken yapısal bütünlüğü koruyarak gerçek zamanlı performansı sürdürüyor. Hesaplama ek yükünü minimize etmek üzere tasarlanan bu yaklaşım, mevcut bir LiDAR SLAM çerçevesi içine entegre edilerek konum tahmini doğruluğu ve işlem verimliliği açısından kapsamlı biçimde değerlendirildi; karşılaştırmalı testlerde mevcut süper çözünürlük yöntemlerine kıyasla kayda değer iyileştirmeler sağlandığı raporlandı. Pahalı yüksek çözünürlüklü LiDAR donanımı yerine düşük maliyetli sensörleri yazılım katmanında güçlendiren bu yaklaşım, otonom araç ve robot geliştirme maliyetlerini önemli ölçüde düşürme potansiyeli taşıyor. Donanım bütçesinin kısıtlı olduğu endüstriyel, tarımsal ve tüketici odaklı otomasyon uygulamalarında rekabetçi navigasyon performansı elde etmenin önünü açan çalışma, erişilebilir otonom sistem geliştirme açısından anlamlı bir referans noktası sunuyor.

Arxiv CS.RO →

DiffusionGemma: Otoregressif Yaklaşımdan 4 Kat Hızlı Metin Üretimi

Google DeepMind'ın 26B parametreli DiffusionGemma modeli, token-token yerine blok üretimle H100'de saniyede 1000'i aşan token hızına ulaşıyor.

Google DeepMind, metin difüzyonunu temel alan yeni açık deneysel modeli DiffusionGemma'yı Apache 2.0 lisansıyla araştırmacıların kullanımına sundu. 26 milyar parametreli Karışık Uzmanlar mimarisini kullanan model, çıkarım sırasında yalnızca 3,8 milyar parametreyi aktive ederek 18 GB VRAM sınırına sığabiliyor ve tüketiciye yönelik yüksek performanslı GPU'larda çalışabiliyor. Geleneksel otoregressif modellerin token-token ardışık üretimine karşın DiffusionGemma, her ileri geçişte 256 token'ı paralel olarak üretiyor; bu tasarım çift yönlü dikkat mekanizmasını mümkün kılıyor ve satır içi düzenleme ile kod doldurma gibi doğrusal olmayan görevlerde belirgin avantaj sağlıyor. Tek bir NVIDIA H100'de saniyede 1000'i aşan token hızına ulaşan model, RTX 5090'da ise 700'ün üzerinde token saniye performansı sunuyor. Model, üretim kalitesini standart Gemma 4'ün gerisinde bırakıyor; ancak bu durum, mimarinin araştırma odaklı deneysel niteliğiyle örtüşüyor. Hız öncelikli ve etkileşimli yerel iş akışlarına ihtiyaç duyan araştırmacı ve geliştiriciler için somut bir mimari alternatif olarak konumlandırılan DiffusionGemma, difüzyon tabanlı dil modellerinin pratik uygulanabilirliği üzerine yürütülen tartışmalara yeni bir referans noktası ekliyor.

DeepMind Blog →

SEEDS: Difüzyon Modelleriyle Hava Tahmini Belirsizliği Ölçülüyor

Google'ın SEEDS modeli, difüzyon tabanlı üretken yapay zekayla hava tahmininde nadir olayların maliyetini çarpıcı biçimde düşürüyor.

Google Research, hava tahminindeki olasılıksal belirsizliği ölçmek için difüzyon modellerini kullanan yeni bir sistem olan SEEDS'i Science Advances dergisinde yayımladı. SEEDS'in açılımı Scalable Ensemble Envelope Diffusion Sampler olarak belirlendi. Geleneksel ensemble tahmin yöntemleri, nadir ve aşırı hava olaylarının karakterize edilmesi için onlarca fizik tabanlı simülasyon çalıştırmayı gerektiriyor ve bu süreç hem yüksek hesaplama maliyetine hem de uzun bekleme sürelerine yol açıyor. SEEDS ise bu ensemble üyelerini olasılıksal difüzyon modelleriyle sentezleyerek gerekli hesaplama kaynağını küçük bir bölümüne indiriyor. Sistem, hava tahmininin doğası gereği kaotik yapısını, yani küçük başlangıç koşulu farklarının üstel biçimde büyüyen hatalara dönüştüğü kelebek etkisini doğrudan ele alıyor ve büyük ölçekli ensemble'lar üretmek için pratik bir alternatif sunuyor. Makine öğrenmesi yöntemlerinin iklim ve hava bilimine entegrasyonunu somutlaştıran bu çalışma, özellikle sel, fırtına ve aşırı sıcaklık gibi yüksek riskli olayların daha güvenilir biçimde modellenmesini mümkün kılıyor. Meteoroloji ve iklim araştırmacıları için hesaplama maliyetini düşürürken tahmin kalitesini koruma konusunda önemli bir yol haritası sunuyor.

Google Research Blog →

Krea-2-Turbo: 12 Milyar Parametreli Açık Metin-Görüntü Modeli

Krea.ai'nin 12B parametreli Diffusion Transformer modeli Krea-2-Turbo, yalnızca 8 adımda yüksek çözünürlüklü görüntü üretiyor.

Krea.ai, metin-görüntü üretimi alanında 12 milyar parametreli Diffusion Transformer mimarisini kullanan Krea-2-Turbo modelini Hugging Face üzerinde açık ağırlıklı olarak yayımladı. Krea 2 model ailesinin post-training ve distilasyon aşamalarından geçirilmiş sürümü olan Turbo, yalnızca 8 çıkarım adımında 2048x2048 çözünürlüğünde görüntü üretebiliyor. Standart difüzyon modellerinde kalite ile hız arasındaki dengeyi zorlamak için uygulanan distilasyon süreci, Turbo'nun adım sayısını önemli ölçüde azaltırken görsel tutarlılığı korumasını sağlıyor. Model, standart diffusers kütüphanesi ve SGLang aracılığıyla kolayca kullanılabiliyor; Krea2Pipeline entegrasyonu ise geliştirici iş akışlarını daha da basitleştiriyor. Yaratıcı, ticari ve araştırma amaçlı kullanımları destekleyen lisans yapısıyla yayımlanan model, yayımlandığı günden bu yana 38 binden fazla indirme ve 396 beğeni aldı. Açık ağırlıklı büyük ölçekli görüntü üretim modellerinin hızla arttığı bu dönemde Krea-2-Turbo, özellikle düşük adım sayısıyla yüksek çözünürlük elde etme kapasitesiyle dikkat çeken bir topluluk kaynağı olarak öne çıkıyor. Yerel donanımda verimli görüntü üretimi üzerine çalışan araştırmacı ve geliştiriciler için pratik bir başlangıç noktası niteliği taşıyor.

Hugging Face Trending Models →

Ajan Tabanlı Yapay Zeka Boru Hattı Enerji Anomalilerini Tespit Ediyor

SSA-LSTM tahmini, LSTM-VAE anomali tespiti ve LangChain ajanlarını birleştiren sistem, ofis cihazı enerji anormalliklerini %90 üzeri doğrulukla raporluyor.

Dihia Falouz ve ekibi, ofis binalarındaki cihaz düzeyinde enerji anomalilerini tespit etmek ve yöneticilere eyleme dönüştürülebilir bakım önerileri sunmak için uçtan uca ajansal bir yapay zeka boru hattı geliştirdi. Sistem yedi ofis cihazını, Tekil Spektrum Analizi ile LSTM'yi birleştiren hibrit bir tahmin modeliyle izliyor; her cihaz için ayrı eğitilmiş dikkat mekanizmalı LSTM Varyasyonel Otokodlayıcı ise anormal günlük tüketim bölümlerini işaretliyor. Üç aşamalı LangChain boru hattı; bağlam, tanı ve rapor ajanlarından oluşuyor. Dinamik RAG katmanı, anomali özelliklerine göre bağlamsal kaynakları seçerek ortalama kaynak sayısını altıdan üç ile altı arasına düşürüyor ve yanıt kalitesini artırıyor. 16 senaryoluk benchmark üzerinde en iyi bulut tabanlı LLM backend'i 90,4 üzerinden 100 puan alırken tamamen yerel çalışan 7 milyar parametreli model tüm senaryoları başarıyla tamamladı. Bu sonuç, veri gizliliğinin ön planda olduğu kurumsal ortamlarda bulut bağımlılığı olmaksızın güçlü performans elde edilebileceğini gösteriyor. Enerji yönetiminde yapay zekanın uzman olmayan operatörlerin kullanabileceği araçlara dönüştürülmesini somutlaştıran bu çalışma, akıllı bina sistemleri ve sürdürülebilirlik odaklı uygulamalar için ölçeklenebilir bir mimari referans sunuyor.

Arxiv CS.LG →