Agentic Framework’lerle Dizüstü Bilgisayar Hasar Tespiti: Başarısızlık ve Başarı Hikayesi
Dizüstü bilgisayar hasar tespiti için bir model geliştirirken, Agentic Framework’leri alışılmadık bir şekilde kullandık. Başarısızlıkları aşıp, daha iyi sonuçlar elde ettik!
“`html
Girişimcilik projeleri her zaman planlandığı gibi gitmeyebilir ve bu durum, bu örneğe de yansımıştır. Amaç basitti: Bir dizüstü bilgisayar fotoğrafına bakıp fiziksel hasarı (çatlak ekranlar, eksik tuşlar veya kırık menteşeler gibi) belirleyebilecek bir model oluşturmak. Görüntü modelleri ve büyük dil modelleri (LLM’ler) için basit bir kullanım senaryosu gibi görünüyordu, ancak hızla daha karmaşık bir hal aldı. Bu süreçte, hayaller, güvenilmez çıktılar ve dizüstü bilgisayar bile olmayan görüntülerle ilgili sorunlarla karşılaştık. Bu sorunları çözmek için, görev otomasyonu için değil, modelin performansını iyileştirmek amacıyla alışılmadık bir şekilde bir (Agentic Framework) uyguladık. Bu makalede, neler denediğimizi, nelerin işe yaramadığını ve bir yaklaşımlar kombinasyonunun sonuçta güvenilir bir şey oluşturmamıza nasıl yardımcı olduğunu inceleyeceğiz.
Tek Parçalı İstemlerden Yola Çıkmak
İlk yaklaşımımız, çok modlu bir model için oldukça standarttı. Görüntü yeteneğine sahip bir LLM’ye bir görüntü geçirmek ve görünür hasarı belirlemesini istemek için tek, büyük bir istem kullandık. Bu tek parçalı istem stratejisi, uygulaması basittir ve iyi tanımlanmış görevler için iyi çalışır. Ancak gerçek dünya verileri nadiren bu beklentileri karşılar. Erken aşamalarda üç ana sorunla karşılaştık:
- Hayaller: Model bazen olmayan hasarları icat ediyor veya gördüklerini yanlış etiketliyordu.
- Gereksiz Görüntü Tespiti: Dizüstü bilgisayar bile olmayan, yani masaların, duvarların veya insanların fotoğraflarını işaretlemenin güvenilir bir yolu yoktu ve bazen anlamsız hasar raporları alıyorduk.
- Tutarsız Doğruluk: Bu sorunların birleşimi, modeli operasyonel kullanım için çok güvenilmez hale getirdi. Bu, yinelememiz gerektiğinin açıkça ortaya çıktığı noktaydı.
Çözüm 1: Görüntü Çözünürlüklerini Karıştırmak
Fark ettiğimiz bir şey, görüntü kalitesinin modelin çıktısını ne kadar etkilediğiydi. Kullanıcılar, keskin ve yüksek çözünürlükten bulanık ve düşük çözünürlüğe kadar her türden görüntü yüklüyordu. Bu, görüntü çözünürlüğünün derin öğrenme modellerini nasıl etkilediğini vurgulayan araştırmalara başvurmamıza neden oldu. Modeli, pratik uygulamada karşılaşacağı çok çeşitli görüntü kalitelerine karşı daha dirençli hale getirmek amacıyla yüksek ve düşük çözünürlüklü görüntülerin bir karışımını kullanarak eğittik ve test ettik. Bu, tutarlılığı artırmaya yardımcı oldu, ancak hayaller ve gereksiz görüntü işleme temel sorunları devam etti.
Çözüm 2: Metin Tabanlı LLM’nin Çok Modluya Geçişi
Görüntü açıklamalarını yalnızca metin tabanlı LLM’lerle birleştirmedeki son deneylerden cesaret alarak, (The Batch)‘te ele alınan bir teknik gibi, görüntülerin açıklamalarını oluşturup daha sonra bir dil modeli tarafından yorumlanması gibi, bunu denemeye karar verdik. Bu yöntem şu şekilde çalışır: LLM, bir görüntü için birden fazla olası açıklama oluşturarak başlar. Çok modlu bir gömme modeli olarak adlandırılan başka bir model, her bir açıklamanın görüntüye ne kadar uyduğunu kontrol eder. Bu durumda, görüntü ile metin arasındaki benzerliği puanlamak için SigLIP kullandık. Sistem, bu puanlara göre ilk birkaç açıklamayı tutar. LLM, görüntünün gerçekte neyi gösterdiğine daha yakın olmaya çalışarak, yeni açıklamalar yazmak için bu ilk açıklamaları kullanır. Açıklamalar iyileşmeyi durdurana veya belirli bir sınıra ulaşana kadar bu süreci tekrarlar. Teoride zekice olsa da, bu yaklaşım kullanım durumumuz için yeni sorunlar ortaya çıkardı:
- Sürekli Hayaller: Açıklamalar bazen hayali hasarlar içeriyordu ve LLM bunu kendinden emin bir şekilde rapor ediyordu.
- Eksik Kapsam: Birden fazla açıklama olmasına rağmen, bazı sorunlar tamamen gözden kaçırıldı.
- Artan Karmaşıklık, Düşük Fayda: Eklenen adımlar, sistemi daha karmaşık hale getirdi ancak önceki kurulumdan güvenilir bir şekilde daha iyi performans göstermedi. İlginç bir deneydi, ancak sonuçta bir çözüm değildi.
Agentic Framework’lerin Yaratıcı Kullanımı
Bu, dönüm noktasıydı. Agentic framework’ler genellikle görev akışlarını düzenlemek için kullanılırken (örneğin, takvim davetlerini veya müşteri hizmetleri eylemlerini koordine eden aracılar gibi), görüntü yorumlama görevini daha küçük, uzmanlaşmış aracılara bölmenin yardımcı olup olamayacağını merak ettik. Şöyle yapılandırılmış bir agentic framework oluşturduk:
- Orkestratör Aracı: Görüntüyü kontrol etti ve hangi dizüstü bilgisayar bileşenlerinin (ekran, klavye, kasa, bağlantı noktaları) görünür olduğunu belirledi.
- Bileşen Aracıları: Özel aracılar, çatlak ekranlar, eksik tuşlar gibi belirli hasar türlerini inceledi.
- Gereksiz Tespit Aracı: Ayrı bir aracı, görüntünün ilk etapta bir dizüstü bilgisayar olup olmadığını işaretledi.
Bu modüler, görev odaklı yaklaşım, çok daha kesin ve açıklanabilir sonuçlar verdi. Hayaller önemli ölçüde azaldı, gereksiz görüntüler güvenilir bir şekilde işaretlendi ve her bir aracının görevi, kalitenin iyi kontrol edilebileceği kadar basit ve odaklanmıştı.
Kapanış
Bu proje, başlangıçta basit bir fikirle başlamıştı: dizüstü bilgisayar görüntülerindeki fiziksel hasarı tespit etmek için bir LLM istemi kullanmak. Ancak bu, beklenmedik gerçek dünya problemlerini çözmek için farklı yapay zeka tekniklerini birleştirmeye yönelik daha derin bir deneye dönüştü. Bu süreçte, en kullanışlı araçlardan bazılarının aslında bu tür çalışmalar için tasarlanmadığını fark ettik. Genellikle iş akışı yardımcı programları olarak görülen agentic framework’ler, yapılandırılmış hasar tespiti ve görüntü filtreleme gibi görevler için yeniden tasarlandığında şaşırtıcı derecede etkili olduğunu kanıtladı. Bir miktar yaratıcılıkla, sadece daha doğru olmakla kalmayıp, pratik olarak anlaşılması ve yönetilmesi daha kolay olan bir sistem oluşturmamıza yardımcı oldular. Bu çalışma, girişimcilik alanında çalışan ve yapay zeka uygulamalarını kullanan profesyonellere önemli dersler sunmaktadır. Bir projenin başlangıcında basit bir fikir, farklı tekniklerin entegrasyonu ile karmaşık sorunlara çözüm bulabilir. Bu, girişimcilerin karşılaştığı zorluklara yaratıcı çözümler geliştirme ve uyarlama becerilerini vurgular. Özellikle, Agentic Framework’lerin geleneksel kullanımlarının ötesine geçerek, yeni alanlarda uygulama potansiyelini ortaya koymaktadır. Bu, girişimcilerin farklı yaklaşımları birleştirerek daha güvenilir ve yönetilebilir sistemler oluşturabileceğini gösterir. Görüntü kalitesinin ve modelin başarısı üzerindeki etkisi, eğitim verilerinin çeşitliliğinin ve kalitesinin önemini vurgular. Girişimcilerin, projelerini geliştirirken bu faktörleri dikkate alması gerektiğini gösterir. Bu çalışma, yapay zeka projelerinde karşılaşılan zorlukların üstesinden gelmek için farklı teknikleri birleştirmenin önemini vurgular. Girişimcilerin, projelerini geliştirirken farklı yaklaşımları birleştirmeyi ve yaratıcı çözümler bulmayı hedeflemeleri gerektiğini gösterir. Bu, girişimcilik ve yapay zeka alanlarındaki profesyonellere, projelerinde başarıya ulaşmaları için pratik rehberlik sunar.
“`