MoR: Bellek ve Hesaplamada Çığır Açan LLM Mimarisi

Büyük dil modellerinde çığır açan bir mimari: MoR! Bellek ve hesaplamayı verimli kullanan bu yeni yöntem, yapay zekayı daha erişilebilir kılıyor.

Haberler İnovasyon

Temmuz 23, 2025 7:57 am

MoR: Büyük Dil Modellerinde Bellek ve Hesaplama Verimliliğinde Çığır Açan Bir Mimari

Büyük dil modelleri (BDM – İng: LLM), günümüz yapay zeka (YZ – İng: AI) dünyasında çığır açan gelişmelere imza atıyor. Ancak, bu modellerin büyüklüğü, hem eğitim hem de kullanım aşamasında önemli zorlukları da beraberinde getiriyor. KAIST AI ve Mila araştırmacıları tarafından geliştirilen “Mixture-of-Recursions” (MoR) mimarisi, bu zorluklara yenilikçi bir çözüm sunuyor. MoR, bellek ve hesaplama verimliliğini artırarak, aynı parametre sayısı ve hesaplama bütçesiyle bile daha yüksek doğruluk ve işleme hızı sağlıyor. Bu makalede, MoR’un nasıl çalıştığını, sağladığı avantajları ve gelecekteki potansiyelini detaylı bir şekilde inceleyeceğiz.

Büyük Dil Modellerinin Ölçeklenme Zorlukları

Büyük dil modellerinin etkileyici yetenekleri, sürekli artan boyutlarıyla doğrudan ilişkilidir. Ancak, model boyutu arttıkça, bellek kullanımı ve hesaplama gereksinimleri de katlanarak artar. Bu durum, özellikle büyük veri merkezlerine sahip olmayan kuruluşlar için eğitim ve kullanım aşamalarını zorlaştırır. Bu nedenle, daha verimli tasarımlara olan ihtiyaç artmaktadır. Bu alandaki çalışmalar, ağırlıklı olarak iki ana yönteme odaklanmaktadır: parametre paylaşımı ve uyarlanabilir hesaplama.

Parametre paylaşımı, modelin farklı bölümlerinde aynı ağırlıkların tekrar kullanılmasıyla benzersiz parametre sayısını azaltır ve böylece genel hesaplama karmaşıklığını düşürür. Örneğin, “katman bağlama” tekniği, bir modelin ağırlıklarını birçok katmanda tekrar kullanır.
Uyarlanabilir hesaplama yöntemleri ise, modellerin yalnızca ihtiyaç duydukları kadar kaynak kullanmasını sağlar. Örneğin, “erken çıkış” (early exiting) yöntemi, modelin “daha basit” token’ları (belirteçler) erken işlemesini sağlayarak dinamik olarak hesaplama tahsis eder.

Mixture-of-Recursions (MoR) Nasıl Çalışır?

Mixture-of-Recursions (MoR), büyük dil modellerinin yüksek hesaplama taleplerini ele almak için parametre paylaşımını uyarlanabilir hesaplamayla birleştiren bir çerçevedir. Recursive Transformers (Yinelemeli Dönüştürücüler) kavramını temel alır. Bu modeller, paylaşılan bir dizi katmanı tekrar tekrar uygular. MoR, derin bir özgün katman yığını yerine, modeli paylaşılan bir parametre havuzuna sahip birkaç “yinelenme bloğu”na böler. Bu tasarım, modelin boyutunu artırmadan daha fazla hesaplama yapılmasına olanak tanır. MoR, bu yinelemeli yaklaşımı iki temel bileşenle geliştirir:

Hafif bir yönlendirici (router): Her token’a akıllıca özel bir yineleme derinliği atar. Bu kavram, Mixture-of-Experts (MoE) modellerindeki yönlendirme mekanizmasına benzer; burada bir yönlendirici, token’ları uzman ağlara yönlendirir. MoR’da ise, “uzmanlar” farklı yineleme derinlikleridir, bu da modelin her token için ne kadar hesaplama uygulanacağını dinamik olarak seçmesine olanak tanır. Bu, bir token’ın karmaşıklığına veya “düşünme derinliğine” bağlı olarak paylaşılan bir katman bloğunun kaç kez uygulanacağını belirler. Bu sayede hesaplama, yalnızca en çok ihtiyaç duyulan yerlere yönlendirilir ve kolayca işlenebilen girdilerin gereksiz yere işlenmesi önlenir.
Daha verimli bir anahtar-değer (KV) önbellekleme stratejisi: KV önbellekleme, önceki token’lardan bilgileri depolayarak üretimi hızlandıran standart bir tekniktir, ancak yinelemeli modellerde bellek darboğazına dönüşür. MoR, yalnızca belirli bir yineleme adımında hala aktif olan token’lar için anahtar-değer çiftlerini seçici olarak depolayan ve alan bir “yinelenmeye özgü” KV önbellekleme mekanizması sunar. Bu hedefli önbellekleme, bellek trafiğini azaltır ve karmaşık, eğitim sonrası değişikliklere gerek kalmadan işleme hızını artırır.

Araştırmacıların belirttiği gibi, “Esasen, MoR, modellerin düşünme derinliklerini token başına verimli bir şekilde ayarlamalarını sağlar, parametre verimliliğini uyarlanabilir hesaplamayla birleştirir.”

MoR’un Uygulanması ve Etkileri

Araştırmacılar, MoR çerçevesini test etmek için 135 milyon ila 1,7 milyar parametre arasında değişen MoR modelleri eğitmiş ve bunları doğrulama kaybı ve az sayıda örnekte doğruluk karşılaştırmalarında standart ve standart yinelemeli temel modellerle karşılaştırmıştır. Sonuçlar önemli kazanımlar gösterdi. Aynı eğitim hesaplama bütçesi verildiğinde, bir MoR modeli, neredeyse %50 daha az parametre kullanmasına rağmen, bir vanilla modelinden daha yüksek ortalama az sayıda örnekte doğruluk (%43,1’e karşı %42,3) elde etti. Aynı miktarda veri üzerinde eğitildiğinde, MoR modeli eğitim süresini %19 oranında azalttı ve tepe bellek kullanımını vanilla modele göre %25 oranında düşürdü. MoR mimarisi de ölçeklenebilir olduğunu kanıtlıyor. En küçük 135M parametre ölçeğinde vanilla modelden biraz daha düşük performans gösterirken, model boyutu arttıkça bu fark hızla kapandı. 360M’den fazla parametreye sahip modeller için, MoR, özellikle daha düşük hesaplama bütçelerinde, standart Dönüştürücülerin performansına ulaştı veya onu aştı. Ayrıca, MoR’un tasarımı işleme hızını (inference throughput) önemli ölçüde artırır. Bir MoR yapılandırması, vanilla temel modele göre 2,06 kat hızlanma sağladı. Ölçekte faaliyet gösteren bir şirket için bu, önemli operasyonel maliyet tasarrufuna yol açabilir.

KAIST doktora öğrencisi ve makalenin ortak yazarı Sangmin Bae, “Kesin rakamlar vermek zor olsa da, genel olarak, model parametre boyutunu ve KV önbellek ayak izini azaltmak, aynı anda çok daha fazla örnek üzerinde işleme yapabilmemiz anlamına geliyor. Bu, bir seferde işlenen token sayısının artmasına ve daha uzun bağlam pencerelerinin mümkün hale gelmesine yol açıyor” dedi.

Sonuç

Mixture-of-Recursions (MoR) mimarisi, büyük dil modellerinin (BDM) bellek ve hesaplama verimliliğini artırarak, yapay zeka (YZ) dünyasında önemli bir adım atmıştır. MoR’un getirdiği avantajlar, özellikle kaynakları sınırlı olan kuruluşlar için BDM’lerin daha erişilebilir hale gelmesini sağlayabilir. MoR, hem parametre paylaşımı hem de uyarlanabilir hesaplama yöntemlerini bir araya getirerek, modelin karmaşıklığına göre dinamik olarak hesaplama kaynaklarını kullanmasını sağlar. Bu sayede, aynı donanım üzerinde daha büyük modeller çalıştırılabilir veya aynı modelle daha hızlı sonuçlar elde edilebilir. Ayrıca, MoR’un “modality-agnostic” (modale bağlı olmayan) yapısı, video, ses gibi farklı veri türlerinin işlenmesinde de önemli verimlilik artışları sağlayabileceği anlamına geliyor.

MoR’un uygulanması, mevcut açık kaynaklı modellerin “yukarıya doğru eğitilmesi” (uptraining) gibi daha uygun maliyetli yaklaşımlarla kolaylaştırılabilir. Bu, şirketlerin büyük yatırımlar yapmadan MoR’un avantajlarından yararlanmasını sağlar. Ayrıca, MoR geliştiricilere performans ve verimlilik arasında ince ayar yapma imkanı sunar. Bu, uygulamanın özel ihtiyaçlarına göre optimizasyon yapılmasına olanak tanır. Sonuç olarak, MoR, büyük model yeteneklerine önemli ölçüde azaltılmış hesaplama ve bellek yükü ile ulaşmak için etkili bir yol sunmaktadır. Bu gelişme, yapay zeka teknolojilerinin daha geniş bir kitleye ulaşmasını sağlayacak ve yeni nesil uygulamaların geliştirilmesine olanak tanıyacaktır.

admin