CheckFree: Kontrol Noktası Olmadan Hata Toleranslı Eğitim

Bu akademik makale, dağıtık eğitimdeki hatalar için kontrol noktası (checkpointing) veya yedekli hesaplama gerektirmeyen yeni bir kurtarma yöntemi olan CheckFree’yi açıklamaktadır. CheckFree, sık arızaların varlığında verimli eğitimi mümkün kılar.

Ana Noktalar

Geleneksel kontrol noktalarına kıyasla 1,6 kat hızlanma: CheckFree ve CheckFree+, eğitim aşamalarında sık sık yaşanan arızalar sırasında geleneksel kontrol noktalarına kıyasla eğitim süresini 1,6 kat kadar hızlandırabilir.
Kontrol noktası kullanmadan yeni kurtarma yöntemi: CheckFree, kaybolan aşamanın ağırlıklarını, komşu aşamalarının ağırlıklarıyla tahmin eder.

Temel Önkoşullar

En gelişmiş kurtarma stratejilerinde, model ağırlıkları hatasız merkezi depolama alanına kontrol noktası (periyodik olarak kaydedilir) olarak kaydedilir. Bu, son derece maliyetli olabilir; örneğin, tek bir LLaMa 70B kontrol noktasının yüksek bant genişliğine sahip bir bağlantıda (500 Mb/s üzeri varsayılarak) kaydedilmesi 20 dakikadan fazla sürebilir. Bir hata oluştuğunda, model tamamen önceki kontrol noktasına geri döndürülür ve bu da potansiyel olarak saatlerce süren eğitimin kaybedilmesine neden olur. Bamboo, kontrol noktası oluşturmaya bir alternatif olarak yedekli hesaplama önermiştir – bir aşamanın ağırlıklarını önceki aşamada saklamak ve her bir mikroyığının ileri geçişini kopyalar üzerinde yedekli olarak çalıştırmak. Bu şekilde, tek bir hata oluştuğunda eğitim hemen devam edebilir. Ancak, bu tür bir eğitim, büyük modeller için verimsizdir çünkü her düğümün, yedekli katmanları depolamak için bellek gereksinimlerini iki katına çıkarması gerekir. CheckFree ve CheckFree+, büyük ölçekli coğrafi dağıtılmış eğitimde uygulanabilir bir alternatif sunar, çünkü herhangi bir ek hesaplama veya iletişim maliyeti gerektirmez.

Nasıl Çalışır

Bir arıza meydana geldiğinde, kaybolan aşama, iki komşu aşamanın ağırlıklarıyla ortalama yapılarak kurtarılır. Bu, önceki çalışmalarda gösterilen LLM’lerdeki katmanların doğal fazlalığından faydalanır; bazı katmanların kaldırılmasının modelin performansı üzerinde önemli bir etkisi olmadığı kanıtlanmıştır. Deneysel olarak, bu ortalama yöntemi, katman yığma çalışmlarında yaygın olarak kullanılan basit kopyalama yöntemlerinden çok daha etkili olduğunu gösteriyoruz.

Basit bir ortalama, iki aşamanın eşit ağırlıkla ortalamasıdır. Ancak bu tür bir ortalama, aşamaların önemi ve yakınsama hızı arasında fark yaratmaz, bu da modelin tümünün daha yavaş yakınsamasına yol açar. Bu nedenle, CheckFree, her aşamanın son gradient normunu kullanarak ağırlıkları ortalar. Konsept olarak, bu, henüz yakınsamamış aşamalara daha fazla ağırlık verir ve fonksiyonelliklerini yeni aşamaya aktarır. Yeni başlatılan aşamanın “eksik olanı telafi etmesine” izin vermek için CheckFree, kurtarma sonrası eğitim hızını birkaç adım artırır.

Ancak bu strateji, ilk ve son aşamaların ağırlıklarını kurtaramaz, çünkü komşu aşamalar yoktur. Bunun için CheckFree+’ı öneriyoruz. CheckFree+, sıradışı çalıştırmayı kullanarak uç aşamaların kurtarılmasını sağlar: her ikinci batch, ilk iki ve son iki aşamanın sırasını değiştirir, böylece ara katmanlar, yedek hesaplamalar gibi ekstra bellek veya hesaplama yükü olmadan komşularının davranışlarını öğrenebilir. Bir arıza durumunda, “yedek” aşamalar, kaybolanları değiştirmek için kopyalanabilir.

Sonuçlar

CheckFree ve CheckFree+’ı, kontrol noktaları ve yedek hesaplamalarla karşılaştırarak, saat başına %5 ile %16 arasındaki arıza oranlarında geniş bir şekilde değerlendirdik. Farklı model boyutlarında, CheckFree ve CheckFree+’ın, modern yöntemlere kıyasla gerçek eğitim süresi açısından daha hızlı yakınsama sağladığını gözlemledik. Ancak, yöntemlerimiz, sıfır hata ile elde edilen temel doğruluğa kıyasla daha düşük iterasyon yakınsaması sağlıyor (yedek hesaplamalarla eşdeğer yakınsama). Yine de, CheckFree ve CheckFree+’ın hızlı kurtarma prosedürü sayesinde çok daha yüksek bir bant genişliğine sahip olabilir, bu da onları büyük dil modellerinin coğrafi dağıtık eğitiminde uygun hale getirir.

Bunun Önemi Nedir

Merkeziyetsiz eğitimde, düğümler her an ağdan çıkabilir veya ağda kalabilir, bu da bir aşamanın tamamının kaybolmasına yol açabilir. Hatta ardışık örneklerle dağıtık eğitimde bile, ilgili düğümler bir bölgede planlandığında bir aşama kaybolabilir. Kontrol noktaları, sık yeniden başlatmalar nedeniyle büyük maliyetlere yol açabilirken, yedek hesaplamalar büyük modeller için bellek taleplerinin lineer artışı nedeniyle mümkün olmayabilir. CheckFree, ek hesaplama veya iletişim gerektirmeden LLM eğitimini etkili bir şekilde kurtarma için verimli bir yol sunar.

Daha Fazla Bilgi Edin

Makaleyi Okuyun
Depoyu İnceleyin — benchmark’lar, script’ler ve 100 satırlık minimal uygulama.
Tartışmaya Katılın: Discord · X