CheckFree: Học với khả năng chịu lỗi mà không cần điểm kiểm tra

CheckFree là một bài báo học thuật mô tả phương pháp mới phục hồi sau lỗi trong học máy phân tán, không yêu cầu sử dụng điểm kiểm tra hoặc tính toán dư thừa, cung cấp việc học hiệu quả khi có các sự cố xảy ra thường xuyên.

Các điểm chính

Tăng tốc tới 1,6 lần so với các điểm kiểm tra truyền thống: CheckFree và CheckFree+ có thể đạt được tốc độ học nhanh hơn 1,6 lần so với các điểm kiểm tra truyền thống khi có các sự cố thường xuyên trong các giai đoạn học.
Phương pháp phục hồi mới mà không cần điểm kiểm tra: CheckFree sử dụng trọng số của các giai đoạn lân cận để ước lượng trọng số của giai đoạn bị mất.

Các điều kiện tiên quyết

Trong các chiến lược phục hồi hiện đại, trọng số mô hình được checkpoint (lưu trữ định kỳ) vào bộ lưu trữ tập trung không lỗi. Điều này có thể cực kỳ tốn kém, với một checkpoint LLaMa 70B duy nhất mất hơn 20 phút ngay cả ở kết nối băng thông cao (giả định trên 500 Mb/s). Khi xảy ra lỗi, mô hình được khôi phục hoàn toàn về checkpoint trước đó, do đó mất đi hàng giờ huấn luyện tiềm năng. Bamboo được đề xuất như một giải pháp thay thế cho checkpoint thông qua tính toán dự phòng – lưu trữ trọng số của một giai đoạn trên giai đoạn trước đó và thực hiện dự phòng lượt chuyển tiếp của mỗi microbatch trên các bản sao. Bằng cách này, khi một lỗi duy nhất xảy ra, việc huấn luyện có thể tiếp tục ngay lập tức. Tuy nhiên, cách huấn luyện như vậy tỏ ra không hiệu quả với các mô hình lớn vì mỗi nút cần tăng gấp đôi yêu cầu bộ nhớ để lưu trữ các lớp dự phòng. CheckFree và CheckFree+ cung cấp một giải pháp khả thi cho huấn luyện phân tán địa lý quy mô lớn, vì không phát sinh thêm tính toán hoặc giao tiếp nào.

Cách thức hoạt động

Khi xảy ra sự cố, giai đoạn bị mất sẽ được phục hồi bằng cách lấy trung bình có trọng số của hai giai đoạn lân cận. Điều này sử dụng sự dư thừa tự nhiên của các lớp trong LLM, như đã chỉ ra trong các nghiên cứu trước, nơi việc loại bỏ một vài lớp không ảnh hưởng đáng kể đến hiệu suất của mô hình. Chúng tôi chứng minh thực nghiệm rằng việc trung bình có trọng số vượt trội hơn việc sao chép đơn giản, thường được sử dụng trong các nghiên cứu về stacking các lớp.

Cách đơn giản để trung bình là lấy trung bình đều hai giai đoạn. Tuy nhiên, cách này không phân biệt tầm quan trọng và sự hội tụ của các giai đoạn, dẫn đến sự hội tụ chậm hơn của toàn bộ mô hình. Vì vậy, CheckFree sử dụng trọng số của chuẩn gradient cuối cùng của mỗi giai đoạn. Về mặt lý thuyết, điều này tạo ra trọng số cao hơn cho các giai đoạn chưa hội tụ, một phần giảm tải chúng cho giai đoạn mới. Để giúp giai đoạn được khởi tạo lại “theo kịp”, CheckFree sẽ tăng tốc độ học một chút trong một vài bước sau khi phục hồi.

Tuy nhiên, chiến lược này không thể phục hồi trọng số của giai đoạn đầu và cuối vì không có giai đoạn lân cận để trung bình. Để giải quyết vấn đề này, chúng tôi giới thiệu CheckFree+. Nó cho phép phục hồi các giai đoạn cực đoan bằng cách sử dụng việc thực hiện ngoài thứ tự: mỗi gói thứ hai thay đổi thứ tự của hai giai đoạn đầu tiên và hai giai đoạn cuối, giúp các lớp trung gian học hành vi của các lớp lân cận, giống như tính toán dư thừa nhưng không tốn thêm bộ nhớ hay tính toán. Khi xảy ra sự cố, các giai đoạn “dư thừa” có thể được sao chép để thay thế các giai đoạn bị mất.

Kết quả

Chúng tôi đã đánh giá rộng rãi CheckFree và CheckFree+ với tỷ lệ lỗi từ 5% đến 16% mỗi giờ so với các điểm kiểm tra truyền thống và tính toán dư thừa. Chúng tôi nhận thấy rằng với các mô hình có kích thước khác nhau, CheckFree và CheckFree+ có thể hội tụ nhanh hơn trong thời gian học thực tế so với các phương pháp hiện đại. Tuy nhiên, các phương pháp của chúng tôi dẫn đến việc hội tụ chậm hơn về số lượng vòng lặp so với mô hình cơ sở không có lỗi (hội tụ tương đương với tính toán dư thừa). Tuy nhiên, nhờ vào quy trình phục hồi nhẹ nhàng của chúng, CheckFree và CheckFree+ có thể có băng thông cao hơn rất nhiều, làm cho chúng phù hợp với học máy phân tán quy mô lớn của các mô hình ngôn ngữ.

Tại sao điều này quan trọng

Trong học máy phân tán, các nút có thể vào và ra khỏi mạng bất kỳ lúc nào, điều này có thể dẫn đến sự cố ở toàn bộ giai đoạn. Ngay cả trong học máy phân tán với các phiên bản kế tiếp, có thể mất toàn bộ giai đoạn nếu các nút tương ứng được lên lịch trong cùng một khu vực. Các điểm kiểm tra có thể mang lại chi phí cao vì việc khởi động lại thường xuyên, trong khi tính toán dư thừa có thể không khả thi đối với các mô hình lớn vì bộ nhớ tăng theo tỷ lệ tuyến tính. CheckFree cung cấp một cách hiệu quả để phục hồi việc học của LLM mà không cần tính toán hay giao tiếp bổ sung.