Được xây dựng trên DeepSeek-R1, mô hình này cung cấp nhiều tính linh hoạt hơn để tích hợp khả năng tạo mã và suy luận hiệu suất cao vào các ứng dụng thực tế. Điều quan trọng là các nhóm đã mã nguồn mở hoàn toàn mô hình, dữ liệu đào tạo, mã, nhật ký và tối ưu hóa hệ thống, có thể giúp các nhà nghiên cứu cải thiện công việc của họ và đẩy nhanh tiến độ.
Khả năng mã hóa cạnh tranh trong một gói nhỏ hơn
Các thí nghiệm của nhóm nghiên cứu cho thấy DeepCoder-14B hoạt động mạnh mẽ trên nhiều chuẩn mực mã hóa đầy thách thức, bao gồm LiveCodeBench (LCB), Codeforces và HumanEval+.
“Mô hình của chúng tôi chứng minh hiệu suất mạnh mẽ trên mọi điểm chuẩn mã hóa… tương đương với hiệu suất của o3-mini (thấp) và o1”, các nhà nghiên cứu viết trong bài đăng trên blog mô tả mô hình.
Điều thú vị là, mặc dù được đào tạo chủ yếu về các nhiệm vụ mã hóa, mô hình cho thấy khả năng suy luận toán học được cải thiện, đạt 73,8% trong điểm chuẩn AIME 2024, cải thiện 4,1% so với mô hình cơ sở của nó (DeepSeek-R1-Distill-Qwen-14B). Điều này cho thấy các kỹ năng suy luận được phát triển thông qua RL trên mã có thể được khái quát hóa hiệu quả sang các lĩnh vực khác.

Điểm nổi bật nhất là đạt được mức hiệu suất này chỉ với 14 tỷ tham số. Điều này làm cho DeepCoder nhỏ hơn đáng kể và có khả năng chạy hiệu quả hơn nhiều mô hình biên giới.
Những cải tiến thúc đẩy hiệu suất của DeepCoder
Trong khi phát triển mô hình, các nhà nghiên cứu đã giải quyết một số thách thức chính trong việc đào tạo mô hình mã hóa bằng cách sử dụng học tăng cường (RL).
Thách thức đầu tiên là quản lý dữ liệu đào tạo. Học tăng cường đòi hỏi các tín hiệu phần thưởng đáng tin cậy cho biết đầu ra của mô hình là chính xác. Như các nhà nghiên cứu chỉ ra, “Không giống như toán học—nơi dữ liệu chất lượng cao, có thể xác minh được luôn sẵn có trên Internet—lĩnh vực mã hóa lại gặp phải tình trạng tương đối khan hiếm dữ liệu như vậy”.
Để giải quyết vấn đề này, nhóm DeepCoder đã triển khai một quy trình nghiêm ngặt thu thập các ví dụ từ các tập dữ liệu khác nhau và lọc chúng theo tính hợp lệ, độ phức tạp và trùng lặp. Quy trình này đã tạo ra 24.000 bài toán chất lượng cao, cung cấp nền tảng vững chắc cho việc đào tạo RL hiệu quả.
Nhóm cũng thiết kế một hàm phần thưởng đơn giản chỉ cung cấp tín hiệu tích cực nếu mã được tạo ra vượt qua tất cả các bài kiểm tra đơn vị được lấy mẫu cho vấn đề trong một giới hạn thời gian cụ thể. Kết hợp với các ví dụ đào tạo chất lượng cao, hệ thống phần thưởng tập trung vào kết quả này ngăn mô hình học các thủ thuật như in các câu trả lời đã ghi nhớ cho các bài kiểm tra công khai hoặc tối ưu hóa cho các trường hợp ngoại lệ đơn giản mà không giải quyết được vấn đề cốt lõi.
Thuật toán đào tạo cốt lõi của mô hình dựa trên Group Relative Policy Optimization (GRPO), một thuật toán học tăng cường đã chứng minh được tính thành công trong DeepSeek-R1 . Tuy nhiên, nhóm đã thực hiện một số sửa đổi đối với thuật toán để làm cho nó ổn định hơn và cho phép mô hình tiếp tục cải thiện khi quá trình đào tạo kéo dài trong thời gian dài hơn.

Cuối cùng, nhóm nghiên cứu đã mở rộng cửa sổ ngữ cảnh của mô hình theo từng bước, đầu tiên là đào tạo nó trên các chuỗi suy luận ngắn hơn và tăng dần độ dài. Họ cũng phát triển một phương pháp lọc để tránh phạt mô hình khi nó tạo ra các chuỗi suy luận vượt quá giới hạn ngữ cảnh khi giải một lời nhắc khó.

Các nhà nghiên cứu giải thích ý tưởng cốt lõi: “Để duy trì lý luận ngữ cảnh dài trong khi vẫn cho phép đào tạo hiệu quả, chúng tôi đã kết hợp lọc quá dài… Kỹ thuật này che giấu các chuỗi bị cắt bớt trong quá trình đào tạo để các mô hình không bị phạt vì tạo ra các đầu ra chu đáo nhưng dài vượt quá giới hạn ngữ cảnh hiện tại.”
Quá trình đào tạo được mở rộng dần từ cửa sổ ngữ cảnh 16K lên 32K và mô hình kết quả cũng có thể giải quyết các vấn đề cần tới 64K mã thông báo.
Tối ưu hóa đào tạo RL ngữ cảnh dài
Đào tạo các mô hình lớn bằng RL, đặc biệt là trên các tác vụ đòi hỏi các chuỗi dài được tạo ra như mã hóa hoặc lý luận phức tạp, tốn nhiều tính toán và chậm. Một nút thắt lớn là bước “lấy mẫu”, trong đó mô hình có khả năng tạo ra hàng nghìn mã thông báo cho mỗi ví dụ trong lô. Sự thay đổi về độ dài phản hồi có nghĩa là một số phản hồi kết thúc muộn hơn nhiều so với các phản hồi khác, khiến GPU không hoạt động và làm chậm toàn bộ vòng lặp đào tạo.
Để đẩy nhanh quá trình này, nhóm đã phát triển verl-pipeline, một phần mở rộng được tối ưu hóa của thư viện verl nguồn mở để học tăng cường từ phản hồi của con người (RLHF). Đổi mới chính, mà họ gọi là “One-Off Pipelining”, sắp xếp lại việc lấy mẫu phản hồi và cập nhật mô hình để giảm tình trạng tắc nghẽn và thời gian nhàn rỗi của bộ tăng tốc.

Các thí nghiệm của họ cho thấy rằng việc chạy một lần trên pipeline cung cấp tốc độ tăng gấp 2 lần cho các tác vụ RL mã hóa so với các triển khai cơ bản. Việc tối ưu hóa này rất quan trọng để đào tạo DeepCoder trong một khung thời gian hợp lý (2,5 tuần trên 32 H100) và hiện được mã nguồn mở như một phần của verl-pipeline để cộng đồng sử dụng và xây dựng.
Tác động doanh nghiệp
Các nhà nghiên cứu đã công khai tất cả các hiện vật để đào tạo và chạy DeepCoder-14B trên GitHub và Hugging Face theo giấy phép hợp lệ.
Các nhà nghiên cứu viết: “Bằng cách chia sẻ đầy đủ tập dữ liệu, mã và công thức đào tạo, chúng tôi trao quyền cho cộng đồng tái tạo công trình của mình và giúp đào tạo RL có thể tiếp cận được với tất cả mọi người”.
DeepCoder-14B minh họa một cách mạnh mẽ xu hướng rộng hơn và đang phát triển nhanh hơn trong bối cảnh AI: sự gia tăng của các mô hình có khả năng cao nhưng hiệu quả và dễ tiếp cận.
Đối với thế giới doanh nghiệp, sự thay đổi này biểu thị nhiều tùy chọn hơn và khả năng tiếp cận cao hơn đối với các mô hình tiên tiến. Hiệu suất tiên tiến không còn chỉ là lĩnh vực của các nhà cung cấp dịch vụ siêu quy mô hoặc những người sẵn sàng trả phí API cao cấp. Các mô hình như DeepCoder có thể trao quyền cho các tổ chức ở mọi quy mô để tận dụng khả năng tạo và suy luận mã tinh vi, tùy chỉnh các giải pháp theo nhu cầu cụ thể của họ và triển khai chúng một cách an toàn trong môi trường của họ.
Xu hướng này có thể giảm bớt rào cản gia nhập AI và thúc đẩy một hệ sinh thái cạnh tranh và sáng tạo hơn, nơi tiến bộ được thúc đẩy thông qua sự hợp tác nguồn mở.