Hiện nay, hầu như mọi sản phẩm và mô hình AI tiên tiến đều dựa trên kiến trúc transformer. Các mô hình ngôn ngữ lớn (LLM) như GPT 4o, LLaMA, Gemini hay Claude đều xây dựng trên transformer. Những ứng dụng AI khác, từ chuyển văn bản thành giọng nói, nhận dạng giọng nói tự động, tạo hình ảnh cho đến mô hình text-to-video, cũng có transformer làm công nghệ nền.
Trước cơn sốt AI chưa có dấu hiệu giảm nhiệt, đã đến lúc chúng ta tìm hiểu sâu về transformers, lý do vì sao chúng quan trọng cho giải pháp mở rộng quy mô và vì sao chúng là “xương sống” của LLM.
Transformer không chỉ có vẻ bề ngoài
Nói ngắn gọn, transformer là một kiến trúc mạng nơron dùng để xử lý dữ liệu có tính chuỗi (sequence), rất lý tưởng cho các tác vụ như dịch ngôn ngữ, hoàn thiện câu, nhận dạng giọng nói tự động… Transformers ngày càng là kiến trúc thống trị cho các bài toán “sequence modeling” vì chúng áp dụng “cơ chế attention,” dễ dàng song song hóa, cho phép huấn luyện và suy luận ở quy mô lớn.
Xuất hiện đầu tiên trong nghiên cứu “Attention Is All You Need” (Google, 2017), transformer được thiết kế dưới dạng kiến trúc mã hóa và giải mã (encoder decoder) để dịch ngôn ngữ. Một năm sau, Google giới thiệu “BERT” (Bidirectional Encoder Representations from Transformers), có thể coi là một trong những LLM đầu tiên dù kích thước còn nhỏ so với tiêu chuẩn bây giờ.
Từ đó và đặc biệt từ khi GPT của OpenAI ra đời, xu hướng là huấn luyện mô hình ngày càng lớn, với dữ liệu nhiều hơn, tham số lớn hơn và “cửa sổ ngữ cảnh” dài hơn.
Để thúc đẩy quá trình này, có hàng loạt cải tiến như: phần cứng GPU hiện đại và phần mềm hỗ trợ huấn luyện đa GPU tốt hơn; các kỹ thuật như “quantization” và “mixture of experts (MoE)” để giảm bộ nhớ; những trình tối ưu huấn luyện mới như Shampoo và AdamW; các kỹ thuật tính “attention” hiệu quả như FlashAttention và KV Caching. Xu hướng này có lẽ sẽ còn tiếp diễn.
Vai trò của “self attention” trong transformer
Tùy theo ứng dụng, một mô hình transformer có thể theo kiến trúc mã hóa giải mã. Thành phần “encoder” học biểu diễn dữ liệu dạng vector, sau đó dùng cho nhiệm vụ hạ nguồn như phân loại, phân tích cảm xúc… Thành phần “decoder” lấy vector (hay biểu diễn ẩn) của văn bản hoặc hình ảnh và dùng để sinh nội dung mới, rất hữu ích cho hoàn thiện câu, tóm tắt… Bởi lý do này, nhiều mô hình đỉnh cao quen thuộc như GPT thuộc dạng “decoder” duy nhất.
Mô hình “encoder decoder” kết hợp cả hai thành phần, tiện cho dịch ngôn ngữ và bài toán “sequence to sequence” khác. Cả “encoder” lẫn “decoder” đều có thành phần cốt lõi là “attention layer,” cho phép mô hình giữ ngữ cảnh từ những từ xuất hiện rất sớm trong chuỗi.
Attention có hai loại: self attention và cross attention. “Self attention” giúp nắm bắt tương quan giữa các từ trong cùng một chuỗi, trong khi “cross attention” liên kết giữa hai chuỗi khác nhau, như khi “encoder decoder” phải dịch. Ví dụ, nó cho phép từ “strawberry” trong tiếng Anh tương ứng từ “fraise” trong tiếng Pháp. Về mặt toán học, self attention và cross attention đều là phép nhân ma trận, có thể tính cực nhanh trên GPU.
Chính vì “attention layer,” transformers xử lý được mối quan hệ giữa các từ cách xa nhau, khắc phục nhược điểm của mạng neural hồi quy (RNN) hay LSTM khi đoạn văn bản dài khiến chúng dần “mất dấu” bối cảnh.
Tương lai của các mô hình
Hiện tại, transformer là kiến trúc chiếm ưu thế cho nhiều trường hợp dùng LLM, với khoản đầu tư nghiên cứu phát triển lớn nhất. Tuy điều này khó thay đổi trong tương lai gần, một nhóm mô hình khác gần đây cũng được chú ý: “state space models (SSM)” như Mamba, có khả năng xử lý chuỗi dài hơn, trong khi transformer lại giới hạn ở “cửa sổ ngữ cảnh.”
Điểm khiến tôi hứng thú nhất nằm ở các mô hình đa phương thức (multimodal). Chẳng hạn, GPT 4o của OpenAI có thể xử lý văn bản, âm thanh và hình ảnh, trong khi nhiều hãng khác cũng đang theo đuổi hướng này. Các ứng dụng đa phương thức rất phong phú, từ chú thích video đến nhân bản giọng nói và phân đoạn hình ảnh… Chúng mở ra cơ hội để AI đến gần hơn với những người khuyết tật. Ví dụ, một người khiếm thị có thể được phục vụ tốt hơn nhiều nếu có thể tương tác qua giọng nói và âm thanh trong ứng dụng đa phương thức.
Đây là một hướng đầy hứa hẹn, ẩn chứa vô số khả năng khai phá mới. Nhưng hãy nhớ rằng, ít nhất trong tương lai gần, hầu hết vẫn dựa trên kiến trúc transformer.
Terrence Alsup là chuyên viên khoa học dữ liệu cấp cao tại Finastra.