Thứ Năm, Tháng 6 19, 2025

Công ty khởi nghiệp AI được đào tạo có đạo đức Pleias phát hành các mô hình lý luận nhỏ mới được tối ưu hóa cho RAG với các trích dẫn tích hợp

Công ty khởi nghiệp AI của Pháp Pleias đã tạo nên tiếng vang vào cuối năm ngoái khi 
ra mắt hệ thống Pleias 1.0 được đào tạo có đạo đức gồm các mô hình ngôn ngữ nhỏ — một trong những mô hình đầu tiên và duy nhất cho đến nay được xây dựng hoàn toàn dựa trên dữ liệu “mở”, tức là dữ liệu được gắn nhãn rõ ràng là phạm vi công cộng, nguồn mở hoặc chưa được cấp phép và không có bản quyền.

Đợt ra mắt bao gồm hai mẫu cốt lõi — Pleias-RAG-350M và Pleias-RAG-1B — mỗi mẫu đều có sẵn ở định dạng GGUF được tối ưu hóa cho CPU, tạo nên tổng cộng bốn biến thể sẵn sàng triển khai.

Tất cả đều dựa trên Pleias 1.0 và có thể được sử dụng độc lập hoặc kết hợp với các LLM khác mà tổ chức có thể đã hoặc đang có kế hoạch triển khai. Tất cả dường như đều có sẵn theo giấy phép nguồn mở Apache 2.0 cho phép, nghĩa là chúng đủ điều kiện để các tổ chức sử dụng, sửa đổi và triển khai cho các trường hợp sử dụng thương mại.

RAG, như bạn có thể nhớ, là kỹ thuật được sử dụng rộng rãi mà các doanh nghiệp và tổ chức có thể triển khai để kết nối mô hình ngôn ngữ lớn AI (LLM) như GPT-4o của OpenAI , Gemini 2.5 Flash của Google , Claude Sonnet 3.7 của Anthropic hoặc Command-A của Cohere hoặc các giải pháp thay thế nguồn mở như Llama 4 và DeepSeek V3 với các cơ sở kiến ​​thức bên ngoài, chẳng hạn như tài liệu doanh nghiệp và kho lưu trữ đám mây.

Điều này thường cần thiết đối với các doanh nghiệp muốn xây dựng chatbot và các ứng dụng AI khác tham chiếu đến chính sách nội bộ hoặc danh mục sản phẩm của họ (một giải pháp thay thế, đưa ra một LLM ngữ cảnh dài với tất cả thông tin cần thiết, có thể không phù hợp với các trường hợp sử dụng của doanh nghiệp liên quan đến bảo mật và chi phí truyền tải trên mỗi mã thông báo).

Dòng mô hình Pleias-RAG là nỗ lực mới nhất nhằm thu hẹp khoảng cách giữa độ chính xác và hiệu quả trong các mô hình ngôn ngữ nhỏ.

Các mô hình này nhắm đến các doanh nghiệp, nhà phát triển và nhà nghiên cứu đang tìm kiếm giải pháp thay thế tiết kiệm chi phí cho các mô hình ngôn ngữ quy mô lớn mà không ảnh hưởng đến khả năng truy xuất nguồn gốc, khả năng đa ngôn ngữ hoặc quy trình lập luận có cấu trúc.

Đối tượng người dùng mục tiêu thực sự là châu Âu, quê hương của Pleias, như người đồng sáng lập Alexander Doria đã chia sẻ với VentureBeat qua tin nhắn trực tiếp trên mạng xã hội X:

“Động lực chính là khó khăn trong việc mở rộng quy mô các ứng dụng RAG ở Châu Âu. Hầu hết các tổ chức tư nhân đều có ít GPU (có thể đã thay đổi nhưng cách đây không lâu, chưa đến 2% tổng số [GPU] [Nvidia] H100 ở Châu Âu). Tuy nhiên, đồng thời cũng có động lực mạnh mẽ để tự lưu trữ vì những lý do được quản lý, bao gồm GDPR.

“ SLM đã tiến triển đáng kể trong năm qua, nhưng chúng thường được coi là ‘mini-chatbot’ và chúng tôi đã quan sát thấy sự sụt giảm đáng kể về hiệu suất trong các ngôn ngữ không phải tiếng Anh, cả về mặt hiểu nguồn và chất lượng tạo văn bản. Vì vậy, chúng tôi đã hài lòng khi đạt được hầu hết các mục tiêu của mình:

  • Một giải pháp thay thế thực sự cho mô hình 7-8b dành cho RAG ngay cả trên CPU và các cơ sở hạ tầng bị hạn chế khác.
  • Các mô hình có thể xác minh đầy đủ đi kèm với hỗ trợ trích dẫn.
  • Bảo tồn hiệu suất ngôn ngữ châu Âu.”

Tuy nhiên, tất nhiên các mô hình này là mã nguồn mở theo giấy phép Apache 2.0 có nghĩa là bất kỳ ai cũng có thể lấy và sử dụng chúng một cách tự do ở bất kỳ đâu trên thế giới.

Tập trung vào cơ sở, trích dẫn và sự kiện

Một tính năng chính của mô hình Pleias-RAG mới là hỗ trợ trích dẫn nguồn bằng trích dẫn nguyên văn, được tích hợp hoàn toàn vào quy trình suy luận của mô hình.

Không giống như các phương pháp trích dẫn sau hoc hoặc các đường dẫn phân đoạn bên ngoài, các mô hình Pleias-RAG tạo ra các trích dẫn trực tiếp, sử dụng cú pháp lấy cảm hứng từ định dạng tham chiếu của Wikipedia.

Cách tiếp cận này cho phép trích dẫn các đoạn ngắn hơn, dễ đọc hơn nhưng vẫn đảm bảo khả năng xác minh.

Việc trích dẫn có vai trò chức năng trong các bối cảnh được quản lý.

Đối với các lĩnh vực như chăm sóc sức khỏe, pháp lý và tài chính — nơi mà việc ra quyết định phải được ghi lại và có thể truy xuất — các tài liệu tham khảo tích hợp này cung cấp một con đường trực tiếp để kiểm toán. Pleias định vị lựa chọn thiết kế này là một mệnh lệnh đạo đức, phù hợp với nhu cầu ngày càng tăng của các quy định đối với AI có thể giải thích được.

Tác nhân nguyên thủy?

Các mô hình Pleias-RAG được mô tả là “proto-agentic” — chúng có thể tự động đánh giá xem truy vấn có dễ hiểu hay không, xác định xem truy vấn đó có tầm thường hay phức tạp hay không và quyết định trả lời, xây dựng lại hay từ chối dựa trên tính đầy đủ của nguồn.

Đầu ra có cấu trúc của chúng bao gồm phát hiện ngôn ngữ, báo cáo phân tích truy vấn và nguồn, cùng câu trả lời hợp lý.

Mặc dù có kích thước tương đối nhỏ (Pleias-RAG-350M chỉ có 350 triệu tham số), các mô hình này thể hiện hành vi thường gắn liền với các hệ thống tác nhân lớn hơn.

Theo Pleias, những khả năng này bắt nguồn từ một quy trình đào tạo chuyên biệt kết hợp việc tạo dữ liệu tổng hợp với các lời nhắc lý luận lặp đi lặp lại.

Pleias-RAG-350M được thiết kế riêng cho các môi trường hạn chế. Nó hoạt động tốt trên các CPU tiêu chuẩn, bao gồm cả cơ sở hạ tầng di động.

Theo các chuẩn mực nội bộ, phiên bản GGUF không lượng tử tạo ra đầu ra lý luận hoàn chỉnh trong khoảng 20 giây trên các thiết lập RAM 8GB. Dấu chân nhỏ của nó đặt nó vào một ngách với rất ít đối thủ cạnh tranh, chẳng hạn như Qwen-0.5 và SmolLM, nhưng tập trung nhiều hơn vào tổng hợp nguồn có cấu trúc.

Hiệu suất cạnh tranh giữa các nhiệm vụ và ngôn ngữ

Trong các đánh giá chuẩn, Pleias-RAG-350M và Pleias-RAG-1B vượt trội hơn hầu hết các mô hình trọng lượng mở dưới 4 tỷ tham số, bao gồm Llama-3.1-8B và Qwen-2.5-7B, trong các tác vụ như HotPotQA, 2WikiMultiHopQA và MuSiQue.

Các chuẩn mực RAG đa bước này kiểm tra khả năng lý luận của mô hình trên nhiều tài liệu và xác định các yếu tố gây mất tập trung — các yêu cầu chung trong hệ thống kiến ​​thức cấp doanh nghiệp.

Sức mạnh của các mô hình mở rộng sang các kịch bản đa ngôn ngữ. Trên các bộ chuẩn được dịch sang tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha và tiếng Ý, các mô hình Pleias cho thấy sự suy giảm hiệu suất không đáng kể.

Điều này giúp chúng khác biệt với các SLM khác, thường bị giảm hiệu suất 10–35% khi xử lý các truy vấn không phải tiếng Anh.

Hỗ trợ đa ngôn ngữ bắt nguồn từ thiết kế tokenizer cẩn thận và đào tạo đối kháng tổng hợp bao gồm các bài tập chuyển đổi ngôn ngữ. Các mô hình không chỉ phát hiện ngôn ngữ của truy vấn người dùng mà còn hướng đến việc phản hồi bằng cùng một ngôn ngữ—một tính năng quan trọng cho các triển khai toàn cầu.

Ngoài ra, Doria còn nhấn mạnh cách các mô hình có thể được sử dụng để tăng cường hiệu suất của các mô hình hiện có khác mà một doanh nghiệp có thể đang sử dụng:

“Chúng tôi hình dung các mô hình sẽ được sử dụng trong bối cảnh phối hợp, đặc biệt là vì chi phí tính toán của chúng thấp. Một kết quả rất thú vị về mặt đánh giá: ngay cả mô hình 350m cũng tỏ ra tốt với các câu trả lời hoàn toàn khác so với các câu trả lời mà [Meta] Llama và [Alibaba] Qwen đang thực hiện. Vì vậy, có một sự bổ sung thực sự mà chúng tôi gán cho đường ống lập luận của mình, vượt ra ngoài hiệu quả về chi phí …”

Truy cập mở và cấp phép

Theo Doria và một bài báo kỹ thuật nêu chi tiết về quá trình đào tạo của họ Pleias-RAG, các mô hình được đào tạo trên: “Common Corpus để tạo bộ đào tạo RAG (tất cả 3 triệu ví dụ đều đến từ đó). Chúng tôi đã sử dụng [Google] Gemma ở trên cùng để tạo ra các dấu vết tổng hợp lý luận vì giấy phép cho phép tái sử dụng/đào tạo lại”.

Cả hai mô hình đều được phát hành theo giấy phép Apache 2.0, cho phép tái sử dụng thương mại và tích hợp vào các hệ thống lớn hơn.

Pleias nhấn mạnh tính phù hợp của các mô hình để tích hợp vào các trợ lý tăng cường tìm kiếm, các công cụ giáo dục và hệ thống hỗ trợ người dùng. Công ty cũng cung cấp một thư viện API để đơn giản hóa định dạng đầu vào-đầu ra có cấu trúc cho các nhà phát triển.

Việc phát hành các mô hình là một phần trong nỗ lực lớn hơn của Pleias nhằm định vị lại các LLM nhỏ thành công cụ cho lý luận có cấu trúc, thay vì là bot đàm thoại đa năng.

Bằng cách tận dụng kiến ​​trúc bộ nhớ ngoài và phương pháp trích dẫn có hệ thống, dòng Pleias-RAG cung cấp giải pháp thay thế minh bạch, có thể kiểm toán cho các mô hình biên giới ít minh bạch hơn.

Triển vọng tương lai

Nhìn về phía trước, Pleias có kế hoạch mở rộng khả năng của các mô hình thông qua việc xử lý ngữ cảnh dài hơn, tích hợp tìm kiếm chặt chẽ hơn và điều chỉnh tính cách để thể hiện danh tính nhất quán hơn.

Học tăng cường cũng đang được khám phá, đặc biệt là trong các lĩnh vực như độ chính xác của trích dẫn, nơi việc xác minh trích dẫn có thể được đo lường bằng thuật toán.

Nhóm cũng đang tích cực hợp tác với các đối tác như Wikimedia Foundation để hỗ trợ tích hợp tìm kiếm có mục tiêu bằng cách sử dụng các nguồn đáng tin cậy.

Cuối cùng, việc sử dụng hiện tại các triển khai, mô hình và quy trình làm việc dành riêng cho RAG có thể sẽ giảm dần khi các mô hình AI tiên tiến hơn được đào tạo và triển khai, những mô hình kết hợp RAG và sử dụng công cụ agentic một cách tự nhiên. Như Doria đã nói với VentureBeat qua DM:

“ Về lâu dài, tôi tin rằng cả đường ống RAG cổ điển và các mô hình ngữ cảnh dài đều sẽ bị các tác nhân tìm kiếm phá vỡ. Chúng tôi đã bắt đầu chuyển động theo hướng này: đó là lý do tại sao mô hình đã được trang bị nhiều tính năng hiện đang được đưa ra bên ngoài trong các ứng dụng RAG (cấu trúc lại truy vấn, xếp hạng lại, v.v.). Rõ ràng là chúng tôi muốn tiến xa hơn và tích hợp các khả năng tìm kiếm và khả năng xử lý nguồn trực tiếp vào chính mô hình. Tôi tin rằng RAG sẽ biến mất theo một cách nào đó khi nó được tự động hóa bởi các mô hình tác nhân có khả năng chỉ đạo quy trình làm việc của riêng chúng. “

Với Pleias-RAG-350M và 1B, công ty đang đặt cược rằng các mô hình nhỏ – khi kết hợp với nền tảng lý luận mạnh mẽ và đầu ra có thể xác minh – có thể cạnh tranh với các đối thủ lớn hơn nhiều, đặc biệt là trong các triển khai đa ngôn ngữ và cơ sở hạ tầng hạn chế.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Ren Zhengfei: Huawei và chiến lược AI thầm lặng của Trung Quốc

CEO Huawei chia sẻ về tương lai trí tuệ...

Groq vừa làm cho Hugging Face nhanh hơn nhiều — và nó sẽ có trên AWS và Google

Công ty đã công bố vào thứ Hai rằng...

Ericsson và AWS bắt tay tạo ra mạng di động “tự chữa lành” nhờ AI

Liên minh giữa hai ông lớn viễn thông và...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »