Thứ Tư, Tháng 6 18, 2025

Meta bảo vệ bản phát hành Llama 4 trước ‘báo cáo chất lượng hỗn hợp’, đổ lỗi cho lỗi

Ngoài ra, cả ba đều được trang bị cửa sổ ngữ cảnh lớn — lượng thông tin mà mô hình ngôn ngữ AI có thể xử lý trong một lần trao đổi đầu vào/đầu ra với người dùng hoặc công cụ.

Nhưng sau thông báo bất ngờ và phát hành công khai hai trong số các mô hình đó để tải xuống và sử dụng — Llama 4 Scout có thông số thấp hơn và Llama 4 Maverick tầm trung — vào thứ Bảy, phản ứng từ cộng đồng AI trên mạng xã hội lại không mấy tích cực.

Llama 4 gây ra sự nhầm lẫn và chỉ trích trong số những người dùng AI

Một bài đăng chưa được xác minh trên diễn đàn cộng đồng tiếng Hoa Bắc Mỹ 1point3acres đã xuất hiện trên subreddit r/LocalLlama trên Reddit, được cho là từ một nhà nghiên cứu tại tổ chức GenAI của Meta, người tuyên bố rằng mô hình hoạt động kém trên các chuẩn mực của bên thứ ba nội bộ và ban lãnh đạo công ty “đề xuất kết hợp các bộ thử nghiệm từ nhiều chuẩn mực khác nhau trong quá trình đào tạo sau, nhằm đạt được mục tiêu trên nhiều số liệu khác nhau và tạo ra kết quả ‘có thể trình bày được'”.

Bài đăng này đã vấp phải sự hoài nghi từ cộng đồng về tính xác thực của nó, và VentureBeat đã gửi email tới người phát ngôn của Meta nhưng vẫn chưa nhận được phản hồi.

Nhưng những người dùng khác vẫn tìm ra lý do để nghi ngờ điểm chuẩn này.

“Tại thời điểm này, tôi rất nghi ngờ Meta đã làm hỏng một cái gì đó trong các trọng số được phát hành… nếu không, họ nên sa thải tất cả những người đã làm việc trên này và sau đó sử dụng tiền để mua lại Nous ,” @cto_junior bình luận trên X, liên quan đến một bài kiểm tra người dùng độc lập cho thấy hiệu suất kém của Llama 4 Maverick (16%) trên một điểm chuẩn được gọi là aider polyglot , chạy một mô hình thông qua 225 tác vụ mã hóa. Con số này thấp hơn nhiều so với hiệu suất của các mô hình cũ hơn có kích thước tương đương như DeepSeek V3 và Claude 3.7 Sonnet.

Tham chiếu đến cửa sổ ngữ cảnh 10 triệu token mà Meta khoe khoang cho Llama 4 Scout, Tiến sĩ AI và tác giả Andriy Burkov đã viết trên X một phần rằng: “Bối cảnh 10M được tuyên bố là ảo vì không có mô hình nào được đào tạo trên các lời nhắc dài hơn 256k token. Điều này có nghĩa là nếu bạn gửi hơn 256k token đến đó, bạn sẽ nhận được đầu ra chất lượng thấp hầu hết thời gian.”

Cũng trên subreddit r/LocalLlama, người dùng Dr_Karminski đã viết rằng ” Tôi vô cùng thất vọng với Llama-4 ” và chỉ ra hiệu suất kém của nó so với mô hình V3 không có lý luận của DeepSeek trong các tác vụ mã hóa như mô phỏng những quả bóng nảy xung quanh một hình bảy cạnh.

Cựu nghiên cứu viên Meta và Nhà khoa học nghiên cứu cấp cao hiện tại của AI2 (Viện trí tuệ nhân tạo Allen) Nathan Lambert đã viết trên blog Interconnects Substack của mình vào thứ Hai để chỉ ra rằng một so sánh chuẩn mực do Meta đăng tải giữa trang tải xuống Llama của Llama 4 Maverick với các mô hình khác, dựa trên chi phí-hiệu suất trên công cụ so sánh trực tiếp của bên thứ ba LMArena ELO hay còn gọi là Chatbot Arena, thực sự đã sử dụng một phiên bản Llama 4 Maverick khác với phiên bản mà chính công ty đã công bố rộng rãi — một phiên bản “được tối ưu hóa cho tính hội thoại”.

Như Lambert đã viết: “Lén lút. Các kết quả bên dưới là giả mạo và đây là một sự xúc phạm lớn đối với cộng đồng Meta khi không công bố mô hình mà họ đã sử dụng để tạo ra chiến dịch tiếp thị lớn của mình. Chúng tôi đã thấy nhiều mô hình mở xuất hiện để tối đa hóa trên ChatBotArena trong khi phá hủy hiệu suất của mô hình đối với các kỹ năng quan trọng như toán học hoặc mã hóa.”

Lambert tiếp tục lưu ý rằng trong khi mô hình cụ thể này trên đấu trường đã “làm giảm uy tín kỹ thuật của bản phát hành vì tính chất trẻ con của nó”, bao gồm nhiều biểu tượng cảm xúc và đoạn hội thoại cảm xúc phù phiếm, thì “Mô hình thực tế trên các nhà cung cấp dịch vụ lưu trữ khác khá thông minh và có giọng điệu hợp lý!”

Meta phản hồi phủ nhận việc nó ‘được đào tạo trên các bộ thử nghiệm’ và trích dẫn các lỗi trong quá trình triển khai do triển khai nhanh

Để đáp lại làn sóng chỉ trích và cáo buộc về việc gian lận điểm chuẩn, Phó chủ tịch kiêm Trưởng phòng GenAI của Meta, Ahmad Al-Dahle đã lên tiếng trên X:

“Chúng tôi rất vui khi bắt đầu đưa Llama 4 đến tay tất cả các bạn. Chúng tôi đã nghe rất nhiều kết quả tuyệt vời mà mọi người đạt được với những mô hình này.

Tuy nhiên, chúng tôi cũng nghe một số báo cáo về chất lượng hỗn hợp trên các dịch vụ khác nhau. Vì chúng tôi đã loại bỏ các mô hình ngay khi chúng sẵn sàng, chúng tôi dự kiến ​​sẽ mất vài ngày để tất cả các triển khai công khai được thực hiện. Chúng tôi sẽ tiếp tục làm việc thông qua các bản sửa lỗi và các đối tác tích hợp.

Chúng tôi cũng đã nghe những tuyên bố rằng chúng tôi đã đào tạo trên các bộ thử nghiệm — điều đó hoàn toàn không đúng và chúng tôi sẽ không bao giờ làm như vậy. Hiểu biết tốt nhất của chúng tôi là chất lượng biến đổi mà mọi người đang thấy là do cần phải ổn định các triển khai.

Chúng tôi tin rằng các mẫu xe Llama 4 là một bước tiến đáng kể và chúng tôi mong muốn được hợp tác với cộng đồng để phát huy giá trị của chúng .

Tuy nhiên, ngay cả phản hồi đó cũng nhận được nhiều lời phàn nàn về hiệu suất kém và yêu cầu cung cấp thêm thông tin, chẳng hạn như tài liệu kỹ thuật phác thảo các mô hình Llama 4 và quy trình đào tạo của chúng, cũng như các câu hỏi bổ sung về lý do tại sao bản phát hành này lại gặp nhiều vấn đề hơn so với tất cả các bản phát hành Llama trước đó .

Sự kiện này cũng diễn ra ngay sau người đứng thứ hai tại Meta là Phó chủ tịch nghiên cứu Joelle Pineau, người đã làm việc tại tổ chức Meta Foundational Artificial Intelligence Research (FAIR) bên cạnh, khi tuyên bố rời công ty trên LinkedIn vào tuần trước “với sự ngưỡng mộ và lòng biết ơn sâu sắc dành cho từng người quản lý của tôi”. Cần lưu ý rằng Pineau cũng đã quảng bá cho việc ra mắt dòng xe mô hình Llama 4 vào cuối tuần này.

Llama 4 tiếp tục được triển khai sang các nhà cung cấp suy luận khác với nhiều kết quả khác nhau, nhưng có thể khẳng định rằng bản phát hành đầu tiên của dòng mô hình này không được cộng đồng AI đón nhận nồng nhiệt.

Và Meta LlamaCon sắp tới vào ngày 29 tháng 4 , lễ kỷ niệm và cuộc tụ họp đầu tiên dành cho các nhà phát triển bên thứ ba của gia đình mô hình, có thể sẽ có nhiều chủ đề để thảo luận. Chúng tôi sẽ theo dõi tất cả, hãy chú ý theo dõi.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Ren Zhengfei: Huawei và chiến lược AI thầm lặng của Trung Quốc

CEO Huawei chia sẻ về tương lai trí tuệ...

Groq vừa làm cho Hugging Face nhanh hơn nhiều — và nó sẽ có trên AWS và Google

Công ty đã công bố vào thứ Hai rằng...

Ericsson và AWS bắt tay tạo ra mạng di động “tự chữa lành” nhờ AI

Liên minh giữa hai ông lớn viễn thông và...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »