Thứ Hai, Tháng 6 16, 2025

Meta FAIR Ra Mắt 5 Dự Án AI Mới, Hướng Tới Trí Tuệ Máy Giống Với Con Người

Nhóm Nghiên cứu AI Cốt lõi FAIR (Fundamental AI Research) thuộc Meta vừa công bố 5 sáng kiến đột phá nhằm hiện thực hóa tham vọng xây dựng trí tuệ máy tiên tiến (Advanced Machine Intelligence AMI) có khả năng nhận thức, suy luận và tương tác gần giống con người.

Từ thị giác máy, hiểu ngôn ngữ, robot 3D đến hợp tác xã hội giữa người và AI các dự án này đều nhằm nâng cao khả năng AI xử lý thông tin cảm giác và đưa ra quyết định nhanh, chính xác, có bối cảnh.

Perception Encoder “Mắt nhìn” mới của trí tuệ nhân tạo

Trung tâm của các công bố là Perception Encoder mô hình mã hóa thị giác quy mô lớn, tối ưu cho cả hình ảnh và video.

Đặc điểm nổi bật:

  • Hiệu suất vượt trội trong phân loại ảnh/video không cần huấn luyện trước (zero-shot)
  • Khả năng phát hiện chi tiết tinh vi như chim nhỏ trong hậu cảnh hoặc vật thể ngụy trang trong bóng tối
  • Khi kết hợp với LLM, Perception Encoder cải thiện các tác vụ như:
    • Visual Question Answering (VQA)
    • Tạo chú thích ảnh
    • Hiểu tài liệu và mối liên kết văn bản hình ảnh
    • Hiểu quan hệ không gian giữa các đối tượng
“Chúng tôi kỳ vọng Perception Encoder sẽ giúp nâng tầm khả năng ‘nhìn – hiểu – hành động’ của AI trong các ứng dụng đời thực,” Meta chia sẻ.

Perception Language Model (PLM) Mô hình thị giác ngôn ngữ mở

PLM là mô hình kết hợp giữa thị giác và ngôn ngữ, huấn luyện từ dữ liệu tổng hợp và tập dữ liệu mở, không dùng mô hình độc quyền.

Kèm theo:

  • Bộ dữ liệu mới gồm 2,5 triệu mẫu gắn nhãn thủ công cho tác vụ video QA và tạo chú thích theo thời gian không gian (spatio-temporal)
  • Ba phiên bản PLM có kích thước 1B, 3B, 8B tham số
  • Bộ đánh giá mới PLM-VideoBench tập trung vào hiểu hành vi chi tiết và suy luận có ngữ cảnh thời gian

Meta kỳ vọng PLM sẽ trở thành công cụ mạnh cho cộng đồng nghiên cứu mã nguồn mở về thị giác ngôn ngữ.

Meta Locate 3D Robot hiểu được môi trường xung quanh

Dự án này giúp robot xác định vị trí đối tượng trong không gian 3D dựa trên mô tả bằng ngôn ngữ tự nhiên.

Cách hoạt động:

  • Nhận dữ liệu từ cảm biến RGB-D
  • Phân tích mối quan hệ không gian (vd: “lọ hoa gần TV”)
  • Dự đoán chính xác vật thể cần tìm qua các bước mã hóa, suy luận, định vị

Meta còn công bố bộ dữ liệu mới với 130.000 mô tả ngôn ngữ trên hơn 1.300 cảnh 3D (ScanNet, ARKitScenes…). Dự án hỗ trợ phát triển robot tương tác tự nhiên hơn trong các hệ thống như PARTNR của Meta.

Dynamic Byte Latent Transformer Mô hình ngôn ngữ mới, không dùng token

Thay vì tách từ thành token như các LLM truyền thống, mô hình này xử lý trực tiếp ở cấp độ byte, giúp:

  • Chống lỗi chính tả, từ lạ hoặc đầu vào bị nhiễu
  • Tăng khả năng hiểu ngữ cảnh
  • Tăng hiệu quả suy luận và độ chính xác

Kết quả:

  • Vượt LLM truyền thống trung bình +7 điểm trên tập dữ liệu nhiễu (HellaSwag)
  • Trên benchmark hiểu byte CUTE, cao hơn tới +55 điểm

Mã nguồn và trọng số mô hình 8B đã được Meta công bố mở cho cộng đồng nghiên cứu.

Collaborative Reasoner, Tác nhân AI biết cộng tác như con người

Mô hình này tập trung vào việc xây dựng AI xã hội, biết hợp tác, phản biện, đồng thuận thay vì chỉ đưa ra câu trả lời đơn lẻ.

Tính năng:

  • Cho phép AI tương tác với AI khác hoặc con người qua nhiều lượt hội thoại
  • Biết thuyết phục, tranh luận, hiểu ý đối phương (theory-of-mind)
  • Sử dụng kỹ thuật tự huấn luyện bằng cách “cộng tác với chính mình”

Dữ liệu tương tác được tạo với công cụ xử lý tốc độ cao Matrix, giúp tăng hiệu suất trên các tác vụ toán học, khoa học và xã hội lên đến 29,4% so với cách huấn luyện truyền thống.

“Chúng tôi muốn tạo ra những AI thật sự biết ‘cộng tác’ thay vì chỉ ‘trả lời’,” Meta nhấn mạnh.

Tổng Kết: Meta Đang Định Hình Lại Nền Tảng Cho Trí Tuệ Máy Gần Với Con Người

5 dự án từ FAIR lần này không chỉ mang lại mô hình mới, mà còn mở ra:

  • Bộ dữ liệu quy mô lớn
  • Bộ benchmark mới
  • Kỹ thuật huấn luyện và hạ tầng phục vụ nghiên cứu mã nguồn mở

Tất cả hướng đến mục tiêu tạo ra AI có khả năng nhận thức, suy luận, tương tác, và hợp tác gần giống với con người một bước tiến quan trọng trên con đường chinh phục AGI.

Tìm hiểu thêm tại: https://chatgpt.com/

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Databricks mở mã nguồn công cụ ETL khai báo, tăng tốc xây dựng pipeline tới 90%

Databricks công bố mở mã nguồn công cụ Spark...

Google DeepMind ra mắt mô hình AI thay đổi vĩnh viễn dự báo bão

DeepMind hợp tác với Trung tâm Bão Quốc gia...

Microsoft và OpenAI “chia tay”: Ai sẽ nắm giữ quyền lực AI toàn cầu?

Mối quan hệ từng được ví như “bromance” công...

OpenAI tung o3-pro, giảm giá o3 đến 80%

Model mới cùng chiến lược giá mạnh tay của...

Meta đầu tư 15 tỷ USD vào Scale AI, theo đuổi tham vọng siêu trí tuệ

Meta đang tái định hướng chiến lược AI bằng...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »