Bộ mã hóa tầm nhìn là một loại mô hình AI chuyển đổi tài liệu và tệp trực quan — thường là hình ảnh tĩnh do người tạo mô hình tải lên — thành dữ liệu số có thể được các mô hình AI phi trực quan khác như mô hình ngôn ngữ lớn (LLM) hiểu được. Bộ mã hóa tầm nhìn là thành phần cần thiết để cho phép nhiều LLM hàng đầu có thể làm việc với hình ảnh do người dùng tải lên, giúp LLM có thể xác định các chủ thể, màu sắc, vị trí và nhiều tính năng khác nhau trong một hình ảnh.
OpenVision, sau đó, với giấy phép Apache 2.0 cho phép và họ 26 (!) mô hình khác nhau trải dài từ 5,9 triệu tham số đến 632,1 triệu tham số, cho phép bất kỳ nhà phát triển hoặc nhà sản xuất mô hình AI nào trong một doanh nghiệp hoặc tổ chức sử dụng và triển khai một bộ mã hóa có thể được sử dụng để thu thập mọi thứ từ hình ảnh trên công trường xây dựng đến máy giặt của người dùng, cho phép mô hình AI cung cấp hướng dẫn và khắc phục sự cố hoặc vô số các trường hợp sử dụng khác. Giấy phép Apache 2.0 cho phép sử dụng trong các ứng dụng thương mại.
Các mô hình này được phát triển bởi nhóm do Cihang Xie , phó giáo sư tại UCSC, đứng đầu, cùng với các cộng tác viên Xianhang Li, Yanqing Liu, Haoqin Tu và Hongru Zhu.
Dự án xây dựng dựa trên quy trình đào tạo CLIPS và tận dụng bộ dữ liệu Recap-DataComp-1B, một phiên bản chú thích lại của kho dữ liệu hình ảnh web quy mô hàng tỷ người sử dụng các mô hình ngôn ngữ do LLaVA cung cấp.
Kiến trúc có thể mở rộng cho các trường hợp sử dụng triển khai doanh nghiệp khác nhau
Thiết kế của OpenVision hỗ trợ nhiều trường hợp sử dụng.
Các mô hình lớn hơn phù hợp với khối lượng công việc cấp máy chủ đòi hỏi độ chính xác cao và khả năng hiểu trực quan chi tiết, trong khi các biến thể nhỏ hơn – một số nhẹ tới 5,9M tham số – được tối ưu hóa cho các triển khai biên nơi khả năng tính toán và bộ nhớ bị hạn chế.
Các mô hình này cũng hỗ trợ kích thước bản vá thích ứng (8×8 và 16×16), cho phép cân bằng giữa độ phân giải chi tiết và khối lượng tính toán.
Kết quả mạnh mẽ trên các chuẩn mực đa phương thức
Trong một loạt các điểm chuẩn, OpenVision chứng minh kết quả mạnh mẽ trên nhiều tác vụ ngôn ngữ thị giác.
Trong khi các tiêu chuẩn CLIP truyền thống như ImageNet và MSCOCO vẫn là một phần của bộ đánh giá, nhóm OpenVision khuyến cáo không nên chỉ dựa vào các số liệu đó.
Các thí nghiệm của họ cho thấy hiệu suất mạnh mẽ trong phân loại hoặc truy xuất hình ảnh không nhất thiết chuyển thành thành công trong lý luận đa phương thức phức tạp. Thay vào đó, nhóm ủng hộ phạm vi chuẩn rộng hơn và các giao thức đánh giá mở phản ánh tốt hơn các trường hợp sử dụng đa phương thức trong thế giới thực.
Đánh giá được tiến hành bằng cách sử dụng hai khuôn khổ đa phương thức tiêu chuẩn—LLaVA-1.5 và Open-LLaVA-Next—và cho thấy các mô hình OpenVision luôn phù hợp hoặc vượt trội hơn cả CLIP và SigLIP trên các tác vụ như TextVQA, ChartQA, MME và OCR.

Theo thiết lập LLaVA-1.5, bộ mã hóa OpenVision được đào tạo ở độ phân giải 224×224 đạt điểm cao hơn CLIP của OpenAI trong cả nhiệm vụ phân loại và truy xuất, cũng như trong các đánh giá hạ nguồn như SEED, SQA và POPE.
Ở độ phân giải đầu vào cao hơn (336×336), OpenVision-L/14 vượt trội hơn CLIP-L/14 ở hầu hết các danh mục. Ngay cả các mô hình nhỏ hơn, chẳng hạn như OpenVision-Small và Tiny, vẫn duy trì được độ chính xác cạnh tranh trong khi sử dụng ít tham số hơn đáng kể.
Đào tạo tiến bộ hiệu quả giúp giảm chi phí tính toán
Một tính năng đáng chú ý của OpenVision là chiến lược đào tạo độ phân giải tiến bộ, được điều chỉnh từ CLIPA. Các mô hình bắt đầu đào tạo trên hình ảnh có độ phân giải thấp và được tinh chỉnh dần dần trên các độ phân giải cao hơn.
Điều này dẫn đến quá trình đào tạo hiệu quả hơn về mặt tính toán—thường nhanh hơn CLIP và SigLIP từ 2 đến 3 lần—mà không làm giảm hiệu suất hạ lưu.
Các nghiên cứu cắt bỏ — trong đó các thành phần của mô hình học máy được loại bỏ có chọn lọc để xác định tầm quan trọng hoặc thiếu sót của chúng đối với chức năng của mô hình — xác nhận thêm những lợi ích của phương pháp này, với mức tăng hiệu suất lớn nhất được quan sát thấy trong các tác vụ có độ phân giải cao, nhạy cảm với chi tiết như OCR và trả lời câu hỏi trực quan dựa trên biểu đồ.
Một yếu tố khác trong hiệu suất của OpenVision là việc sử dụng chú thích tổng hợp và bộ giải mã văn bản phụ trợ trong quá trình đào tạo.
Những lựa chọn thiết kế này cho phép bộ mã hóa thị giác học được nhiều biểu diễn ngữ nghĩa phong phú hơn, cải thiện độ chính xác trong các tác vụ lý luận đa phương thức. Việc loại bỏ bất kỳ thành phần nào dẫn đến việc giảm hiệu suất liên tục trong các thử nghiệm cắt bỏ.
Được tối ưu hóa cho các hệ thống nhẹ và các trường hợp sử dụng điện toán biên
OpenVision cũng được thiết kế để hoạt động hiệu quả với các mô hình ngôn ngữ nhỏ.
Trong một thí nghiệm, bộ mã hóa thị giác được ghép nối với Smol-LM có 150M tham số để xây dựng một mô hình đa phương thức đầy đủ với 250M tham số.

Mặc dù có kích thước nhỏ, hệ thống vẫn giữ được độ chính xác cao trong toàn bộ các nhiệm vụ VQA, hiểu tài liệu và lập luận.
Khả năng này cho thấy tiềm năng lớn cho các triển khai dựa trên biên hoặc hạn chế về tài nguyên, chẳng hạn như điện thoại thông minh của người tiêu dùng hoặc máy ảnh và cảm biến sản xuất tại chỗ.
Tại sao OpenVision lại quan trọng đối với những người ra quyết định kỹ thuật của doanh nghiệp
Phương pháp tiếp cận hoàn toàn mở và theo mô-đun của OpenVision đối với việc phát triển bộ mã hóa thị giác có ý nghĩa chiến lược đối với các nhóm doanh nghiệp làm việc trong lĩnh vực kỹ thuật AI, điều phối, cơ sở hạ tầng dữ liệu và bảo mật.
Đối với các kỹ sư giám sát việc phát triển và triển khai LLM, OpenVision cung cấp giải pháp cắm và chạy để tích hợp các khả năng thị giác hiệu suất cao mà không phụ thuộc vào API của bên thứ ba không minh bạch hoặc giấy phép mô hình hạn chế.
Tính cởi mở này cho phép tối ưu hóa chặt chẽ hơn các đường truyền ngôn ngữ thị giác và đảm bảo rằng dữ liệu độc quyền không bao giờ rời khỏi môi trường của tổ chức.
Đối với các kỹ sư tập trung vào việc tạo ra các khuôn khổ phối hợp AI, OpenVision cung cấp các mô hình ở nhiều thang tham số khác nhau, từ bộ mã hóa siêu nhỏ gọn phù hợp với các thiết bị biên đến các mô hình lớn hơn, có độ phân giải cao phù hợp với các đường ống đám mây đa nút.
Tính linh hoạt này giúp dễ dàng thiết kế quy trình làm việc MLOps có khả năng mở rộng, tiết kiệm chi phí mà không ảnh hưởng đến độ chính xác của từng tác vụ cụ thể. Hỗ trợ đào tạo giải quyết tiến bộ cũng cho phép phân bổ tài nguyên thông minh hơn trong quá trình phát triển, đặc biệt có lợi cho các nhóm hoạt động trong điều kiện ngân sách eo hẹp.
Các kỹ sư dữ liệu có thể tận dụng OpenVision để cung cấp năng lượng cho các đường ống phân tích hình ảnh nặng, trong đó dữ liệu có cấu trúc được tăng cường bằng các đầu vào trực quan (ví dụ: tài liệu, biểu đồ, hình ảnh sản phẩm). Vì model zoo hỗ trợ nhiều độ phân giải đầu vào và kích thước bản vá, các nhóm có thể thử nghiệm với các sự đánh đổi giữa độ trung thực và hiệu suất mà không cần đào tạo lại từ đầu. Tích hợp với các công cụ như PyTorch và Hugging Face giúp đơn giản hóa việc triển khai mô hình vào các hệ thống dữ liệu hiện có.
Trong khi đó, kiến trúc minh bạch và quy trình đào tạo có thể tái tạo của OpenVision cho phép các nhóm bảo mật đánh giá và giám sát các mô hình để tìm ra lỗ hổng tiềm ẩn—không giống như API hộp đen không thể truy cập được hành vi nội bộ.
Khi triển khai tại chỗ, các mô hình này tránh được rủi ro rò rỉ dữ liệu trong quá trình suy luận, điều này rất quan trọng trong các ngành được quản lý xử lý dữ liệu hình ảnh nhạy cảm như ID, biểu mẫu y tế hoặc hồ sơ tài chính.
Trên tất cả các vai trò này, OpenVision giúp giảm sự phụ thuộc vào nhà cung cấp và mang lại lợi ích của AI đa phương thức hiện đại vào các quy trình làm việc đòi hỏi khả năng kiểm soát, tùy chỉnh và minh bạch hoạt động. Nó cung cấp cho các nhóm doanh nghiệp nền tảng kỹ thuật để xây dựng các ứng dụng cạnh tranh, được tăng cường AI theo các điều khoản của riêng họ.
Mở cửa kinh doanh
Mô hình OpenVision có sẵn trong cả phiên bản PyTorch và JAX, và nhóm cũng đã phát hành các tiện ích để tích hợp với các khuôn khổ ngôn ngữ thị giác phổ biến.
Kể từ bản phát hành này, các mô hình có thể được tải xuống từ Hugging Face và các công thức đào tạo được đăng công khai để có thể tái tạo đầy đủ.
Bằng cách cung cấp một giải pháp thay thế minh bạch, hiệu quả và có thể mở rộng cho các bộ mã hóa độc quyền, OpenVision cung cấp cho các nhà nghiên cứu và nhà phát triển một nền tảng linh hoạt để thúc đẩy các ứng dụng ngôn ngữ thị giác. Việc phát hành đánh dấu một bước tiến đáng kể trong việc thúc đẩy cơ sở hạ tầng đa phương thức mở—đặc biệt là đối với những người muốn xây dựng các hệ thống hiệu suất cao mà không cần truy cập vào dữ liệu đóng hoặc các đường ống đào tạo nặng về tính toán.