Từ ảo giác đến phần cứng: Bài học từ một dự án thị giác máy tính thực tế bị chệch hướng

Các dự án thị giác máy tính hiếm khi diễn ra chính xác như kế hoạch và dự án này cũng không ngoại lệ. Ý tưởng rất đơn giản: Xây dựng một mô hình có thể xem ảnh chụp máy tính xách tay và xác định bất kỳ hư hỏng vật lý nào — những thứ như màn hình bị nứt, mất phím hoặc bản lề bị hỏng. Có vẻ như đây là trường hợp sử dụng đơn giản cho các mô hình hình ảnh và mô hình ngôn ngữ lớn (LLM), nhưng nó nhanh chóng trở thành thứ gì đó phức tạp hơn.

Trên đường đi, chúng tôi gặp phải vấn đề về ảo giác, đầu ra không đáng tin cậy và hình ảnh thậm chí không phải là máy tính xách tay. Để giải quyết những vấn đề này, cuối cùng chúng tôi đã áp dụng một khuôn khổ tác nhân theo cách không điển hình — không phải để tự động hóa tác vụ, mà là để cải thiện hiệu suất của mô hình.

Trong bài viết này, chúng tôi sẽ hướng dẫn những gì chúng tôi đã thử, những gì không hiệu quả và cách kết hợp các phương pháp cuối cùng đã giúp chúng tôi xây dựng được thứ gì đó đáng tin cậy.

Nơi chúng tôi bắt đầu: Nhắc nhở nguyên khối

Cách tiếp cận ban đầu của chúng tôi khá chuẩn đối với một mô hình đa phương thức. Chúng tôi đã sử dụng một lời nhắc lớn duy nhất để truyền hình ảnh vào LLM có khả năng xử lý hình ảnh và yêu cầu nó xác định thiệt hại có thể nhìn thấy. Chiến lược nhắc nhở đơn khối này dễ triển khai và hoạt động tốt đối với các tác vụ rõ ràng, được xác định rõ ràng. Nhưng dữ liệu thực tế hiếm khi phát huy tác dụng.

Chúng tôi đã gặp phải ba vấn đề lớn ngay từ đầu:

Ảo giác : Đôi khi, mô hình sẽ tạo ra những thiệt hại không tồn tại hoặc dán nhãn sai những gì nó nhìn thấy.
Phát hiện hình ảnh rác : Không có cách đáng tin cậy nào để đánh dấu những hình ảnh thậm chí không phải là máy tính xách tay, như hình ảnh bàn làm việc, tường hoặc hình ảnh người thỉnh thoảng lọt qua và nhận được báo cáo thiệt hại vô lý.
Độ chính xác không nhất quán : Sự kết hợp của những vấn đề này khiến mô hình không đáng tin cậy để sử dụng trong thực tế.

Đây là thời điểm chúng ta nhận thấy rõ ràng rằng mình cần phải lặp lại.

Sửa lỗi đầu tiên: Trộn độ phân giải hình ảnh

Một điều chúng tôi nhận thấy là chất lượng hình ảnh ảnh hưởng đến đầu ra của mô hình như thế nào. Người dùng đã tải lên đủ loại hình ảnh từ sắc nét và có độ phân giải cao đến mờ. Điều này khiến chúng tôi tham khảo nghiên cứu làm nổi bật cách độ phân giải hình ảnh tác động đến các mô hình học sâu.

Chúng tôi đã đào tạo và thử nghiệm mô hình bằng cách sử dụng hỗn hợp các hình ảnh có độ phân giải cao và thấp. Ý tưởng là làm cho mô hình có khả năng phục hồi tốt hơn với nhiều loại chất lượng hình ảnh mà nó sẽ gặp phải trong thực tế. Điều này giúp cải thiện tính nhất quán, nhưng các vấn đề cốt lõi về ảo giác và xử lý hình ảnh rác vẫn tồn tại.

Đường vòng đa phương thức: LLM chỉ có văn bản chuyển sang đa phương thức

Được khuyến khích bởi các thử nghiệm gần đây trong việc kết hợp chú thích hình ảnh với LLM chỉ có văn bản — như kỹ thuật được đề cập trong The Batch , trong đó chú thích được tạo từ hình ảnh và sau đó được diễn giải bởi một mô hình ngôn ngữ, chúng tôi quyết định thử.

Sau đây là cách thức hoạt động:

LLM bắt đầu bằng cách tạo ra nhiều chú thích có thể có cho một hình ảnh.
Một mô hình khác, được gọi là mô hình nhúng đa phương thức, kiểm tra mức độ phù hợp của từng chú thích với hình ảnh. Trong trường hợp này, chúng tôi sử dụng SigLIP để chấm điểm mức độ tương đồng giữa hình ảnh và văn bản.
Hệ thống sẽ giữ lại một vài phụ đề hàng đầu dựa trên số điểm này.
LLM sử dụng những chú thích hàng đầu đó để viết những chú thích mới, cố gắng mô tả gần hơn với nội dung thực sự mà hình ảnh thể hiện.
Quá trình này sẽ lặp lại cho đến khi phụ đề không còn được cải thiện nữa hoặc đạt đến giới hạn đã đặt.

Mặc dù thông minh về mặt lý thuyết, cách tiếp cận này lại gây ra những vấn đề mới cho trường hợp sử dụng của chúng tôi:

Ảo giác dai dẳng : Bản thân phụ đề đôi khi bao gồm cả thiệt hại tưởng tượng, và sau đó LLM đã tự tin báo cáo về điều này.
Nội dung không đầy đủ : Ngay cả khi có nhiều phụ đề, một số vấn đề vẫn bị bỏ sót hoàn toàn.
Độ phức tạp tăng, lợi ích ít : Các bước bổ sung khiến hệ thống phức tạp hơn mà không thực sự vượt trội so với thiết lập trước đó.

Đó là một thí nghiệm thú vị, nhưng cuối cùng không phải là giải pháp.

Sử dụng sáng tạo các khuôn khổ tác nhân

Đây là bước ngoặt. Trong khi các khuôn khổ tác nhân thường được sử dụng để điều phối luồng tác vụ (ví dụ như các tác nhân điều phối lời mời theo lịch hoặc hành động dịch vụ khách hàng), chúng tôi tự hỏi liệu việc chia nhỏ tác vụ diễn giải hình ảnh thành các tác nhân chuyên biệt nhỏ hơn có thể hữu ích không.

Chúng tôi đã xây dựng một khuôn khổ tác nhân có cấu trúc như sau:

Tác nhân điều phối : Kiểm tra hình ảnh và xác định các thành phần máy tính xách tay nào có thể nhìn thấy (màn hình, bàn phím, khung máy, cổng).
Các nhân viên phụ trách thành phần : Các nhân viên chuyên trách sẽ kiểm tra từng thành phần để tìm ra loại hư hỏng cụ thể; ví dụ, một người kiểm tra màn hình bị nứt, một người khác kiểm tra mất chìa khóa.
Tác nhân phát hiện rác : Một tác nhân riêng biệt sẽ đánh dấu xem hình ảnh có phải là máy tính xách tay hay không.

Cách tiếp cận theo mô-đun, theo nhiệm vụ này tạo ra kết quả chính xác và dễ giải thích hơn nhiều. Ảo giác giảm đáng kể, hình ảnh rác được đánh dấu đáng tin cậy và nhiệm vụ của mỗi tác nhân đều đơn giản và đủ tập trung để kiểm soát chất lượng tốt.

quảng cáo

Mặc dù hiệu quả nhưng nó không hoàn hảo. Có hai hạn chế chính đã xuất hiện:

Độ trễ tăng lên : Việc chạy nhiều tác nhân tuần tự sẽ làm tăng tổng thời gian suy luận.
Khoảng cách bao phủ : Các tác nhân chỉ có thể phát hiện ra các vấn đề mà họ được lập trình rõ ràng để tìm kiếm. Nếu một hình ảnh cho thấy điều gì đó bất ngờ mà không có tác nhân nào được giao nhiệm vụ xác định, nó sẽ không được chú ý.

Chúng tôi cần một cách để cân bằng độ chính xác với phạm vi phủ sóng.

Giải pháp lai: Kết hợp các phương pháp tiếp cận đại lý và đơn khối

Để thu hẹp khoảng cách, chúng tôi đã tạo ra một hệ thống kết hợp:

Khung tác nhân chạy đầu tiên, xử lý phát hiện chính xác các loại thiệt hại đã biết và hình ảnh rác. Chúng tôi giới hạn số lượng tác nhân ở mức cần thiết nhất để cải thiện độ trễ.
Sau đó, một lời nhắc LLM hình ảnh đơn khối sẽ quét hình ảnh để tìm bất kỳ thông tin nào khác mà các tác nhân có thể đã bỏ sót.
Cuối cùng, chúng tôi đã tinh chỉnh mô hình bằng cách sử dụng một bộ hình ảnh được chọn lọc cho các trường hợp sử dụng có mức độ ưu tiên cao, như các tình huống thiệt hại thường được báo cáo, để cải thiện thêm độ chính xác và độ tin cậy.

Sự kết hợp này mang lại cho chúng tôi độ chính xác và khả năng giải thích của thiết lập tác nhân, phạm vi bao phủ rộng của lời nhắc thống nhất và sự gia tăng sự tự tin của việc tinh chỉnh có mục tiêu.

Những gì chúng tôi đã học được

Một số điều trở nên rõ ràng khi chúng tôi hoàn thành dự án này:

Các khuôn khổ agentic linh hoạt hơn những gì người ta nghĩ : Mặc dù chúng thường liên quan đến quản lý quy trình công việc, chúng tôi thấy rằng chúng có thể tăng cường hiệu suất mô hình một cách có ý nghĩa khi được áp dụng theo cách có cấu trúc và mô-đun.
Kết hợp nhiều phương pháp khác nhau tốt hơn là chỉ dựa vào một phương pháp : Sự kết hợp giữa phát hiện chính xác dựa trên tác nhân cùng phạm vi bao phủ rộng của LLM, cộng với một chút tinh chỉnh ở những điểm quan trọng nhất, mang lại cho chúng tôi kết quả đáng tin cậy hơn nhiều so với bất kỳ phương pháp đơn lẻ nào.
Các mô hình trực quan dễ bị ảo giác : Ngay cả những thiết lập tiên tiến hơn cũng có thể đưa ra kết luận hoặc nhìn thấy những thứ không có ở đó. Cần phải có một thiết kế hệ thống chu đáo để kiểm soát những sai lầm đó.
Sự đa dạng về chất lượng hình ảnh tạo nên sự khác biệt : Việc đào tạo và thử nghiệm với cả hình ảnh rõ nét, có độ phân giải cao và hình ảnh hàng ngày, chất lượng thấp hơn đã giúp mô hình duy trì khả năng phục hồi khi đối mặt với những bức ảnh thực tế không thể đoán trước.
Bạn cần một cách để bắt hình ảnh rác : Kiểm tra chuyên sâu các hình ảnh rác hoặc không liên quan là một trong những thay đổi đơn giản nhất mà chúng tôi đã thực hiện và nó có tác động rất lớn đến độ tin cậy chung của hệ thống.

Suy nghĩ cuối cùng

Những gì bắt đầu như một ý tưởng đơn giản, sử dụng lời nhắc LLM để phát hiện hư hỏng vật lý trong hình ảnh máy tính xách tay, nhanh chóng biến thành một thử nghiệm sâu hơn nhiều trong việc kết hợp các kỹ thuật AI khác nhau để giải quyết các vấn đề thực tế không thể đoán trước. Trong quá trình thực hiện, chúng tôi nhận ra rằng một số công cụ hữu ích nhất là những công cụ ban đầu không được thiết kế cho loại công việc này.

Các khuôn khổ Agentic, thường được coi là tiện ích quy trình làm việc, đã chứng minh được hiệu quả đáng ngạc nhiên khi được sử dụng lại cho các tác vụ như phát hiện hư hỏng có cấu trúc và lọc hình ảnh. Với một chút sáng tạo, chúng đã giúp chúng tôi xây dựng một hệ thống không chỉ chính xác hơn mà còn dễ hiểu và quản lý hơn trong thực tế.

Từ ảo giác đến phần cứng: Bài học từ một dự án thị giác máy tính thực tế bị chệch hướng

Nơi chúng tôi bắt đầu: Nhắc nhở nguyên khối

Sửa lỗi đầu tiên: Trộn độ phân giải hình ảnh

Đường vòng đa phương thức: LLM chỉ có văn bản chuyển sang đa phương thức

Sử dụng sáng tạo các khuôn khổ tác nhân

Điểm mù: Sự đánh đổi của cách tiếp cận mang tính tác nhân

Giải pháp lai: Kết hợp các phương pháp tiếp cận đại lý và đơn khối

Những gì chúng tôi đã học được

Suy nghĩ cuối cùng

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi