Khi các doanh nghiệp chạy đua triển khai các ứng dụng AI, nút thắt cổ chai ẩn thường không phải là công nghệ – mà là quá trình thu thập, quản lý và dán nhãn dữ liệu theo từng lĩnh vực cụ thể kéo dài nhiều tháng. “Thuế dán nhãn dữ liệu” này đã buộc các nhà lãnh đạo kỹ thuật phải lựa chọn giữa việc trì hoãn triển khai hoặc chấp nhận hiệu suất không tối ưu từ các mô hình chung.
Databricks đang nhắm trực tiếp vào thách thức đó.
Tuần này, công ty đã công bố nghiên cứu về một phương pháp tiếp cận mới có tên là Tối ưu hóa thích ứng thời gian thử nghiệm (TAO). Ý tưởng cơ bản đằng sau phương pháp tiếp cận này là cho phép điều chỉnh mô hình ngôn ngữ lớn (LLM) cấp doanh nghiệp chỉ bằng dữ liệu đầu vào mà các công ty đã có – không yêu cầu nhãn – trong khi đạt được kết quả vượt trội hơn so với phương pháp tinh chỉnh truyền thống trên hàng nghìn ví dụ được gắn nhãn. Databricks bắt đầu là một nhà cung cấp nền tảng data lakehouse và ngày càng tập trung vào AI trong những năm gần đây. Databricks đã mua lại MosaicML với giá 1,3 tỷ đô la và đang liên tục triển khai các công cụ giúp các nhà phát triển tạo ứng dụng A I nhanh chóng. Nhóm nghiên cứu Mosaic tại Databricks đã phát triển phương pháp TAO mới.
Brandon Cui, trưởng nhóm học tăng cường và nhà khoa học nghiên cứu cao cấp tại Databricks, cho biết với VentureBeat rằng: “Việc gắn nhãn dữ liệu rất khó khăn và nhãn kém sẽ trực tiếp dẫn đến kết quả đầu ra kém, đây là lý do tại sao các phòng thí nghiệm biên giới sử dụng các nhà cung cấp nhãn dữ liệu để mua dữ liệu có chú thích của con người đắt tiền”. “Chúng tôi muốn gặp khách hàng ở nơi họ đang ở, nhãn là rào cản đối với việc áp dụng AI của doanh nghiệp và với TAO, điều đó không còn nữa”.
Đổi mới kỹ thuật: Cách TAO tái tạo tinh chỉnh LLM
Về bản chất, TAO thay đổi mô hình về cách các nhà phát triển cá nhân hóa các mô hình cho các miền cụ thể.
Thay vì phương pháp điều chỉnh có giám sát thông thường, đòi hỏi phải có các ví dụ đầu vào-đầu ra được ghép nối, TAO sử dụng phương pháp học tăng cường và khám phá có hệ thống để cải thiện các mô hình chỉ bằng cách sử dụng các truy vấn ví dụ.
Đường ống kỹ thuật sử dụng bốn cơ chế riêng biệt hoạt động phối hợp:
Tạo phản hồi khám phá : Hệ thống lấy các ví dụ đầu vào không có nhãn và tạo ra nhiều phản hồi tiềm năng cho mỗi ví dụ bằng cách sử dụng các kỹ thuật kỹ thuật nhắc nhở tiên tiến để khám phá không gian giải pháp.
Mô hình phần thưởng được hiệu chỉnh theo doanh nghiệp : Các phản hồi được tạo ra sẽ được đánh giá bằng Mô hình phần thưởng Databricks (DBRM), được thiết kế riêng để đánh giá hiệu suất thực hiện các nhiệm vụ của doanh nghiệp với trọng tâm là tính chính xác.
Tối ưu hóa mô hình dựa trên học tăng cường : Các tham số mô hình sau đó được tối ưu hóa thông qua học tăng cường, về cơ bản là dạy mô hình cách tạo ra phản hồi có điểm cao trực tiếp.
Bánh đà dữ liệu liên tục : Khi người dùng tương tác với hệ thống được triển khai, các dữ liệu đầu vào mới sẽ tự động được thu thập, tạo ra một vòng lặp tự cải thiện mà không cần thêm nỗ lực dán nhãn của con người.
Tính toán thời gian thử nghiệm không phải là một ý tưởng mới. OpenAI đã sử dụng tính toán thời gian thử nghiệm để phát triển mô hình lý luận o1 và DeepSeek đã áp dụng các kỹ thuật tương tự để đào tạo mô hình R1. Điểm khác biệt giữa TAO với các phương pháp tính toán thời gian thử nghiệm khác là trong khi sử dụng thêm tính toán trong quá trình đào tạo, mô hình được điều chỉnh cuối cùng có cùng chi phí suy luận như mô hình ban đầu. Điều này mang lại lợi thế quan trọng cho các triển khai sản xuất khi chi phí suy luận tăng theo mức sử dụng.
“TAO chỉ sử dụng tính toán bổ sung như một phần của quá trình đào tạo; nó không làm tăng chi phí suy luận của mô hình sau khi đào tạo”, Cui giải thích. “Về lâu dài, chúng tôi nghĩ rằng TAO và các phương pháp tính toán thời gian thử nghiệm như o1 và R1 sẽ bổ sung cho nhau—bạn có thể thực hiện cả hai”.
Điểm chuẩn cho thấy hiệu suất vượt trội đáng ngạc nhiên so với phương pháp tinh chỉnh truyền thống
Nghiên cứu của Databricks cho thấy TAO không chỉ phù hợp với tinh chỉnh truyền thống mà còn vượt trội hơn. Trên nhiều chuẩn mực liên quan đến doanh nghiệp, Databricks tuyên bố phương pháp này tốt hơn mặc dù sử dụng ít nỗ lực của con người hơn đáng kể.
Trên FinanceBench (một chuẩn mực về Q&A tài liệu tài chính), TAO đã cải thiện hiệu suất của Llama 3.1 8B thêm 24,7 điểm phần trăm và Llama 3.3 70B thêm 13,4 điểm. Đối với việc tạo SQL bằng chuẩn mực BIRD-SQL được điều chỉnh theo phương ngữ của Databricks, TAO đã cải thiện lần lượt 19,1 và 8,7 điểm.
Đáng chú ý nhất là Llama 3.3 70B được điều chỉnh bằng TAO có hiệu suất gần bằng GPT-4o và o3-mini trong các tiêu chuẩn này—các mẫu máy thường có giá cao hơn 10-20 lần để chạy trong môi trường sản xuất.
Điều này đưa ra một đề xuất giá trị hấp dẫn cho những người ra quyết định về mặt kỹ thuật: khả năng triển khai các mô hình nhỏ hơn, giá cả phải chăng hơn, có hiệu suất tương đương với các mô hình cao cấp khác trong các tác vụ cụ thể theo miền, mà không cần chi phí dán nhãn tốn kém theo truyền thống.

TAO mang lại lợi thế về thời gian đưa sản phẩm ra thị trường cho doanh nghiệp
Trong khi TAO mang lại lợi thế rõ ràng về chi phí bằng cách cho phép sử dụng các mô hình nhỏ hơn, hiệu quả hơn, giá trị lớn nhất của nó có thể nằm ở việc đẩy nhanh thời gian đưa sáng kiến AI ra thị trường.
“Chúng tôi nghĩ TAO giúp các doanh nghiệp tiết kiệm được thứ gì đó có giá trị hơn tiền bạc: nó giúp họ tiết kiệm thời gian”, Cui nhấn mạnh. “Việc gắn nhãn dữ liệu thường đòi hỏi phải vượt qua ranh giới tổ chức, thiết lập các quy trình mới, nhờ các chuyên gia về chủ đề thực hiện việc gắn nhãn và xác minh chất lượng. Các doanh nghiệp không có nhiều tháng để sắp xếp nhiều đơn vị kinh doanh chỉ để tạo nguyên mẫu cho một trường hợp sử dụng AI”.
Việc nén thời gian này tạo ra một lợi thế chiến lược. Ví dụ, một công ty dịch vụ tài chính triển khai giải pháp phân tích hợp đồng có thể bắt đầu triển khai và lặp lại chỉ bằng các hợp đồng mẫu, thay vì chờ các nhóm pháp lý dán nhãn hàng nghìn tài liệu. Tương tự như vậy, các tổ chức chăm sóc sức khỏe có thể cải thiện hệ thống hỗ trợ quyết định lâm sàng chỉ bằng cách sử dụng các truy vấn của bác sĩ, mà không cần phải có phản hồi của chuyên gia được ghép nối.
Cui cho biết: “Các nhà nghiên cứu của chúng tôi dành nhiều thời gian để trao đổi với khách hàng, hiểu được những thách thức thực sự mà họ phải đối mặt khi xây dựng hệ thống AI và phát triển các công nghệ mới để vượt qua những thách thức đó”. “Chúng tôi đã áp dụng TAO trên nhiều ứng dụng doanh nghiệp và giúp khách hàng liên tục lặp lại và cải thiện các mô hình của họ”.
Điều này có ý nghĩa gì đối với những người ra quyết định kỹ thuật
Đối với các doanh nghiệp muốn dẫn đầu trong việc áp dụng AI, TAO đại diện cho một điểm uốn tiềm năng trong cách triển khai các hệ thống AI chuyên biệt. Đạt được hiệu suất chất lượng cao, cụ thể theo miền mà không cần tập dữ liệu được gắn nhãn mở rộng sẽ loại bỏ một trong những rào cản quan trọng nhất đối với việc triển khai AI rộng rãi.
Cách tiếp cận này đặc biệt có lợi cho các tổ chức có nhiều dữ liệu phi cấu trúc và các yêu cầu cụ thể theo từng miền nhưng lại có nguồn lực hạn chế để dán nhãn thủ công – đây chính xác là tình huống mà nhiều doanh nghiệp đang gặp phải.
Khi AI ngày càng trở nên quan trọng đối với lợi thế cạnh tranh, các công nghệ rút ngắn thời gian từ khái niệm đến triển khai đồng thời cải thiện hiệu suất sẽ tách biệt những người dẫn đầu khỏi những kẻ tụt hậu. TAO dường như được định sẵn là một công nghệ như vậy, có khả năng cho phép các doanh nghiệp triển khai các khả năng AI chuyên biệt trong nhiều tuần thay vì nhiều tháng hoặc nhiều quý.