Công ty khởi nghiệp AI của Pháp được tài trợ mạnh mẽ Mistral hài lòng với việc đi theo con đường riêng của mình.
Trong vô vàn các mô hình lý luận cạnh tranh, công ty đã giới thiệu Mistral OCR , một API nhận dạng ký tự quang học (OCR) mới được thiết kế để cung cấp khả năng hiểu tài liệu nâng cao.
API trích xuất nội dung — bao gồm ghi chú viết tay, văn bản đánh máy, hình ảnh, bảng biểu và phương trình — từ các tệp PDF và hình ảnh phi cấu trúc với độ chính xác cao, trình bày theo định dạng có cấu trúc.
Dữ liệu có cấu trúc là thông tin được sắp xếp theo cách được xác định trước, thường sử dụng hàng và cột, giúp dễ dàng tìm kiếm và phân tích. Các ví dụ phổ biến bao gồm tên, địa chỉ và giao dịch tài chính được lưu trữ trong cơ sở dữ liệu hoặc bảng tính.
Ngược lại, dữ liệu phi cấu trúc thiếu định dạng hoặc cấu trúc cụ thể, khiến việc xử lý và phân tích trở nên khó khăn hơn. Danh mục này bao gồm nhiều loại dữ liệu, chẳng hạn như email, bài đăng trên mạng xã hội, video, hình ảnh và tệp âm thanh. Vì dữ liệu phi cấu trúc không phù hợp với cơ sở dữ liệu truyền thống nên các công cụ và kỹ thuật chuyên biệt, như xử lý ngôn ngữ tự nhiên (NLP) và học máy (ML), thường được sử dụng để trích xuất thông tin chi tiết có ý nghĩa.
Việc hiểu được sự khác biệt giữa các loại dữ liệu này rất quan trọng đối với các doanh nghiệp muốn quản lý và tận dụng hiệu quả các tài sản thông tin của mình.
Với khả năng hỗ trợ đa ngôn ngữ, tốc độ xử lý nhanh và tích hợp với các mô hình ngôn ngữ lớn (LLM) để hiểu tài liệu, Mistral OCR có khả năng hỗ trợ các tổ chức biến tài liệu của họ thành tài liệu AI.
Theo bài đăng trên blog của Mistral khi công bố API mới, 90% thông tin kinh doanh đều không có cấu trúc, API mới sẽ là một lợi ích to lớn cho các tổ chức muốn số hóa và lập danh mục dữ liệu của họ để sử dụng trong các ứng dụng AI hoặc cơ sở kiến thức nội bộ/bên ngoài.
Mistral thiết lập một tiêu chuẩn vàng mới cho OCR
Mistral OCR hướng đến mục tiêu cải thiện cách các tổ chức xử lý và phân tích các tài liệu phức tạp.
Không giống như các giải pháp OCR truyền thống chủ yếu tập trung vào trích xuất văn bản, Mistral OCR được thiết kế để diễn giải nhiều yếu tố và ký tự kiểu chữ trong tài liệu, bao gồm bảng biểu, biểu thức toán học và hình ảnh xen kẽ, đồng thời vẫn duy trì đầu ra có cấu trúc.
Theo giám đốc khoa học của Mistral là Guillaume Lample, công nghệ này là bước tiến đáng kể hướng tới việc áp dụng AI rộng rãi hơn trong các doanh nghiệp, đặc biệt là đối với các công ty muốn đơn giản hóa việc truy cập vào tài liệu nội bộ của mình.
API đã được tích hợp vào Le Chat, ứng dụng được hàng triệu người dùng tin tưởng sử dụng để xử lý tài liệu.
Hiện nay, các nhà phát triển và doanh nghiệp có thể truy cập mô hình thông qua la Plateforme, bộ công cụ dành cho nhà phát triển của Mistral .
API cũng dự kiến sẽ có sẵn thông qua các đối tác đám mây và suy luận và sẽ cung cấp dịch vụ triển khai tại chỗ cho các tổ chức có yêu cầu bảo mật cao.
Tiến bộ công nghệ máy tính sớm (70 năm tuổi)
Công nghệ OCR đã đóng vai trò quan trọng trong việc tự động hóa việc trích xuất dữ liệu và số hóa tài liệu trong nhiều thập kỷ. Máy OCR thương mại đầu tiên được phát triển vào những năm 1950 bởi David Shepard và các đồng nghiệp Harvey và William Lawless Jr., những người đã thành lập Intelligent Machines Research Co. (IMR) để đưa công nghệ này ra thị trường.
Hệ thống này đã thu hút được sự chú ý khi Reader’s Digest trở thành khách hàng lớn đầu tiên, tiếp theo là các ngân hàng, công ty viễn thông như AT&T và các công ty dầu mỏ lớn.
Năm 1959, IBM đã cấp phép bằng sáng chế cho IMR và giới thiệu máy OCR của riêng mình, chính thức hóa thuật ngữ này thành tiêu chuẩn của ngành.
Kể từ đó, công nghệ OCR tiếp tục phát triển, kết hợp AI và ML để cải thiện độ chính xác, mở rộng hỗ trợ ngôn ngữ và xử lý các định dạng tài liệu ngày càng phức tạp và có thể được tìm thấy trong các phần mềm doanh nghiệp hàng đầu như trình đọc PDF Adobe Acrobat .
Mistral OCR đại diện cho bước tiếp theo trong quá trình phát triển này vì nó tận dụng AI để nâng cao khả năng hiểu tài liệu vượt ra ngoài khả năng nhận dạng văn bản đơn thuần.
Điểm chuẩn cho thấy sức mạnh của Mistral OCR
Mistral nhấn mạnh lợi thế cạnh tranh của OCR so với các công cụ hiện có, trích dẫn các bài kiểm tra chuẩn cho thấy công cụ này vượt trội hơn các giải pháp thay thế chính bao gồm Google Document AI, Azure OCR và GPT-4o của OpenAI.
Mô hình đạt điểm chính xác cao nhất trong nhận dạng toán học, tài liệu được quét và xử lý văn bản đa ngôn ngữ.

Mistral OCR cũng được thiết kế để hoạt động nhanh hơn các mẫu máy cạnh tranh và có khả năng xử lý tới 2.000 trang mỗi phút trên một nút duy nhất.
Ưu điểm về tốc độ này khiến nó phù hợp để xử lý khối lượng tài liệu lớn trong các ngành như nghiên cứu, dịch vụ khách hàng và lưu giữ lịch sử.
Sophia Yang, giám đốc quan hệ nhà phát triển tại Mistral, đã tích cực giới thiệu các khả năng OCR trên tài khoản X của mình. Đáng chú ý, cô đã nêu bật các chuẩn hiệu suất hàng đầu, hỗ trợ đa ngôn ngữ và khả năng trích xuất chính xác các phương trình toán học từ PDF.
Trong bài đăng gần đây , cô đã chia sẻ một ví dụ về việc Mistral OCR có thể nhận dạng và định dạng thành công các biểu thức toán học phức tạp, củng cố hiệu quả của nó đối với các ứng dụng khoa học và học thuật.
Các tính năng chính và trường hợp sử dụng
Mistral OCR giới thiệu một số tính năng giúp nó trở thành công cụ đa năng cho các doanh nghiệp và tổ chức xử lý kho lưu trữ tài liệu lớn:
- Xử lý đa ngôn ngữ và đa phương thức: Mô hình hỗ trợ nhiều ngôn ngữ, tập lệnh và bố cục tài liệu, giúp ích cho các tổ chức toàn cầu. Yang nhấn mạnh khả năng này, gọi đây là bước đột phá trong xử lý tài liệu đa ngôn ngữ.
- Đầu ra có cấu trúc và bảo toàn hệ thống phân cấp tài liệu: Không giống như các mô hình OCR cơ bản, Mistral OCR giữ nguyên các thành phần định dạng như tiêu đề, đoạn văn, danh sách và bảng, đảm bảo văn bản được trích xuất hữu ích hơn cho các ứng dụng tiếp theo.
- Đầu ra có cấu trúc và theo dấu nhắc : Người dùng có thể trích xuất nội dung cụ thể và định dạng nội dung đó thành đầu ra có cấu trúc, chẳng hạn như JSON hoặc Markdown, cho phép tích hợp với các quy trình làm việc khác do AI điều khiển.
- Tùy chọn tự lưu trữ : Các tổ chức có yêu cầu nghiêm ngặt về bảo mật dữ liệu và tuân thủ có thể triển khai Mistral OCR trong cơ sở hạ tầng của riêng họ.
Tài liệu trực tuyến dành cho nhà phát triển Mistral AI cũng nêu bật khả năng hiểu tài liệu vượt xa OCR. Sau khi trích xuất văn bản và cấu trúc, Mistral OCR tích hợp với LLM, cho phép người dùng tương tác với nội dung tài liệu bằng các truy vấn ngôn ngữ tự nhiên. Tính năng này cho phép:
- Trả lời câu hỏi về nội dung cụ thể của tài liệu;
- Tự động trích xuất và tóm tắt thông tin;
- Phân tích so sánh giữa nhiều tài liệu;
- Phản hồi theo ngữ cảnh, xem xét toàn bộ tài liệu.
Những người ra quyết định doanh nghiệp cần biết gì về Mistral OCR
Đối với các CEO, CIO, CTO, quản lý CNTT và trưởng nhóm, Mistral OCR mang đến những cơ hội đáng kể về hiệu quả, bảo mật và khả năng mở rộng trong quy trình làm việc dựa trên tài liệu.
1. Tăng hiệu quả và tiết kiệm chi phí
Bằng cách tự động hóa quá trình xử lý tài liệu và giảm nhập dữ liệu thủ công, Mistral OCR cắt giảm chi phí hành chính và hợp lý hóa hoạt động. Các tổ chức có thể xử lý khối lượng lớn tài liệu nhanh hơn và chính xác hơn, giảm nhu cầu can thiệp của con người. Điều này đặc biệt có giá trị đối với các ngành như tài chính, chăm sóc sức khỏe, pháp lý và tuân thủ, nơi mà giấy tờ cồng kềnh là một nút thắt cổ chai.
2. Nâng cao khả năng ra quyết định với thông tin chi tiết do AI thúc đẩy
Khả năng hiểu tài liệu của Mistral OCR cho phép người ra quyết định trích xuất thông tin chi tiết có thể hành động từ các báo cáo, hợp đồng, tài liệu tài chính và bài nghiên cứu. Các nhà lãnh đạo CNTT có thể tích hợp API vào nền tảng trí tuệ kinh doanh, cho phép phân tích tài liệu được hỗ trợ bởi AI, hỗ trợ ra quyết định nhanh hơn dựa trên dữ liệu.
3. Cải thiện bảo mật dữ liệu và tuân thủ
Với tùy chọn triển khai tại chỗ, Mistral OCR đáp ứng nhu cầu bảo mật và tuân thủ của các doanh nghiệp xử lý dữ liệu nhạy cảm hoặc được phân loại. Các CIO và nhân viên tuân thủ có thể đảm bảo thông tin độc quyền vẫn nằm trong cơ sở hạ tầng nội bộ trong khi tận dụng AI để xử lý tài liệu.
4. Tích hợp liền mạch với quy trình làm việc của doanh nghiệp
Các giám đốc công nghệ và quản lý CNTT có thể tích hợp Mistral OCR với các hệ thống doanh nghiệp hiện có, bao gồm nền tảng quản lý nội dung, phần mềm CRM, giải pháp công nghệ pháp lý và trợ lý do AI điều khiển. Hỗ trợ của API cho các đầu ra có cấu trúc (JSON, Markdown) giúp dễ dàng tự động hóa các quy trình làm việc dựa trên tài liệu, cải thiện năng suất chung.
5. Lợi thế cạnh tranh thông qua đổi mới do AI thúc đẩy
Đối với các tổ chức muốn đi đầu trong quá trình chuyển đổi số, Mistral OCR cung cấp giải pháp có khả năng mở rộng được hỗ trợ bởi AI để giúp các kho lưu trữ tài liệu lớn dễ truy cập hơn. Bằng cách tận dụng AI để trích xuất thông tin, các doanh nghiệp có thể nâng cao trải nghiệm của khách hàng, tối ưu hóa cơ sở kiến thức nội bộ và giảm tình trạng kém hiệu quả trong hoạt động.
Giá cả và tính khả dụng
Giá của Mistral OCR là 1.000 trang với giá 1 đô la, trong khi giá của dịch vụ suy luận hàng loạt là 2.000 trang với giá 1 đô la.
API hiện có sẵn trên la Plateforme và Mistral có kế hoạch mở rộng sang các đối tác đám mây và suy luận trong tương lai gần. Mô hình này cũng miễn phí dùng thử trên trang web Le Chat của Mistral , một chatbot đàm thoại được hỗ trợ bởi LLM tương tự và cạnh tranh với ChatGPT của OpenAI, cho phép người dùng kiểm tra khả năng của nó trước khi tích hợp vào quy trình làm việc của họ. Mistral AI hy vọng sẽ tiếp tục cải thiện mô hình dựa trên phản hồi của người dùng trong những tuần tới.
Khi tôi thử nghiệm nhanh trên một tờ giấy viết tay ngắn (và lộn xộn), nó đã trả về một dòng văn bản có cấu trúc chính xác trong vòng chưa đầy một giây.
Tiếp theo là gì?
Với Mistral OCR, Mistral AI tiếp tục mở rộng bộ công cụ dựa trên AI, hướng đến các doanh nghiệp yêu cầu giải pháp xử lý tài liệu hiệu suất cao.
Bằng cách tích hợp OCR với khả năng hiểu tài liệu dựa trên AI, Mistral cho phép các doanh nghiệp trích xuất, phân tích và tương tác với tài liệu của họ theo những cách thông minh hơn.
Các nhà lãnh đạo doanh nghiệp, nhà phát triển và nhóm CNTT có thể khám phá Mistral OCR thông qua la Plateforme hoặc yêu cầu triển khai tại chỗ cho các trường hợp sử dụng chuyên biệt.
Các nhà phát triển cũng có thể tham khảo tài liệu của Mistral AI để bắt đầu sử dụng mistral-ocr-latest.