Chủ Nhật, Tháng 6 15, 2025

Databricks mở mã nguồn công cụ ETL khai báo, tăng tốc xây dựng pipeline tới 90%

Databricks công bố mở mã nguồn công cụ Spark Declarative Pipelines

Tại hội nghị Data + AI Summit 2025, Databricks thông báo mở mã nguồn khung ETL khai báo mang tên Apache Spark Declarative Pipelines. Công cụ này từng được biết đến dưới tên Delta Live Tables (DLT), ra mắt từ năm 2022, và hiện đã được ứng dụng rộng rãi để xây dựng các pipeline dữ liệu quy mô lớn.

Việc mở mã nguồn là động thái thể hiện cam kết của Databricks với cộng đồng mã nguồn mở, đồng thời là bước đi chiến lược nhằm đối đầu với Openflow – dịch vụ tích hợp dữ liệu mới ra mắt của đối thủ Snowflake.

Tối ưu hóa ETL với cú pháp khai báo – Spark xử lý phần còn lại

Đơn giản hóa pipeline, loại bỏ xử lý thủ công

Thay vì viết hàng trăm dòng mã procedural, các kỹ sư chỉ cần mô tả pipeline bằng SQL hoặc Python, Spark sẽ tự động:

  • Quản lý luồng dữ liệu
  • Theo dõi phụ thuộc giữa các bảng
  • Xử lý tạo bảng, cập nhật schema
  • Thực hiện checkpoint, retry, chạy song song, và đảm bảo ổn định khi vận hành

Hỗ trợ cả batch, streaming và dữ liệu bán cấu trúc

Spark Declarative Pipelines xử lý dữ liệu từ các hệ thống như Amazon S3, Google Cloud Storage, Azure Data Lake… hỗ trợ các định dạng phức tạp, cập nhật thời gian thực hoặc theo chu kỳ.

“Nếu Apache Spark xử lý được loại dữ liệu nào, thì declarative pipeline sẽ hỗ trợ được dữ liệu đó,” — Michael Armbrust, kỹ sư trưởng tại Databricks chia sẻ.

Hiệu quả được chứng minh qua thực tế

Công cụ mới này không chỉ là lý thuyết. Các tổ chức lớn như Block, Navy Federal Credit Union84.51° đã áp dụng với những kết quả rõ rệt:

  • Block: Rút ngắn thời gian phát triển pipeline hơn 90%
  • Navy FCU: Giảm thời gian bảo trì 99%
  • 84.51°: Hợp nhất xử lý batch & streaming, giảm đáng kể mã cần viết

Đối đầu Snowflake – Một hướng đi khác biệt

Trong khi Snowflake sử dụng Apache NiFi làm nền tảng cho Openflow – chủ yếu phục vụ tích hợp và di chuyển dữ liệu, Databricks mở mã nguồn công cụ toàn diện, từ ingestion đến transform và xử lý.

  • ❌ Snowflake: Tập trung đổ dữ liệu vào hệ thống, người dùng vẫn phải xử lý sau đó
  • ✅ Databricks: Tạo pipeline đầu cuối có thể vận hành ngay, tối ưu cho AI và realtime analytics

Vì sao cộng đồng dữ liệu nên quan tâm?

Chạy được ở mọi nơi có Apache Spark

Người dùng không cần phải là khách hàng của Databricks. Mô hình mã nguồn mở cho phép triển khai trên:

  • Cloud riêng (self-hosted Spark clusters)
  • Nền tảng multi-cloud
  • Edge computing (cho use case có độ trễ thấp)

Kế thừa từ những dự án mã nguồn mở nổi bật khác

Databricks trước đó từng mở mã nguồn:

  • Delta Lake: Giao dịch dữ liệu trên cloud object storage
  • MLflow: Quản lý vòng đời mô hình AI
  • Unity Catalog: Quản lý dữ liệu & quyền truy cập

Lộ trình phát hành

Spark Declarative Pipelines sẽ được tích hợp vào mã nguồn chính thức của Apache Spark trong bản cập nhật sắp tới. Chưa có ngày cụ thể, nhưng đi kèm là bản thương mại Lakeflow Declarative Pipelines với tính năng doanh nghiệp và hỗ trợ kỹ thuật.

“Chúng tôi đã kiểm nghiệm công nghệ này trong 3 năm qua. Giờ là lúc nó sẵn sàng phục vụ cộng đồng,” — Michael Armbrust chia sẻ.

Tổng kết – Một kỷ nguyên mới cho Data Engineering

Spark Declarative Pipelines mở ra hướng tiếp cận mới cho kỹ sư dữ liệu:

  • 📌 Viết ít mã hơn
  • 🚀 Chạy nhanh hơn
  • 🔁 Hợp nhất xử lý batch và streaming
  • 🌐 Linh hoạt triển khai ở mọi nơi hỗ trợ Spark

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Google DeepMind ra mắt mô hình AI thay đổi vĩnh viễn dự báo bão

DeepMind hợp tác với Trung tâm Bão Quốc gia...

Microsoft và OpenAI “chia tay”: Ai sẽ nắm giữ quyền lực AI toàn cầu?

Mối quan hệ từng được ví như “bromance” công...

OpenAI tung o3-pro, giảm giá o3 đến 80%

Model mới cùng chiến lược giá mạnh tay của...

Meta đầu tư 15 tỷ USD vào Scale AI, theo đuổi tham vọng siêu trí tuệ

Meta đang tái định hướng chiến lược AI bằng...

GenAI có phải là “thuốc gây nghiện” khiến chi phí công nghệ leo thang?

Trong khi nhiều giám đốc công nghệ than phiền...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »