Databricks mở mã nguồn công cụ ETL khai báo, tăng tốc xây dựng pipeline tới 90%

Databricks công bố mở mã nguồn công cụ Spark Declarative Pipelines

Tại hội nghị Data + AI Summit 2025, Databricks thông báo mở mã nguồn khung ETL khai báo mang tên Apache Spark Declarative Pipelines. Công cụ này từng được biết đến dưới tên Delta Live Tables (DLT), ra mắt từ năm 2022, và hiện đã được ứng dụng rộng rãi để xây dựng các pipeline dữ liệu quy mô lớn.

Việc mở mã nguồn là động thái thể hiện cam kết của Databricks với cộng đồng mã nguồn mở, đồng thời là bước đi chiến lược nhằm đối đầu với Openflow – dịch vụ tích hợp dữ liệu mới ra mắt của đối thủ Snowflake.

Tối ưu hóa ETL với cú pháp khai báo – Spark xử lý phần còn lại

Đơn giản hóa pipeline, loại bỏ xử lý thủ công

Thay vì viết hàng trăm dòng mã procedural, các kỹ sư chỉ cần mô tả pipeline bằng SQL hoặc Python, Spark sẽ tự động:

Quản lý luồng dữ liệu
Theo dõi phụ thuộc giữa các bảng
Xử lý tạo bảng, cập nhật schema
Thực hiện checkpoint, retry, chạy song song, và đảm bảo ổn định khi vận hành

Hỗ trợ cả batch, streaming và dữ liệu bán cấu trúc

Spark Declarative Pipelines xử lý dữ liệu từ các hệ thống như Amazon S3, Google Cloud Storage, Azure Data Lake… hỗ trợ các định dạng phức tạp, cập nhật thời gian thực hoặc theo chu kỳ.

“Nếu Apache Spark xử lý được loại dữ liệu nào, thì declarative pipeline sẽ hỗ trợ được dữ liệu đó,” — Michael Armbrust, kỹ sư trưởng tại Databricks chia sẻ.

Hiệu quả được chứng minh qua thực tế

Công cụ mới này không chỉ là lý thuyết. Các tổ chức lớn như Block, Navy Federal Credit Union và 84.51° đã áp dụng với những kết quả rõ rệt:

Block: Rút ngắn thời gian phát triển pipeline hơn 90%
Navy FCU: Giảm thời gian bảo trì 99%
84.51°: Hợp nhất xử lý batch & streaming, giảm đáng kể mã cần viết

Đối đầu Snowflake – Một hướng đi khác biệt

Trong khi Snowflake sử dụng Apache NiFi làm nền tảng cho Openflow – chủ yếu phục vụ tích hợp và di chuyển dữ liệu, Databricks mở mã nguồn công cụ toàn diện, từ ingestion đến transform và xử lý.

❌ Snowflake: Tập trung đổ dữ liệu vào hệ thống, người dùng vẫn phải xử lý sau đó
✅ Databricks: Tạo pipeline đầu cuối có thể vận hành ngay, tối ưu cho AI và realtime analytics

Vì sao cộng đồng dữ liệu nên quan tâm?

Chạy được ở mọi nơi có Apache Spark

Người dùng không cần phải là khách hàng của Databricks. Mô hình mã nguồn mở cho phép triển khai trên:

Cloud riêng (self-hosted Spark clusters)
Nền tảng multi-cloud
Edge computing (cho use case có độ trễ thấp)

Kế thừa từ những dự án mã nguồn mở nổi bật khác

Databricks trước đó từng mở mã nguồn:

Delta Lake: Giao dịch dữ liệu trên cloud object storage
MLflow: Quản lý vòng đời mô hình AI
Unity Catalog: Quản lý dữ liệu & quyền truy cập

Lộ trình phát hành

Spark Declarative Pipelines sẽ được tích hợp vào mã nguồn chính thức của Apache Spark trong bản cập nhật sắp tới. Chưa có ngày cụ thể, nhưng đi kèm là bản thương mại Lakeflow Declarative Pipelines với tính năng doanh nghiệp và hỗ trợ kỹ thuật.

“Chúng tôi đã kiểm nghiệm công nghệ này trong 3 năm qua. Giờ là lúc nó sẵn sàng phục vụ cộng đồng,” — Michael Armbrust chia sẻ.

Tổng kết – Một kỷ nguyên mới cho Data Engineering

Spark Declarative Pipelines mở ra hướng tiếp cận mới cho kỹ sư dữ liệu:

📌 Viết ít mã hơn
🚀 Chạy nhanh hơn
🔁 Hợp nhất xử lý batch và streaming
🌐 Linh hoạt triển khai ở mọi nơi hỗ trợ Spark

Databricks mở mã nguồn công cụ ETL khai báo, tăng tốc xây dựng pipeline tới 90%

Databricks công bố mở mã nguồn công cụ Spark Declarative Pipelines

Tối ưu hóa ETL với cú pháp khai báo – Spark xử lý phần còn lại

Đơn giản hóa pipeline, loại bỏ xử lý thủ công

Hỗ trợ cả batch, streaming và dữ liệu bán cấu trúc

Hiệu quả được chứng minh qua thực tế

Đối đầu Snowflake – Một hướng đi khác biệt

Vì sao cộng đồng dữ liệu nên quan tâm?

Chạy được ở mọi nơi có Apache Spark

Kế thừa từ những dự án mã nguồn mở nổi bật khác

Lộ trình phát hành

Tổng kết – Một kỷ nguyên mới cho Data Engineering

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi