Databricks công bố mở mã nguồn công cụ Spark Declarative Pipelines
Tại hội nghị Data + AI Summit 2025, Databricks thông báo mở mã nguồn khung ETL khai báo mang tên Apache Spark Declarative Pipelines. Công cụ này từng được biết đến dưới tên Delta Live Tables (DLT), ra mắt từ năm 2022, và hiện đã được ứng dụng rộng rãi để xây dựng các pipeline dữ liệu quy mô lớn.
Việc mở mã nguồn là động thái thể hiện cam kết của Databricks với cộng đồng mã nguồn mở, đồng thời là bước đi chiến lược nhằm đối đầu với Openflow – dịch vụ tích hợp dữ liệu mới ra mắt của đối thủ Snowflake.
Tối ưu hóa ETL với cú pháp khai báo – Spark xử lý phần còn lại
Đơn giản hóa pipeline, loại bỏ xử lý thủ công
Thay vì viết hàng trăm dòng mã procedural, các kỹ sư chỉ cần mô tả pipeline bằng SQL hoặc Python, Spark sẽ tự động:
- Quản lý luồng dữ liệu
- Theo dõi phụ thuộc giữa các bảng
- Xử lý tạo bảng, cập nhật schema
- Thực hiện checkpoint, retry, chạy song song, và đảm bảo ổn định khi vận hành
Hỗ trợ cả batch, streaming và dữ liệu bán cấu trúc
Spark Declarative Pipelines xử lý dữ liệu từ các hệ thống như Amazon S3, Google Cloud Storage, Azure Data Lake… hỗ trợ các định dạng phức tạp, cập nhật thời gian thực hoặc theo chu kỳ.
“Nếu Apache Spark xử lý được loại dữ liệu nào, thì declarative pipeline sẽ hỗ trợ được dữ liệu đó,” — Michael Armbrust, kỹ sư trưởng tại Databricks chia sẻ.
Hiệu quả được chứng minh qua thực tế
Công cụ mới này không chỉ là lý thuyết. Các tổ chức lớn như Block, Navy Federal Credit Union và 84.51° đã áp dụng với những kết quả rõ rệt:
- Block: Rút ngắn thời gian phát triển pipeline hơn 90%
- Navy FCU: Giảm thời gian bảo trì 99%
- 84.51°: Hợp nhất xử lý batch & streaming, giảm đáng kể mã cần viết
Đối đầu Snowflake – Một hướng đi khác biệt
Trong khi Snowflake sử dụng Apache NiFi làm nền tảng cho Openflow – chủ yếu phục vụ tích hợp và di chuyển dữ liệu, Databricks mở mã nguồn công cụ toàn diện, từ ingestion đến transform và xử lý.
- ❌ Snowflake: Tập trung đổ dữ liệu vào hệ thống, người dùng vẫn phải xử lý sau đó
- ✅ Databricks: Tạo pipeline đầu cuối có thể vận hành ngay, tối ưu cho AI và realtime analytics
Vì sao cộng đồng dữ liệu nên quan tâm?
Chạy được ở mọi nơi có Apache Spark
Người dùng không cần phải là khách hàng của Databricks. Mô hình mã nguồn mở cho phép triển khai trên:
- Cloud riêng (self-hosted Spark clusters)
- Nền tảng multi-cloud
- Edge computing (cho use case có độ trễ thấp)
Kế thừa từ những dự án mã nguồn mở nổi bật khác
Databricks trước đó từng mở mã nguồn:
- Delta Lake: Giao dịch dữ liệu trên cloud object storage
- MLflow: Quản lý vòng đời mô hình AI
- Unity Catalog: Quản lý dữ liệu & quyền truy cập
Lộ trình phát hành
Spark Declarative Pipelines sẽ được tích hợp vào mã nguồn chính thức của Apache Spark trong bản cập nhật sắp tới. Chưa có ngày cụ thể, nhưng đi kèm là bản thương mại Lakeflow Declarative Pipelines với tính năng doanh nghiệp và hỗ trợ kỹ thuật.
“Chúng tôi đã kiểm nghiệm công nghệ này trong 3 năm qua. Giờ là lúc nó sẵn sàng phục vụ cộng đồng,” — Michael Armbrust chia sẻ.
Tổng kết – Một kỷ nguyên mới cho Data Engineering
Spark Declarative Pipelines mở ra hướng tiếp cận mới cho kỹ sư dữ liệu:
- 📌 Viết ít mã hơn
- 🚀 Chạy nhanh hơn
- 🔁 Hợp nhất xử lý batch và streaming
- 🌐 Linh hoạt triển khai ở mọi nơi hỗ trợ Spark