Cloud Dataproc trở nên thật hiệu quả đối với dữ liệu đã biết trước kích thước và bạn có khả năng sử dụng, quản lý. Nhưng trường hợp mới xảy ra khi bạn phải xử liệu dưới dạng realtime (có nghĩa dữ liệu liên tục được cập nhật và không thể biết rõ được kích thước các dữ liệu là bao nhiêu) => việc sử dụng Dataflow là cần trong trường hợp này
Dataflow là mô hình lập trình thống nhất vừa là dịch vụ được quản lý cho phép người quản trị phát triển và thực hiện một loạt các mẫu xử lý dữa liệu lớn, trích xuất (extract), biến đổi (transform), tính toán (load batch) và tính toán liên tục (continuous computation). Người quản trị sử dụng Dataflow để xây dựng các đường ống để truyền tải dữ liệu (nó giống như các luồng song song hoạt động đồng thời với nhau). Các đường ống (pipelines) là như nhau phục vụ cho cả batch (giống như lập lịch) và streaming data (dữ liệu liên tục)
Dataflow hoàn toàn tự động trong việc quản lý tài nguyên, vì vậy Cloud Dataflow giải phóng người quản trị khỏi các công việc như vận hành tài nguyên và tối ưu hóa hiệu năng.
Người xây dựng hệ thống thường sử dụng Dataflow giống như ETL tool phục vụ cho các mục đích:
- Phân tích các dữ liệu có ích trong các hoạt động gian lận tài chính
- Phân tích IOT trong sane xuất, chăm sóc sức khỏe
- Phân luông các giao dịch trong bán hàng thương mại điện tử
- Sử dụng để tăng hiệu suất của game nhờ công nghệ pipeline (đường ống) song song
0 Nhận xét