Sử dụng dataprep để xử lý dữ liệu trên google cloud

 Sử dụng dataprep để xử lý dữ liệu trên google cloud 

1. Dataprep là gì ?

Dataprep là 1 dịch vụ của google kết hợp với nhà cung cấp Trifacta để xử lý dữ liệu thông minh từ đó  khám phá, làm sạch và chuẩn bị dữ liệu có cấu trúc và phi cấu trúc để phân tích, báo cáo và học máy một cách trực quan. 
Vì Dataprep không sử dụng máy chủ (serverless) và hoạt động ở mọi quy mô (có khả năng tự scale), nên không có cơ sở hạ tầng để triển khai hoặc quản lý. 
Chuyển đổi dữ liệu được thực hiện trên giao diện người dùng, vì vậy người sử dụng sẽ không cần phải viết code để xử lý.

2. Mô hình sử dụng dataprep trên google cloud 
Hình 1: Mô hình sử dụng dataprep trên GCP

Dữ liệu thường được tích hợp từ các nguồn như google cloud Bigquery, cloud storage hoặc cá file dữ liệu CSV được upload trực tiếp sẽ có rất nhiều trường hợp cần phải lọc và xử lý trước khi được đưa vào kho dữ liệu tập trung 

Dữ liệu sau khi được xử lý sẽ giảm thiểu được các sai số và khi người sử dụng tạo báo cáo trên các BI tool như tableau hoặc trên salesforce sẽ có độ chính xác và sai số thấp hơn rất nhiều khi dữ liệu chưa được xử lý. Vậy các tính năng cơ bản của Dataprep là gì và sử dụng chúng ra sao để đạt được hiệu quả tốt nhất ?

3. Các tính năng cơ bản của dataprep

Làm sạch nhiệm vụ
Đổi tên các cột
Xử lý tên cột
Thay đổi kiểu dữ liệu cột
Sao chép và dán các cột
Tạo cột theo ví dụ
Thêm quy tắc chất lượng dữ liệu
Xóa dữ liệu
Dữ liệu trùng lặp
So sánh các giá trị
Thay thế giá trị ô
Thay thế các nhóm giá trị
Chuẩn hóa giá trị số
Chuẩn hóa sử dụng các mẫu
Sửa đổi giá trị chuỗi
Quản lý độ dài chuỗi
Trích xuất giá trị
Định dạng ngày
Áp dụng các phép biến đổi có điều kiện
Chuẩn bị dữ liệu cho học máy
Thay thế các giá trị bằng cách sử dụng các mẫu
Nhiệm vụ làm giàu
Thêm hai cột
Tạo khóa chính
Thêm dữ liệu tra cứu
Nối tập dữ liệu
Tham gia dữ liệu
Chèn siêu dữ liệu
Tạo cột mới

Dưới đây là 1 ví dụ cơ bản từ bước import dữ liệu -> xử lý (clean data)
Bước đầu tiên hãy xem qua video này để hình dung sơ bộ các bước trước khi đọc chi tiết các bước thông qua document

Ví dụ phía dưới được lấy từ Qwik lab (Tham khảo chi tiết)

    a.Tạo flow để xử lý dữ liệu 
Cloud Dataprep sử dụng không gian làm việc luồng (flow) để truy cập và thao tác các tập dữ liệu.

Nhập thông tin của flow và mô tả ý nghĩa của flow để có thể tiện tra cứu sau này 
Click OK để hoàn tất việc tạo flow 

 
    b. Import datasets
  1. Chọn Add Datasets, sau đó chọn tiếp Import Datasets.

  2. Trong ngăn menu bên trái, chọn GCS để nhập bộ dữ liệu từ Cloud Storage, sau đó nhấp vào bút chì để chỉnh sửa đường dẫn tệp.
  3. Nhấn Import & Add to Flow để kết thúc quá trình nhập liệu
  4. c. Xử lý dữ liệu

    Theo mặc định, tập dữ liệu Candidate Master 2016 được chọn. Trong ngăn bên phải, nhấp vào Chỉnh sửa công thức (Recipe).

    dataprep-recipe.png

    Quá trình sẽ hiển thị dữ liệu dưới dạng grip view

    transformer-page.png

    Trang Transformer là nơi bạn xây dựng công thức biến đổi của mình và xem kết quả được áp dụng cho mẫu. Khi bạn hài lòng với những gì bạn thấy, hãy thực thi công việc dựa trên tập dữ liệu của bạn.

    Mỗi đầu cột có Tên và giá trị chỉ định kiểu dữ liệu. Các loại dữ liệu được hiển thị khi bạn nhấp vào biểu tượng cờ:

    datatypes.png

    Ngoài ra, khi bạn nhấp vào tên của cột, một bảng Chi tiết sẽ mở ra ở bên phải:

    details_panel.png

    Nhấp vào X ở trên cùng bên phải của bảng.

    Trong các bước sau, hãy khám phá dữ liệu trong chế độ xem lưới và áp dụng các bước chuyển đổi cho công thức của bạn.

    1. Column5 cung cấp dữ liệu từ 1990-2064. Mở rộng cột 5 (giống như bạn làm trên bảng tính) để tách từng năm. Nhấp để chọn thùng cao nhất, đại diện cho năm 2016.

    dataprep-column5.png

    Điều này tạo ra một bước nơi các giá trị này được chọn.

    1. Bắt đầu từ bước này sẽ để dưới dạng tiếng anh để giữ được nghĩa chính xác nhất nhé:
    2. In the Suggestions panel on the right, in the Keep rows section, click Add to add this step your recipe.

    recipe-step.png

    The Recipe panel on the right now has the following step:

    Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2017, 1, 1))

    1. In Column6 (State), hover over and click on the mismatched (red) portion of the header to select the mismatched rows.

    3cdb3803ef49636b.png

    Scroll down to find the mismatched values and notice how most of these records have the value "P" in column7, and "US" in column6. The mismatch occurs because column6 is marked as a "State" column (indicated by the flag icon), but there are non-state (such as "US") values.

    1. To correct the mismatch, click X in the top of the Suggestions panel to cancel the transformation, then click on the flag icon in Column6 and change it to a "String" column.

    84cfd42fcab33662.png

    There is no longer a mismatch and the column marker is now green.

    1. Filter on just the presidential candidates, which are those records that have the value "P" in column7. In the histogram for column7, hover over the two bins to see which is "H" and which is "P". Click the "P" bin.

    328626b128b93f1.png

    1. In the right Suggestions panel, click Add to accept the step to the recipe.

    Dataprep_row_7



Đăng nhận xét

0 Nhận xét