Sử dụng dataprep để xử lý dữ liệu trên google cloud
- Chọn Add Datasets, sau đó chọn tiếp Import Datasets.
Trong ngăn menu bên trái, chọn GCS để nhập bộ dữ liệu từ Cloud Storage, sau đó nhấp vào bút chì để chỉnh sửa đường dẫn tệp.- Nhấn Import & Add to Flow để kết thúc quá trình nhập liệu
c. Xử lý dữ liệu
Theo mặc định, tập dữ liệu Candidate Master 2016 được chọn. Trong ngăn bên phải, nhấp vào Chỉnh sửa công thức (Recipe).
Quá trình sẽ hiển thị dữ liệu dưới dạng grip view
Trang Transformer là nơi bạn xây dựng công thức biến đổi của mình và xem kết quả được áp dụng cho mẫu. Khi bạn hài lòng với những gì bạn thấy, hãy thực thi công việc dựa trên tập dữ liệu của bạn.
Mỗi đầu cột có Tên và giá trị chỉ định kiểu dữ liệu. Các loại dữ liệu được hiển thị khi bạn nhấp vào biểu tượng cờ:
Ngoài ra, khi bạn nhấp vào tên của cột, một bảng Chi tiết sẽ mở ra ở bên phải:
Nhấp vào X ở trên cùng bên phải của bảng.
Trong các bước sau, hãy khám phá dữ liệu trong chế độ xem lưới và áp dụng các bước chuyển đổi cho công thức của bạn.
- Column5 cung cấp dữ liệu từ 1990-2064. Mở rộng cột 5 (giống như bạn làm trên bảng tính) để tách từng năm. Nhấp để chọn thùng cao nhất, đại diện cho năm 2016.
Điều này tạo ra một bước nơi các giá trị này được chọn.
- Bắt đầu từ bước này sẽ để dưới dạng tiếng anh để giữ được nghĩa chính xác nhất nhé:
- In the Suggestions panel on the right, in the Keep rows section, click Add to add this step your recipe.
The Recipe panel on the right now has the following step:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2017, 1, 1))
- In Column6 (State), hover over and click on the mismatched (red) portion of the header to select the mismatched rows.
Scroll down to find the mismatched values and notice how most of these records have the value "P" in column7, and "US" in column6. The mismatch occurs because column6 is marked as a "State" column (indicated by the flag icon), but there are non-state (such as "US") values.
- To correct the mismatch, click X in the top of the Suggestions panel to cancel the transformation, then click on the flag icon in Column6 and change it to a "String" column.
There is no longer a mismatch and the column marker is now green.
- Filter on just the presidential candidates, which are those records that have the value "P" in column7. In the histogram for column7, hover over the two bins to see which is "H" and which is "P". Click the "P" bin.
- In the right Suggestions panel, click Add to accept the step to the recipe.
0 Nhận xét