LIÊN HỆ ĐỘI NGŨ TƯ VẤN
Liên hệ với đội ngũ chuyên gia GCS để được hỗ trợ một cách tốt nhất
Xử lý dữ liệu dòng và dữ liệu lô thống nhất mà không cần máy chủ, nhanh chóng và hiệu quả về chi phí.
Khách hàng mới nhận được $300 miễn phí để sử dụng trên Dataflow.
Thông tin và kích hoạt thời gian thực với luồng dữ liệu và học máy
Dịch vụ xử lý dữ liệu hoàn toàn quản lý
Tự động cung cấp và quản lý tài nguyên xử lý
Tự động điều chỉnh quy mô ngang và dọc của tài nguyên làm việc để tối đa hóa việc sử dụng tài nguyên
Sự đổi mới do cộng đồng OSS thúc đẩy với Apache Beam SDK
3:42
Dataflow cho phép phát triển đường truyền dữ liệu trực tuyến nhanh chóng, đơn giản với độ trễ dữ liệu thấp hơn.
Cho phép các nhóm tập trung vào lập trình thay vì quản lý cụm máy chủ vì phương pháp không máy chủ của Dataflow giúp loại bỏ chi phí vận hành khỏi khối lượng công việc kỹ thuật dữ liệu.
Tính năng tự động điều chỉnh tài nguyên kết hợp với khả năng xử lý hàng loạt được tối ưu hóa về chi phí có nghĩa là Dataflow cung cấp khả năng gần như vô hạn để quản lý khối lượng công việc theo mùa và đột xuất của bạn mà không tốn kém.
CÁC TÍNH NĂNG CHÍNH
Được hỗ trợ thông qua các tính năng ML tích hợp sẵn bao gồm GPU NVIDIA và các mẫu sẵn sàng sử dụng, khả năng AI thời gian thực của Dataflow cho phép phản ứng theo thời gian thực với trí thông minh gần bằng con người đối với lượng sự kiện lớn.
Khách hàng có thể xây dựng các giải pháp thông minh từ phân tích dự đoán và phát hiện bất thường đến cá nhân hóa theo thời gian thực và các trường hợp sử dụng phân tích nâng cao khác.
Đào tạo, triển khai và quản lý toàn bộ quy trình học máy (ML) , bao gồm suy luận cục bộ và từ xa với quy trình xử lý hàng loạt và phát trực tuyến.
Giảm thiểu độ trễ của đường ống, tối đa hóa việc sử dụng tài nguyên và giảm chi phí xử lý cho mỗi bản ghi dữ liệu với tính năng tự động điều chỉnh tài nguyên theo dữ liệu. Dữ liệu đầu vào được phân vùng tự động và liên tục cân bằng lại để cân bằng việc sử dụng tài nguyên của công nhân và giảm tác động của “phím nóng” lên hiệu suất đường ống.
Quan sát dữ liệu tại mỗi bước của đường ống Dataflow. Chẩn đoán sự cố và khắc phục sự cố hiệu quả với các mẫu dữ liệu thực tế. So sánh các lần chạy khác nhau của công việc để dễ dàng xác định sự cố.
3:42
TIN TỨC MỚI
TÀI LIỆU
Đào tạo cơ bản về mọi thứ bạn cần biết về Dataflow.
Thiết lập dự án Google Cloud và môi trường phát triển Python, tải Apache Beam Python SDK và chạy và sửa đổi ví dụ WordCount trên dịch vụ Dataflow.
Tạo truy vấn SQL và triển khai tác vụ Dataflow để chạy truy vấn của bạn từ Giao diện người dùng SQL Dataflow.
Cài đặt Apache Beam SDK để bạn có thể chạy đường ống của mình trên dịch vụ Dataflow.
Xử lý trước, đào tạo và đưa ra dự đoán trên mô hình máy học năng lượng phân tử bằng cách sử dụng Apache Beam, Dataflow và TensorFlow.
Trong hướng dẫn này, bạn sẽ tìm hiểu những kiến thức cơ bản về dịch vụ Cloud Dataflow bằng cách chạy một đường ống mẫu đơn giản sử dụng Apache Beam Java SDK.
Tìm hiểu cách xử lý tập dữ liệu dạng văn bản theo thời gian thực bằng Python và Dataflow, sau đó lưu trữ trong BigQuery.
Tìm hiểu cách sử dụng Dataflow để đọc các tin nhắn được xuất bản lên chủ đề Pub/Sub, phân loại tin nhắn theo dấu thời gian và ghi tin nhắn vào Cloud Storage.
TRƯỜNG HỢP SỬ DỤNG
Phân tích luồng của Google giúp dữ liệu được tổ chức, hữu ích và dễ truy cập hơn ngay từ khi dữ liệu được tạo ra. Được xây dựng trên Dataflow cùng với Pub/Sub và BigQuery, giải pháp phát trực tuyến của chúng tôi cung cấp các tài nguyên bạn cần để thu thập, xử lý và phân tích khối lượng dữ liệu thời gian thực dao động để có thông tin chi tiết về doanh nghiệp theo thời gian thực. Việc cung cấp trừu tượng này giúp giảm độ phức tạp và giúp phân tích luồng dễ truy cập đối với cả nhà phân tích dữ liệu và kỹ sư dữ liệu.
Dataflow mang các sự kiện phát trực tuyến đến Vertex AI của Google Cloud và TensorFlow Extended (TFX) để cho phép phân tích dự đoán, phát hiện gian lận, cá nhân hóa theo thời gian thực và các trường hợp sử dụng phân tích nâng cao khác. TFX sử dụng Dataflow và Apache Beam làm công cụ xử lý dữ liệu phân tán để cho phép một số khía cạnh của vòng đời ML, tất cả đều được hỗ trợ với CI/CD cho ML thông qua các đường ống Kubeflow.
Xác định và giải quyết các vấn đề theo thời gian thực với tính năng phát hiện ngoại lệ đối với phần mềm độc hại, hoạt động tài khoản, giao dịch tài chính, v.v.
Tối ưu hóa hoạt động và trải nghiệm của khách hàng bằng tính năng phát hiện mẫu trên hình ảnh, video và dữ liệu.
Dự báo luồng dữ liệu chuỗi thời gian từ hoạt động của người dùng đến tình trạng thiết bị để chủ động giải quyết vấn đề.
Mở khóa thông tin chi tiết về doanh nghiệp từ mạng thiết bị toàn cầu của bạn bằng nền tảng IoT thông minh.
TẤT CẢ CÁC TÍNH NĂNG
Triển khai và quản lý các đường ống học máy (ML) một cách dễ dàng. Sử dụng các mô hình ML để thực hiện suy luận cục bộ và từ xa với các đường ống hàng loạt và luồng. Sử dụng các công cụ xử lý dữ liệu để chuẩn bị dữ liệu của bạn cho việc đào tạo mô hình và xử lý kết quả của các mô hình.
Hệ thống xử lý dữ liệu được tối ưu hóa cho hiệu suất và chi phí sử dụng GPU của bạn. Hỗ trợ nhiều loại GPU NVIDIA.
Điều chỉnh năng lực tính toán được phân bổ cho từng công nhân một cách động dựa trên mức sử dụng. Tự động điều chỉnh theo chiều dọc hoạt động song song với tự động điều chỉnh theo chiều ngang để điều chỉnh công nhân một cách liền mạch sao cho phù hợp nhất với nhu cầu của đường ống.
Tự động mở rộng theo chiều ngang cho phép dịch vụ Dataflow tự động chọn số lượng phiên bản công nhân phù hợp cần thiết để chạy công việc của bạn. Dịch vụ Dataflow cũng có thể phân bổ lại động nhiều công nhân hơn hoặc ít công nhân hơn trong thời gian chạy để tính đến các đặc điểm của công việc của bạn.
Sự phù hợp sẽ tạo ra các nhóm tài nguyên cụ thể theo từng giai đoạn được tối ưu hóa cho từng giai đoạn để giảm lãng phí tài nguyên.
Một bộ tính năng bao gồm 1) Quản lý đường ống dữ liệu dựa trên SLO, 2) Khả năng trực quan hóa công việc cung cấp cho người dùng cách trực quan để kiểm tra biểu đồ công việc và xác định các điểm nghẽn, 3) Đề xuất tự động để xác định và điều chỉnh các vấn đề về hiệu suất và tính khả dụng.
Streaming Engine tách biệt hoạt động tính toán khỏi lưu trữ trạng thái và di chuyển các phần thực thi đường ống ra khỏi VM của công nhân và vào phần cuối dịch vụ Dataflow, cải thiện đáng kể khả năng tự động điều chỉnh quy mô và độ trễ dữ liệu.
Dataflow SQL cho phép bạn sử dụng các kỹ năng SQL của mình để phát triển các luồng Dataflow ngay từ giao diện người dùng web BigQuery. Bạn có thể kết hợp dữ liệu phát trực tuyến từ Pub/Sub với các tệp trong Cloud Storage hoặc các bảng trong BigQuery, ghi kết quả vào BigQuery và xây dựng bảng thông tin thời gian thực bằng Google Sheets hoặc các công cụ BI khác.
Dataflow FlexRS giúp giảm chi phí xử lý hàng loạt bằng cách sử dụng các kỹ thuật lập lịch tiên tiến, dịch vụ Dataflow Shuffle và kết hợp các phiên bản máy ảo (VM) có thể tạm dừng và VM thông thường.
Mẫu Dataflow cho phép bạn dễ dàng chia sẻ các đường ống của mình với các thành viên trong nhóm và trên toàn tổ chức hoặc tận dụng nhiều mẫu do Google cung cấp để triển khai các tác vụ xử lý dữ liệu đơn giản nhưng hữu ích. Bao gồm các mẫu Change Data Capture cho các trường hợp sử dụng phân tích luồng. Với Flex Templates, bạn có thể tạo mẫu từ bất kỳ đường ống Dataflow nào.
Xây dựng các đường ống theo từng bước từ đầu với Vertex AI Notebooks và triển khai với Dataflow runner. Biên soạn các đường ống Apache Beam từng bước bằng cách kiểm tra các biểu đồ đường ống trong quy trình làm việc đọc-đánh giá-in-vòng lặp (REPL). Có sẵn thông qua Vertex AI của Google, Notebooks cho phép bạn viết các đường ống trong một môi trường trực quan với các khuôn khổ khoa học dữ liệu và học máy mới nhất.
Đồng bộ hóa hoặc sao chép dữ liệu một cách đáng tin cậy và với độ trễ tối thiểu trên các nguồn dữ liệu không đồng nhất để cung cấp năng lượng cho phân tích luồng. Các mẫu Dataflow có thể mở rộng tích hợp với Datastream để sao chép dữ liệu từ Cloud Storage vào BigQuery, PostgreSQL hoặc Spanner. Trình kết nối Debezium của Apache Beam cung cấp tùy chọn nguồn mở để thu thập các thay đổi dữ liệu từ MySQL, PostgreSQL, SQL Server và Db2.
Giám sát trực tuyến Dataflow cho phép bạn truy cập trực tiếp vào số liệu công việc để hỗ trợ khắc phục sự cố cho các đường ống hàng loạt và luồng. Bạn có thể truy cập vào biểu đồ giám sát ở cả chế độ hiển thị cấp độ bước và cấp độ công nhân và đặt cảnh báo cho các điều kiện như dữ liệu cũ và độ trễ hệ thống cao.
Bạn có thể tạo một đường ống hàng loạt hoặc phát trực tuyến được bảo vệ bằng khóa mã hóa do khách hàng quản lý (CMEK) hoặc truy cập dữ liệu được CMEK bảo vệ trong các nguồn và đích.
Việc tích hợp Dataflow với VPC Service Controls cung cấp thêm tính bảo mật cho môi trường xử lý dữ liệu của bạn bằng cách cải thiện khả năng giảm thiểu rủi ro rò rỉ dữ liệu.
Tắt IP công cộng cho phép bạn bảo mật cơ sở hạ tầng xử lý dữ liệu của mình tốt hơn. Bằng cách không sử dụng địa chỉ IP công cộng cho các nhân viên Dataflow của bạn, bạn cũng giảm số lượng địa chỉ IP công cộng mà bạn sử dụng so với hạn ngạch dự án Google Cloud của mình.
GIÁ CẢ
Các tác vụ Dataflow được tính phí theo giây, dựa trên việc sử dụng thực tế của Dataflow batch hoặc streaming workers. Các tài nguyên bổ sung, chẳng hạn như Cloud Storage hoặc Pub/Sub, được tính phí theo giá của dịch vụ đó.
ĐỐI TÁC
Google Cloud partners have developed integrations with Dataflow to quickly and easily enable powerful data processing tasks of any size.