Dataflow

Xử lý dữ liệu dòng và dữ liệu lô thống nhất mà không cần máy chủ, nhanh chóng và hiệu quả về chi phí.

Khách hàng mới nhận được $300 miễn phí để sử dụng trên Dataflow.

VIDEO

Tìm hiểu Dataflow trong một phút, bao gồm cách thức hoạt động và các trường hợp sử dụng phổ biến

3:42

NHỮNG LỢI ÍCH

Phân tích dữ liệu trực tuyến với tốc độ cao

Dataflow cho phép phát triển đường truyền dữ liệu trực tuyến nhanh chóng, đơn giản với độ trễ dữ liệu thấp hơn.

Đơn giản hóa hoạt động và quản lý

Cho phép các nhóm tập trung vào lập trình thay vì quản lý cụm máy chủ vì phương pháp không máy chủ của Dataflow giúp loại bỏ chi phí vận hành khỏi khối lượng công việc kỹ thuật dữ liệu.

Giảm tổng chi phí sở hữu

Tính năng tự động điều chỉnh tài nguyên kết hợp với khả năng xử lý hàng loạt được tối ưu hóa về chi phí có nghĩa là Dataflow cung cấp khả năng gần như vô hạn để quản lý khối lượng công việc theo mùa và đột xuất của bạn mà không tốn kém.

CÁC TÍNH NĂNG CHÍNH

Các tính năng chính

AI thời gian thực sẵn sàng sử dụng

Được hỗ trợ thông qua các tính năng ML tích hợp sẵn bao gồm GPU NVIDIA và các mẫu sẵn sàng sử dụng, khả năng AI thời gian thực của Dataflow cho phép phản ứng theo thời gian thực với trí thông minh gần bằng con người đối với lượng sự kiện lớn.

Khách hàng có thể xây dựng các giải pháp thông minh từ phân tích dự đoán và phát hiện bất thường đến cá nhân hóa theo thời gian thực và các trường hợp sử dụng phân tích nâng cao khác.

Đào tạo, triển khai và quản lý toàn bộ quy trình học máy (ML) , bao gồm suy luận cục bộ và từ xa với quy trình xử lý hàng loạt và phát trực tuyến. 

Tự động điều chỉnh tài nguyên và cân bằng lại công việc năng động

Giảm thiểu độ trễ của đường ống, tối đa hóa việc sử dụng tài nguyên và giảm chi phí xử lý cho mỗi bản ghi dữ liệu với tính năng tự động điều chỉnh tài nguyên theo dữ liệu. Dữ liệu đầu vào được phân vùng tự động và liên tục cân bằng lại để cân bằng việc sử dụng tài nguyên của công nhân và giảm tác động của “phím nóng” lên hiệu suất đường ống.

Giám sát và khả năng quan sát

Quan sát dữ liệu tại mỗi bước của đường ống Dataflow. Chẩn đoán sự cố và khắc phục sự cố hiệu quả với các mẫu dữ liệu thực tế. So sánh các lần chạy khác nhau của công việc để dễ dàng xác định sự cố.

Xem tất cả các tính năng

VIDEO

Nâng cao trải nghiệm bán lẻ trực tuyến với các ưu đãi được cá nhân hóa theo thời gian thực: Bản demo

3:42

KHÁCH HÀNG

Học hỏi từ khách hàng bằng cách sử dụng Dataflow

  • Case study

    Dow Jones brings key historical events datasets to life with Dataflow.

    5-min read

  • Case study

    Dow Jones brings key historical events datasets to life with Dataflow.

    5-min read

  • Case study

    Dow Jones brings key historical events datasets to life with Dataflow.

    5-min read

  • Case study

    Dow Jones brings key historical events datasets to life with Dataflow.

    5-min read

Xem tất cả khách hàng

TIN TỨC MỚI

Tin tức mới

  • BLOG POST

    The next generation of Dataflow: Dataflow Prime, Dataflow Go, and Dataflow ML

    Read the blog

  • BLOG POST

    Google Cloud named a Leader in The Forrester Wave™: Streaming Analytics, Q2 2021

    Read the blog

  • BLOG POST

    Give your data processing a boost with Dataflow GPU

    Read the blog

  • BLOG POST

    Dataflow Prime, bringing efficiency and simplicity to big data processing

    Read the blog

  • BLOG POST

    Capturing real-time value with Stream Analytics

    Read the blog

  • BLOG POST

    Real-time Change Data Capture for data replication into BigQuery

    Read the blog

TÀI LIỆU

Tài liệu

HƯỚNG DẪN
Xử lý dữ liệu không cần máy chủ với Dataflow: Nền tảng

Đào tạo cơ bản về mọi thứ bạn cần biết về Dataflow.

Tìm hiểu thêm
HƯỚNG DẪN
Bắt đầu nhanh Dataflow bằng Python

Thiết lập dự án Google Cloud và môi trường phát triển Python, tải Apache Beam Python SDK và chạy và sửa đổi ví dụ WordCount trên dịch vụ Dataflow.

Tìm hiểu thêm
HƯỚNG DẪN
Sử dụng Dataflow SQL

Tạo truy vấn SQL và triển khai tác vụ Dataflow để chạy truy vấn của bạn từ Giao diện người dùng SQL Dataflow.

Tìm hiểu thêm
HƯỚNG DẪN
Cài đặt Apache Beam SDK

Cài đặt Apache Beam SDK để bạn có thể chạy đường ống của mình trên dịch vụ Dataflow.

Tìm hiểu thêm
HƯỚNG DẪN
Học máy với Apache Beam và TensorFlow

Xử lý trước, đào tạo và đưa ra dự đoán trên mô hình máy học năng lượng phân tử bằng cách sử dụng Apache Beam, Dataflow và TensorFlow.

Tìm hiểu thêm
HƯỚNG DẪN
Hướng dẫn đếm từ Dataflow sử dụng Java

Trong hướng dẫn này, bạn sẽ tìm hiểu những kiến ​​thức cơ bản về dịch vụ Cloud Dataflow bằng cách chạy một đường ống mẫu đơn giản sử dụng Apache Beam Java SDK.

Tìm hiểu thêm
HƯỚNG DẪN
Phòng thí nghiệm thực hành: Xử lý dữ liệu với Google Cloud Dataflow

Tìm hiểu cách xử lý tập dữ liệu dạng văn bản theo thời gian thực bằng Python và Dataflow, sau đó lưu trữ trong BigQuery.

Tìm hiểu thêm
HƯỚNG DẪN
Phòng thí nghiệm thực hành: Xử lý luồng với Pub/Sub và Dataflow

Tìm hiểu cách sử dụng Dataflow để đọc các tin nhắn được xuất bản lên chủ đề Pub/Sub, phân loại tin nhắn theo dấu thời gian và ghi tin nhắn vào Cloud Storage.

Tìm hiểu thêm
Không thấy những gì bạn đang tìm kiếm?
Xem tất cả tài liệu sản phẩm
Khám phá thêm tài liệu
Nhận giới thiệu nhanh về cách sử dụng sản phẩm này.
Học cách hoàn thành các nhiệm vụ cụ thể bằng sản phẩm này.
Duyệt hướng dẫn và bài hướng dẫn cho sản phẩm này.
Xem API, tài liệu tham khảo và các tài nguyên khác cho sản phẩm này.

TRƯỜNG HỢP SỬ DỤNG

Trường hợp sử dụng

TRƯỜNG HỢP SỬ DỤNG
Phân tích luồng

Phân tích luồng của Google giúp dữ liệu được tổ chức, hữu ích và dễ truy cập hơn ngay từ khi dữ liệu được tạo ra. Được xây dựng trên Dataflow cùng với Pub/Sub và BigQuery, giải pháp phát trực tuyến của chúng tôi cung cấp các tài nguyên bạn cần để thu thập, xử lý và phân tích khối lượng dữ liệu thời gian thực dao động để có thông tin chi tiết về doanh nghiệp theo thời gian thực. Việc cung cấp trừu tượng này giúp giảm độ phức tạp và giúp phân tích luồng dễ truy cập đối với cả nhà phân tích dữ liệu và kỹ sư dữ liệu.

dataflow usecase 1
TRƯỜNG HỢP SỬ DỤNG
AI thời gian thực

Dataflow mang các sự kiện phát trực tuyến đến Vertex AI của Google Cloud và TensorFlow Extended (TFX) để cho phép phân tích dự đoán, phát hiện gian lận, cá nhân hóa theo thời gian thực và các trường hợp sử dụng phân tích nâng cao khác. TFX sử dụng Dataflow và Apache Beam làm công cụ xử lý dữ liệu phân tán để cho phép một số khía cạnh của vòng đời ML, tất cả đều được hỗ trợ với CI/CD cho ML thông qua các đường ống Kubeflow.

mẫu

Phát hiện bất thường

Xác định và giải quyết các vấn đề theo thời gian thực với tính năng phát hiện ngoại lệ đối với phần mềm độc hại, hoạt động tài khoản, giao dịch tài chính, v.v.

mẫu

Nhận dạng mẫu

Tối ưu hóa hoạt động và trải nghiệm của khách hàng bằng tính năng phát hiện mẫu trên hình ảnh, video và dữ liệu.

mẫu

Dự báo tiên đoán

Dự báo luồng dữ liệu chuỗi thời gian từ hoạt động của người dùng đến tình trạng thiết bị để chủ động giải quyết vấn đề.

TRƯỜNG HỢP SỬ DỤNG
Xử lý dữ liệu cảm biến và nhật ký

Mở khóa thông tin chi tiết về doanh nghiệp từ mạng thiết bị toàn cầu của bạn bằng nền tảng IoT thông minh.

Xem tất cả hướng dẫn kỹ thuật

TẤT CẢ CÁC TÍNH NĂNG

Tất cả các tính năng

Dataflow ML

Triển khai và quản lý các đường ống học máy (ML) một cách dễ dàng. Sử dụng các mô hình ML để thực hiện suy luận cục bộ và từ xa với các đường ống hàng loạt và luồng. Sử dụng các công cụ xử lý dữ liệu để chuẩn bị dữ liệu của bạn cho việc đào tạo mô hình và xử lý kết quả của các mô hình.

Dataflow GPU

Hệ thống xử lý dữ liệu được tối ưu hóa cho hiệu suất và chi phí sử dụng GPU của bạn. Hỗ trợ nhiều loại GPU NVIDIA.

Tự động thay đổi kích thước theo chiều dọc

Điều chỉnh năng lực tính toán được phân bổ cho từng công nhân một cách động dựa trên mức sử dụng. Tự động điều chỉnh theo chiều dọc hoạt động song song với tự động điều chỉnh theo chiều ngang để điều chỉnh công nhân một cách liền mạch sao cho phù hợp nhất với nhu cầu của đường ống.

Tự động thay đổi kích thước theo chiều ngang

Tự động mở rộng theo chiều ngang cho phép dịch vụ Dataflow tự động chọn số lượng phiên bản công nhân phù hợp cần thiết để chạy công việc của bạn. Dịch vụ Dataflow cũng có thể phân bổ lại động nhiều công nhân hơn hoặc ít công nhân hơn trong thời gian chạy để tính đến các đặc điểm của công việc của bạn.

Vừa vặn

Sự phù hợp sẽ tạo ra các nhóm tài nguyên cụ thể theo từng giai đoạn được tối ưu hóa cho từng giai đoạn để giảm lãng phí tài nguyên.

Chẩn đoán thông minh

Một bộ tính năng bao gồm 1) Quản lý đường ống dữ liệu dựa trên SLO, 2) Khả năng trực quan hóa công việc cung cấp cho người dùng cách trực quan để kiểm tra biểu đồ công việc và xác định các điểm nghẽn, 3) Đề xuất tự động để xác định và điều chỉnh các vấn đề về hiệu suất và tính khả dụng.

Công cụ phát trực tuyến

Streaming Engine tách biệt hoạt động tính toán khỏi lưu trữ trạng thái và di chuyển các phần thực thi đường ống ra khỏi VM của công nhân và vào phần cuối dịch vụ Dataflow, cải thiện đáng kể khả năng tự động điều chỉnh quy mô và độ trễ dữ liệu.

Dataflow SQL

Dataflow SQL cho phép bạn sử dụng các kỹ năng SQL của mình để phát triển các luồng Dataflow ngay từ giao diện người dùng web BigQuery. Bạn có thể kết hợp dữ liệu phát trực tuyến từ Pub/Sub với các tệp trong Cloud Storage hoặc các bảng trong BigQuery, ghi kết quả vào BigQuery và xây dựng bảng thông tin thời gian thực bằng Google Sheets hoặc các công cụ BI khác.

Lập lịch nguồn lực linh hoạt (FlexRS)

Dataflow FlexRS giúp giảm chi phí xử lý hàng loạt bằng cách sử dụng các kỹ thuật lập lịch tiên tiến, dịch vụ Dataflow Shuffle và kết hợp các phiên bản máy ảo (VM) có thể tạm dừng và VM thông thường.

Mẫu Dataflow

Mẫu Dataflow cho phép bạn dễ dàng chia sẻ các đường ống của mình với các thành viên trong nhóm và trên toàn tổ chức hoặc tận dụng nhiều mẫu do Google cung cấp để triển khai các tác vụ xử lý dữ liệu đơn giản nhưng hữu ích. Bao gồm các mẫu Change Data Capture cho các trường hợp sử dụng phân tích luồng. Với Flex Templates, bạn có thể tạo mẫu từ bất kỳ đường ống Dataflow nào.

Tích hợp sổ tay

Xây dựng các đường ống theo từng bước từ đầu với Vertex AI Notebooks và triển khai với Dataflow runner. Biên soạn các đường ống Apache Beam từng bước bằng cách kiểm tra các biểu đồ đường ống trong quy trình làm việc đọc-đánh giá-in-vòng lặp (REPL). Có sẵn thông qua Vertex AI của Google, Notebooks cho phép bạn viết các đường ống trong một môi trường trực quan với các khuôn khổ khoa học dữ liệu và học máy mới nhất.

Thu thập dữ liệu thay đổi theo thời gian thực

Đồng bộ hóa hoặc sao chép dữ liệu một cách đáng tin cậy và với độ trễ tối thiểu trên các nguồn dữ liệu không đồng nhất để cung cấp năng lượng cho phân tích luồng. Các mẫu Dataflow có thể mở rộng tích hợp với Datastream để sao chép dữ liệu từ Cloud Storage vào BigQuery, PostgreSQL hoặc Spanner. Trình kết nối Debezium của Apache Beam cung cấp tùy chọn nguồn mở để thu thập các thay đổi dữ liệu từ MySQL, PostgreSQL, SQL Server và Db2.

Giám sát nội tuyến

Giám sát trực tuyến Dataflow cho phép bạn truy cập trực tiếp vào số liệu công việc để hỗ trợ khắc phục sự cố cho các đường ống hàng loạt và luồng. Bạn có thể truy cập vào biểu đồ giám sát ở cả chế độ hiển thị cấp độ bước và cấp độ công nhân và đặt cảnh báo cho các điều kiện như dữ liệu cũ và độ trễ hệ thống cao.

Khóa mã hóa do khách hàng quản lý

Bạn có thể tạo một đường ống hàng loạt hoặc phát trực tuyến được bảo vệ bằng khóa mã hóa do khách hàng quản lý (CMEK) hoặc truy cập dữ liệu được CMEK bảo vệ trong các nguồn và đích.

Kiểm soát dịch vụ VPC luồng dữ liệu

Việc tích hợp Dataflow với VPC Service Controls cung cấp thêm tính bảo mật cho môi trường xử lý dữ liệu của bạn bằng cách cải thiện khả năng giảm thiểu rủi ro rò rỉ dữ liệu.

IP riêng tư

Tắt IP công cộng cho phép bạn bảo mật cơ sở hạ tầng xử lý dữ liệu của mình tốt hơn. Bằng cách không sử dụng địa chỉ IP công cộng cho các nhân viên Dataflow của bạn, bạn cũng giảm số lượng địa chỉ IP công cộng mà bạn sử dụng so với hạn ngạch dự án Google Cloud của mình.

GIÁ CẢ

Giá cả

Các tác vụ Dataflow được tính phí theo giây, dựa trên việc sử dụng thực tế của Dataflow batch hoặc streaming workers. Các tài nguyên bổ sung, chẳng hạn như Cloud Storage hoặc Pub/Sub, được tính phí theo giá của dịch vụ đó.

Xem chi tiết giá

ĐỐI TÁC

Khám phá các giải pháp đối tác

Google Cloud partners have developed integrations with Dataflow to quickly and easily enable powerful data processing tasks of any size.

data flow icon confluent
data flow icon snowplow
data flow icon talend
data flow icon trifacta