Google Cloud thumbnail

Dataproc

 

Dataproc là dịch vụ được quản lý hoàn toàn và có khả năng mở rộng cao để chạy Apache Hadoop, Apache Spark, Apache Flink, Presto và hơn 30 công cụ và khuôn khổ nguồn mở. Sử dụng Dataproc để hiện đại hóa hồ dữ liệu, ETL và khoa học dữ liệu an toàn, ở quy mô lớn, tích hợp với Google Cloud, với chi phí chỉ bằng một phần nhỏ.

 
VIDEO

Dataproc hỗ trợ OSS phổ biến như Apache Spark, Presto, Flink, v.v.

3:42

NHỮNG LỢI ÍCH

Hiện đại hóa quá trình xử lý dữ liệu mã nguồn mở của bạn

Triển khai không máy chủ (serverless), ghi nhật ký và giám sát cho phép bạn tập trung vào dữ liệu và phân tích, chứ không phải trên cơ sở hạ tầng của bạn. Giảm TCO của việc quản lý Apache Spark lên đến 54%. Xây dựng và huấn luyện mô hình nhanh gấp 5 lần.

Thông minh và mượt mà cho khoa học dữ liệu mã nguồn mở

Cho phép các nhà khoa học dữ liệu và nhà phân tích dữ liệu thực hiện công việc khoa học dữ liệu một cách mượt mà thông qua tích hợp tự nhiên với BigQuery, Dataplex, Vertex AI và các sổ ghi chú mã nguồn mở như JupyterLab.

Bảo mật doanh nghiệp tích hợp với Google Cloud

Cung cấp các tính năng bảo mật như mã hóa mặc định trong lúc nghỉ, đăng nhập hệ điều hành (OS Login), điều khiển dịch vụ VPC (VPC Service Controls) và khóa mã hóa do khách hàng quản lý (CMEK). Kích hoạt Chế độ bảo mật Hadoop thông qua Kerberos bằng cách thêm cấu hình bảo mật.

CÁC TÍNH NĂNG CHÍNH

Các tính năng chính

Phần mềm mã nguồn mở quy mô lớn được quản lý hoàn toàn và tự động

Triển khai không máy chủ (serverless), ghi nhật ký và giám sát cho phép bạn tập trung vào dữ liệu và phân tích, chứ không phải trên cơ sở hạ tầng của bạn. Giảm TCO của việc quản lý Apache Spark lên đến 54%. Cho phép nhà khoa học dữ liệu và kỹ sư xây dựng và huấn luyện mô hình nhanh gấp 5 lần so với các sổ ghi chú truyền thống thông qua tích hợp với Vertex AI Workbench. API Công việc Dataproc giúp dễ dàng tích hợp xử lý dữ liệu lớn vào các ứng dụng tùy chỉnh, trong khi Dataproc Metastore loại bỏ nhu cầu chạy Hive metastore hoặc dịch vụ Catalog của riêng bạn.

Đóng gói công việc Apache Spark với Kubernetes

Xây dựng công việc Apache Spark của bạn bằng cách sử dụng Dataproc trên Kubernetes để bạn có thể sử dụng Dataproc với Google Kubernetes Engine (GKE) để cung cấp tính di động và cô lập cho công việc.

Bảo mật doanh nghiệp tích hợp với Google Cloud

Khi tạo một cụm Dataproc, bạn có thể kích hoạt Chế độ bảo mật Hadoop thông qua Kerberos bằng cách thêm Cấu hình bảo mật. Ngoài ra, một số tính năng bảo mật cụ thể cho Google Cloud được sử dụng phổ biến nhất với Dataproc bao gồm mã hóa mặc định trong lúc nghỉ, đăng nhập hệ điều hành (OS Login), điều khiển dịch vụ VPC (VPC Service Controls) và khóa mã hóa do khách hàng quản lý (CMEK).

Tận hưởng tốt nhất từ mã nguồn mở và Google Cloud

Dataproc cho phép bạn sử dụng các công cụ mã nguồn mở, thuật toán và ngôn ngữ lập trình mà bạn đang sử dụng hiện nay, nhưng dễ dàng áp dụng chúng trên tập dữ liệu quy mô đám mây. Đồng thời, Dataproc tích hợp sẵn với hệ sinh thái phân tích, cơ sở dữ liệu và trí tuệ nhân tạo của Google Cloud. Nhà khoa học dữ liệu và kỹ sư có thể nhanh chóng truy cập dữ liệu và xây dựng ứng dụng dữ liệu kết nối Dataproc với BigQuery, Vertex AI, Spanner, Pub/Sub hoặc Data Fusion.

Xem tất cả các tính năng

VIDEO

Demo: Xem cách Dataproc và Cloud Storage có thể giúp đẩy nhanh quá trình xử lý khoản vay

3:42

KHÁCH HÀNG

Học hỏi từ khách hàng bằng cách sử dụng Dataproc

  • BÀI VIẾT BLOG

    Broadcom hiện đại hóa hệ thống Data Lake của mình với Dataproc và mở khóa quản lý dữ liệu linh hoạt.

    5-min read

  • TRƯỜNG HỢP

    Dataproc cung cấp cho Wayfair khả năng truy cập dữ liệu phi cấu trúc với hiệu suất cao và ít công việc bảo trì.

    5-min read

  • Video

    Tập đoàn Vodafone chuyển 600 máy chủ Apache Hadoop trên nền tảng vào đám mây.

    47:17

  • TRƯỜNG HỢP

    Twitter chuyển từ Hadoop trên nền tảng riêng tư sang Google Cloud để lưu trữ và truy vấn dữ liệu hiệu quả về mặt chi phí hơn.

    49:57

  • TRƯỜNG HỢP

    Pandora di chuyển hơn 7 PB dữ liệu từ Hadoop trên nền tảng riêng tư sang Google Cloud để mở rộng quy mô và giảm chi phí.

    50:51

  • TRƯỜNG HỢP

    Việc triển khai và tắt các cụm Dataproc giúp METRO giảm chi phí hạ tầng từ 30% đến 50%.

    5-min read

TÀI LIỆU

Tài liệu

GOOGLE CLOUD CƠ BẢN
Spark không cần máy chủ

Gửi các công việc Spark tự động cung cấp và tự động mở rộng. Thêm thông tin chi tiết với liên kết hướng dẫn nhanh bên dưới.

Tìm hiểu thêm
APIS & THƯ VIỆN
Các hành động khởi tạo của Dataproc

Thêm các dự án OSS khác vào các cụm Dataproc của bạn với các hành động khởi tạo được xây dựng sẵn.

Tìm hiểu thêm
APIS & THƯ VIỆN
Các kết nối mã nguồn mở

Thư viện và công cụ cho khả năng tương tác với Apache Hadoop.

Tìm hiểu thêm
APIS & THƯ VIỆN
Mẫu Quy trình làm việc Dataproc

API Mẫu Quy trình làm việc Dataproc cung cấp một cơ chế linh hoạt và dễ sử dụng để quản lý và thực thi các quy trình làm việc.

Tìm hiểu thêm
Không thấy những gì bạn đang tìm kiếm?
Xem tất cả tài liệu sản phẩm
Khám phá thêm tài liệu
Nhận giới thiệu nhanh về cách sử dụng sản phẩm này.
Học cách hoàn thành các nhiệm vụ cụ thể bằng sản phẩm này.
Duyệt hướng dẫn và bài hướng dẫn cho sản phẩm này.
Xem API, tài liệu tham khảo và các tài nguyên khác cho sản phẩm này.

TRƯỜNG HỢP SỬ DỤNG

Use cases

TRƯỜNG HỢP SỬ DỤNG
Di chuyển cụm Hadoop và Spark của bạn lên đám mây

Các doanh nghiệp đang di chuyển các cụm Apache Hadoop và Spark tại chỗ hiện có của họ sang Dataproc để quản lý chi phí và mở khóa sức mạnh của quy mô đàn hồi. Với Dataproc, các doanh nghiệp có được một cụm được quản lý hoàn toàn, được xây dựng theo mục đích có thể tự động mở rộng để hỗ trợ bất kỳ công việc xử lý dữ liệu hoặc phân tích nào.

THỰC HÀNH TỐT NHẤT

Hướng dẫn di chuyển Apache Spark

Đừng viết lại mã Spark của bạn trên Google Cloud.

Tìm hiểu thêm
THỰC HÀNH TỐT NHẤT

Di chuyển dữ liệu HDFS sang Google Cloud

Tìm hiểu thời điểm và cách thức bạn nên di chuyển dữ liệu HDFS tại cơ sở của mình sang Google Cloud Storage

Tìm hiểu thêm
THỰC HÀNH TỐT NHẤT

Di chuyển các biện pháp kiểm soát bảo mật từ tại chỗ sang Dataproc

Di chuyển các biện pháp kiểm soát bảo mật hiện có sang Dataproc để giúp đạt được sự tuân thủ của doanh nghiệp và ngành. 

Tìm hiểu thêm
TRƯỜNG HỢP SỬ DỤNG
Khoa học dữ liệu trên Dataproc

Tạo môi trường khoa học dữ liệu lý tưởng của bạn bằng cách tạo cụm Dataproc chuyên dụng. Tích hợp phần mềm nguồn mở như Apache Spark, NVIDIA RAPIDS và Jupyter notebook với dịch vụ AI và GPU của Google Cloud để giúp tăng tốc quá trình học máy và phát triển AI của bạn.

HƯỚNG DẪN

Sử dụng Dataproc và Apache Spark ML cho máy học

Tích hợp Dataproc với các dịch vụ Google Cloud khác để xây dựng trải nghiệm khoa học dữ liệu toàn diện. 

Tìm hiểu thêm
THỰC HÀNH TỐT NHẤT

CNTT quản lý khoa học dữ liệu nguồn mở với Dataproc Hub

Tìm hiểu cách Dataproc Hub có thể cung cấp cho nhà khoa học dữ liệu của bạn tất cả các công cụ nguồn mở mà họ cần theo cách được CNTT quản lý và kiểm soát chi phí. 

Tìm hiểu thêm
HƯỚNG DẪN

Dataproc gặp TensorFlow trên YARN

Tìm hiểu cách sắp xếp TensorFlow phân tán bằng TonY. 

Tìm hiểu thêm
Xem tất cả hướng dẫn kỹ thuật

TẤT CẢ CÁC TÍNH NĂNG

Tất cả các tính năng

Spark không có máy chủ

Triển khai các ứng dụng và quy trình Spark có khả năng tự động mở rộng mà không cần cung cấp hoặc điều chỉnh cơ sở hạ tầng thủ công.

Các cụm có thể thay đổi kích thước

Tạo và mở rộng cụm nhanh chóng với nhiều loại máy ảo, kích thước đĩa, số lượng nút và tùy chọn mạng khác nhau.

Tự động mở rộng cụm

Tự động mở rộng Dataproc cung cấp cơ chế tự động hóa quản lý tài nguyên cụm và cho phép tự động thêm hoặc bớt các công nhân cụm (nút).

Đám mây tích hợp

Tích hợp sẵn với Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging và Cloud Monitoring, mang đến cho bạn nền tảng dữ liệu hoàn thiện và mạnh mẽ hơn.

Cấu hình tự động hoặc thủ công

Dataproc tự động cấu hình phần cứng và phần mềm nhưng cũng cung cấp cho bạn khả năng điều khiển thủ công.

Những công cụ phát triển

Nhiều cách để quản lý cụm, bao gồm giao diện người dùng web dễ sử dụng, Cloud SDK , API RESTful và quyền truy cập SSH.

Hành động khởi tạo

Chạy các hành động khởi tạo để cài đặt hoặc tùy chỉnh các thiết lập và thư viện bạn cần khi cụm của bạn được tạo.

Các thành phần tùy chọn

Sử dụng các thành phần tùy chọn để cài đặt và cấu hình các thành phần bổ sung trên cụm. Các thành phần tùy chọn được tích hợp với các thành phần Dataproc và cung cấp môi trường được cấu hình đầy đủ cho Zeppelin, Presto và các thành phần phần mềm nguồn mở khác liên quan đến hệ sinh thái Apache Hadoop và Apache Spark.

Container và hình ảnh tùy chỉnh

Dataproc serverless Spark có thể được cung cấp với các container docker tùy chỉnh . Dataproc cluster có thể được cung cấp với một hình ảnh tùy chỉnh bao gồm các gói hệ điều hành Linux được cài đặt sẵn của bạn.

Máy ảo linh hoạt

Các cụm có thể sử dụng các loại máy tùy chỉnh và máy ảo có thể tạm thời chiếm dụng để có kích thước hoàn hảo cho nhu cầu của bạn.

Mẫu quy trình làm việc

Mẫu quy trình làm việc Dataproc cung cấp một cơ chế linh hoạt và dễ sử dụng để quản lý và thực hiện quy trình làm việc. Mẫu quy trình làm việc là cấu hình quy trình làm việc có thể tái sử dụng, định nghĩa biểu đồ các công việc có thông tin về nơi chạy các công việc đó.

Quản lý chính sách tự động

Chuẩn hóa các chính sách bảo mật, chi phí và cơ sở hạ tầng trên một nhóm cụm. Bạn có thể tạo các chính sách cho quản lý tài nguyên, bảo mật hoặc mạng ở cấp độ dự án. Bạn cũng có thể giúp người dùng dễ dàng sử dụng đúng hình ảnh, thành phần, metastore và các dịch vụ ngoại vi khác, cho phép bạn quản lý nhóm cụm và chính sách Spark không có máy chủ của mình trong tương lai.

Cảnh báo thông minh

Cảnh báo được Dataproc đề xuất cho phép khách hàng điều chỉnh ngưỡng cho các cảnh báo được cấu hình sẵn để nhận cảnh báo về cụm nhàn rỗi, cụm chạy trốn, công việc, cụm sử dụng quá mức, v.v. Khách hàng có thể tùy chỉnh thêm các cảnh báo này và thậm chí tạo các khả năng quản lý cụm và công việc nâng cao. Các khả năng này cho phép khách hàng quản lý đội xe của mình ở quy mô lớn.

Dataproc trên Google Distributed Cloud (GDC)

Dataproc trên GDC cho phép bạn chạy Spark trên GDC Edge Appliance trong trung tâm dữ liệu của bạn. Bây giờ bạn có thể sử dụng cùng một ứng dụng Spark trên Google Cloud cũng như trên dữ liệu nhạy cảm trong trung tâm dữ liệu của bạn.

Siêu dữ liệu đa vùng Dataproc

Dataproc Metastore là một Hive metastore (HMS) được quản lý hoàn toàn, có tính khả dụng cao với khả năng kiểm soát truy cập chi tiết. Dataproc Metastore đa vùng cung cấp DR chủ động-chủ động và khả năng phục hồi chống lại sự cố mất điện cục bộ.

GIÁ CẢ

Giá cả

Giá Dataproc dựa trên số lượng vCPU và thời gian chạy của chúng. Trong khi giá hiển thị theo giờ, chúng tôi tính phí xuống đến giây, vì vậy bạn chỉ phải trả cho những gì bạn sử dụng.

Ví dụ: Một cụm có 6 nút (1 nút chính + 5 nút công nhân) với 4 CPU, mỗi CPU chạy trong 2 giờ sẽ có giá là 0,48 đô la. Phí Dataproc = # vCPU * giờ * Giá Dataproc = 24 * 2 * 0,01 đô la = 0,48 đô la

Bắt đầu sử dụng Dataproc

 

Đăng ký dùng thử Google Cloud qua Đại lý GCS với 400 USD tiền tín dụng miễn phí và hơn 20 sản phẩm miễn phí mãi mãi!

Google Cloud Platform - Đăng ký dùng thử các dịch vụ Cloud

Cần hỗ trợ để bắt đầu?

Liên hệ phòng kinh doanh

Cộng tác với đối tác đáng tin cậy

Kết nối với chuyên gia

Các dịch vụ Cloud khác

Xem tất cả sản phẩm

ĐỐI TÁC

Đối tác

Dataproc tích hợp với các đối tác quan trọng để bổ sung cho các khoản đầu tư và kỹ năng hiện có của bạn.

unnamed 45 1
unnamed 46 1
unnamed 47 1