LIÊN HỆ ĐỘI NGŨ TƯ VẤN
Liên hệ với đội ngũ chuyên gia GCS để được hỗ trợ một cách tốt nhất
Dataproc là dịch vụ được quản lý hoàn toàn và có khả năng mở rộng cao để chạy Apache Hadoop, Apache Spark, Apache Flink, Presto và hơn 30 công cụ và khuôn khổ nguồn mở. Sử dụng Dataproc để hiện đại hóa hồ dữ liệu, ETL và khoa học dữ liệu an toàn, ở quy mô lớn, tích hợp với Google Cloud, với chi phí chỉ bằng một phần nhỏ.
Linh hoạt: Data Proc cho phép bạn sử dụng mô hình serverless hoặc quản lý các cụm trên Google Compute và Kubernetes. Điều này cho phép bạn linh hoạt chọn cách triển khai dựa trên nhu cầu và yêu cầu của bạn.
Mở rộng: Data Proc hỗ trợ chạy các công cụ phân tích dữ liệu mã nguồn mở trên quy mô lớn với tính mở và linh hoạt. Bạn có thể sử dụng các công cụ phổ biến như Apache Spark, Hadoop, Hive và nhiều công cụ khác.
Thông minh: Data Proc tích hợp với các dịch vụ khác trong GCP như Vertex AI, BigQuery và Dataplex
Bảo mật: Data Proc cho phép cấu hình bảo mật nâng cao như Kerberos, Apache Ranger và Xác thực cá nhân để đảm bảo an ninh dữ liệu trong quá trình xử lý và phân tích.
Tiết kiệm chi phí: Data Proc có giá cả hợp lý và tính năng định giá theo giây, giúp giảm TCO (Tổng chi phí sở hữu) so với việc triển khai hệ thống data lake trên nền tảng truyền thống, với mức giảm chi phí lên đến 54%.
3:42
Triển khai không máy chủ (serverless), ghi nhật ký và giám sát cho phép bạn tập trung vào dữ liệu và phân tích, chứ không phải trên cơ sở hạ tầng của bạn. Giảm TCO của việc quản lý Apache Spark lên đến 54%. Xây dựng và huấn luyện mô hình nhanh gấp 5 lần.
Cho phép các nhà khoa học dữ liệu và nhà phân tích dữ liệu thực hiện công việc khoa học dữ liệu một cách mượt mà thông qua tích hợp tự nhiên với BigQuery, Dataplex, Vertex AI và các sổ ghi chú mã nguồn mở như JupyterLab.
Cung cấp các tính năng bảo mật như mã hóa mặc định trong lúc nghỉ, đăng nhập hệ điều hành (OS Login), điều khiển dịch vụ VPC (VPC Service Controls) và khóa mã hóa do khách hàng quản lý (CMEK). Kích hoạt Chế độ bảo mật Hadoop thông qua Kerberos bằng cách thêm cấu hình bảo mật.
CÁC TÍNH NĂNG CHÍNH
Triển khai không máy chủ (serverless), ghi nhật ký và giám sát cho phép bạn tập trung vào dữ liệu và phân tích, chứ không phải trên cơ sở hạ tầng của bạn. Giảm TCO của việc quản lý Apache Spark lên đến 54%. Cho phép nhà khoa học dữ liệu và kỹ sư xây dựng và huấn luyện mô hình nhanh gấp 5 lần so với các sổ ghi chú truyền thống thông qua tích hợp với Vertex AI Workbench. API Công việc Dataproc giúp dễ dàng tích hợp xử lý dữ liệu lớn vào các ứng dụng tùy chỉnh, trong khi Dataproc Metastore loại bỏ nhu cầu chạy Hive metastore hoặc dịch vụ Catalog của riêng bạn.
Xây dựng công việc Apache Spark của bạn bằng cách sử dụng Dataproc trên Kubernetes để bạn có thể sử dụng Dataproc với Google Kubernetes Engine (GKE) để cung cấp tính di động và cô lập cho công việc.
Khi tạo một cụm Dataproc, bạn có thể kích hoạt Chế độ bảo mật Hadoop thông qua Kerberos bằng cách thêm Cấu hình bảo mật. Ngoài ra, một số tính năng bảo mật cụ thể cho Google Cloud được sử dụng phổ biến nhất với Dataproc bao gồm mã hóa mặc định trong lúc nghỉ, đăng nhập hệ điều hành (OS Login), điều khiển dịch vụ VPC (VPC Service Controls) và khóa mã hóa do khách hàng quản lý (CMEK).
3:42
KHÁCH HÀNG
TÀI LIỆU
Gửi các công việc Spark tự động cung cấp và tự động mở rộng. Thêm thông tin chi tiết với liên kết hướng dẫn nhanh bên dưới.
Tìm hiểu thêmThêm các dự án OSS khác vào các cụm Dataproc của bạn với các hành động khởi tạo được xây dựng sẵn.
Tìm hiểu thêmThư viện và công cụ cho khả năng tương tác với Apache Hadoop.
Tìm hiểu thêmAPI Mẫu Quy trình làm việc Dataproc cung cấp một cơ chế linh hoạt và dễ sử dụng để quản lý và thực thi các quy trình làm việc.
Tìm hiểu thêmTRƯỜNG HỢP SỬ DỤNG
Các doanh nghiệp đang di chuyển các cụm Apache Hadoop và Spark tại chỗ hiện có của họ sang Dataproc để quản lý chi phí và mở khóa sức mạnh của quy mô đàn hồi. Với Dataproc, các doanh nghiệp có được một cụm được quản lý hoàn toàn, được xây dựng theo mục đích có thể tự động mở rộng để hỗ trợ bất kỳ công việc xử lý dữ liệu hoặc phân tích nào.
Đừng viết lại mã Spark của bạn trên Google Cloud.
Tìm hiểu thêmTìm hiểu thời điểm và cách thức bạn nên di chuyển dữ liệu HDFS tại cơ sở của mình sang Google Cloud Storage
Di chuyển các biện pháp kiểm soát bảo mật hiện có sang Dataproc để giúp đạt được sự tuân thủ của doanh nghiệp và ngành.
Tạo môi trường khoa học dữ liệu lý tưởng của bạn bằng cách tạo cụm Dataproc chuyên dụng. Tích hợp phần mềm nguồn mở như Apache Spark, NVIDIA RAPIDS và Jupyter notebook với dịch vụ AI và GPU của Google Cloud để giúp tăng tốc quá trình học máy và phát triển AI của bạn.
Tích hợp Dataproc với các dịch vụ Google Cloud khác để xây dựng trải nghiệm khoa học dữ liệu toàn diện.
Tìm hiểu cách Dataproc Hub có thể cung cấp cho nhà khoa học dữ liệu của bạn tất cả các công cụ nguồn mở mà họ cần theo cách được CNTT quản lý và kiểm soát chi phí.
Tìm hiểu cách sắp xếp TensorFlow phân tán bằng TonY.
TẤT CẢ CÁC TÍNH NĂNG
Triển khai các ứng dụng và quy trình Spark có khả năng tự động mở rộng mà không cần cung cấp hoặc điều chỉnh cơ sở hạ tầng thủ công.
Tạo và mở rộng cụm nhanh chóng với nhiều loại máy ảo, kích thước đĩa, số lượng nút và tùy chọn mạng khác nhau.
Tự động mở rộng Dataproc cung cấp cơ chế tự động hóa quản lý tài nguyên cụm và cho phép tự động thêm hoặc bớt các công nhân cụm (nút).
Tích hợp sẵn với Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging và Cloud Monitoring, mang đến cho bạn nền tảng dữ liệu hoàn thiện và mạnh mẽ hơn.
Dataproc tự động cấu hình phần cứng và phần mềm nhưng cũng cung cấp cho bạn khả năng điều khiển thủ công.
Nhiều cách để quản lý cụm, bao gồm giao diện người dùng web dễ sử dụng, Cloud SDK , API RESTful và quyền truy cập SSH.
Chạy các hành động khởi tạo để cài đặt hoặc tùy chỉnh các thiết lập và thư viện bạn cần khi cụm của bạn được tạo.
Sử dụng các thành phần tùy chọn để cài đặt và cấu hình các thành phần bổ sung trên cụm. Các thành phần tùy chọn được tích hợp với các thành phần Dataproc và cung cấp môi trường được cấu hình đầy đủ cho Zeppelin, Presto và các thành phần phần mềm nguồn mở khác liên quan đến hệ sinh thái Apache Hadoop và Apache Spark.
Dataproc serverless Spark có thể được cung cấp với các container docker tùy chỉnh . Dataproc cluster có thể được cung cấp với một hình ảnh tùy chỉnh bao gồm các gói hệ điều hành Linux được cài đặt sẵn của bạn.
Các cụm có thể sử dụng các loại máy tùy chỉnh và máy ảo có thể tạm thời chiếm dụng để có kích thước hoàn hảo cho nhu cầu của bạn.
Mẫu quy trình làm việc Dataproc cung cấp một cơ chế linh hoạt và dễ sử dụng để quản lý và thực hiện quy trình làm việc. Mẫu quy trình làm việc là cấu hình quy trình làm việc có thể tái sử dụng, định nghĩa biểu đồ các công việc có thông tin về nơi chạy các công việc đó.
Chuẩn hóa các chính sách bảo mật, chi phí và cơ sở hạ tầng trên một nhóm cụm. Bạn có thể tạo các chính sách cho quản lý tài nguyên, bảo mật hoặc mạng ở cấp độ dự án. Bạn cũng có thể giúp người dùng dễ dàng sử dụng đúng hình ảnh, thành phần, metastore và các dịch vụ ngoại vi khác, cho phép bạn quản lý nhóm cụm và chính sách Spark không có máy chủ của mình trong tương lai.
Cảnh báo được Dataproc đề xuất cho phép khách hàng điều chỉnh ngưỡng cho các cảnh báo được cấu hình sẵn để nhận cảnh báo về cụm nhàn rỗi, cụm chạy trốn, công việc, cụm sử dụng quá mức, v.v. Khách hàng có thể tùy chỉnh thêm các cảnh báo này và thậm chí tạo các khả năng quản lý cụm và công việc nâng cao. Các khả năng này cho phép khách hàng quản lý đội xe của mình ở quy mô lớn.
Dataproc trên GDC cho phép bạn chạy Spark trên GDC Edge Appliance trong trung tâm dữ liệu của bạn. Bây giờ bạn có thể sử dụng cùng một ứng dụng Spark trên Google Cloud cũng như trên dữ liệu nhạy cảm trong trung tâm dữ liệu của bạn.
Dataproc Metastore là một Hive metastore (HMS) được quản lý hoàn toàn, có tính khả dụng cao với khả năng kiểm soát truy cập chi tiết. Dataproc Metastore đa vùng cung cấp DR chủ động-chủ động và khả năng phục hồi chống lại sự cố mất điện cục bộ.
GIÁ CẢ
Giá Dataproc dựa trên số lượng vCPU và thời gian chạy của chúng. Trong khi giá hiển thị theo giờ, chúng tôi tính phí xuống đến giây, vì vậy bạn chỉ phải trả cho những gì bạn sử dụng.
Ví dụ: Một cụm có 6 nút (1 nút chính + 5 nút công nhân) với 4 CPU, mỗi CPU chạy trong 2 giờ sẽ có giá là 0,48 đô la. Phí Dataproc = # vCPU * giờ * Giá Dataproc = 24 * 2 * 0,01 đô la = 0,48 đô la
Đăng ký dùng thử Google Cloud qua Đại lý GCS với 400 USD tiền tín dụng miễn phí và hơn 20 sản phẩm miễn phí mãi mãi!
Cần hỗ trợ để bắt đầu?
Cộng tác với đối tác đáng tin cậy
Các dịch vụ Cloud khác
ĐỐI TÁC
Dataproc tích hợp với các đối tác quan trọng để bổ sung cho các khoản đầu tư và kỹ năng hiện có của bạn.