Cleaning and Exploring Big Data using PySpark

4.2

52件の評価

提供:

3,629人がすでに登録済みです

このガイド付きプロジェクトでは、次のことを行います。

Learn how to clean your big dataset in PySpark

Learn how to explore big dataset in PySpark

Learn how to create visualizations from big dataset loaded in PySpark

2 hours
中級
ダウンロード不要
分割画面ビデオ
英語
デスクトップのみ

By the end of this project, you will learn how to clean, explore and visualize big data using PySpark. You will be using an open source dataset containing information on all the water wells in Tanzania. I will teach you various ways to clean and explore your big data in PySpark such as changing column’s data type, renaming categories with low frequency in character columns and imputing missing values in numerical columns. I will also teach you ways to visualize your data by intelligently converting Spark dataframe to Pandas dataframe. Cleaning and exploring big data in PySpark is quite different from Python due to the distributed nature of Spark dataframes. This guided project will dive deep into various ways to clean and explore your data loaded in PySpark. Data preprocessing in big data analysis is a crucial step and one should learn about it before building any big data machine learning model. Note: You should have a Gmail account which you will use to sign into Google Colab. Note: This course works best for learners who are based in the North America region. We’re currently working on providing the same experience in other regions.

あなたが開発するスキル

  • Cleaning

  • Python Programming

  • Data Visualization (DataViz)

  • Apache Spark

  • Exploratory Data Analysis

ステップバイステップで学習します

ワークエリアを使用した分割画面で再生するビデオでは、講師がこれらの手順を説明します。

  1. Install Spark on Google Colab and load datasets in PySpark

  2. Change column datatype, remove whitespaces and drop duplicates

  3. Remove columns with Null values higher than a threshold

  4. Group, aggregate and create pivot tables

  5. Rename categories and impute missing numeric values

  6. Create visualizations to gather insights

ガイド付きプロジェクトの仕組み

ワークスペースは、ブラウザに完全にロードされたクラウドデスクトップですので、ダウンロードは不要です

分割画面のビデオで、講師が手順ごとにガイドします

レビュー

CLEANING AND EXPLORING BIG DATA USING PYSPARK からの人気レビュー

すべてのレビューを見る

よくある質問

ガイド付きプロジェクトを購入することによって、ガイド付きプロジェクトを完了するために必要なものすべてが得られます。これには、開始する必要のあるファイルとソフトウェアを含むWebブラウザを介したクラウドデスクトップワークスペースへのアクセスの他、専門家によるステップバイステップのビデオ講座が含まれます。

ワークスペースにはラップトップまたはデスクトップコンピューターに適したサイズのクラウドデスクトップが含まれているため、モバイル機器ではガイド付きプロジェクトを使用できません。

ガイド付きプロジェクトの講師は、プロジェクトのスキル、ツール、またはその分野での経験があり、知識を共有して世界中の何百万人もの受講生に影響を与えるたことに情熱を持つ専門家です。

ガイド付きプロジェクトから作成したファイルをダウンロードして保持できます。そのためには、クラウドデスクトップにアクセスしているときに「ファイルブラウザ」機能を使用できます。

ガイド付きプロジェクトは払い戻しの対象外です。すべての返金ポリシーを表示する

ガイド付きプロジェクトには学費援助が利用できません。

ガイド付きプロジェクトでは監査を使用できません。

ページの上部で、このガイド付きプロジェクトの経験レベルを押して、知識の前提条件を表示できます。ガイド付きプロジェクトのすべてのレベルで、インストラクターがステップバイステップでご案内します。

はい。ガイド付きプロジェクトを完了するために必要なものはすべて、ブラウザで利用可能なクラウドデスクトップで利用できます。

分割画面環境でタスクをブラウザで直接完了することで学習できます。画面の左側で、ワークスペースでタスクを完了します。画面の右側で、講師がプロジェクトをステップごとにガイドします。