2026/3/21|更新: 2026/5/12

Pythonでデータ分析入門｜Pandas・NumPy・Matplotlibを使った実践チュートリアル

Q: Q. ExcelよりPandasを使うメリットは？

データ量が数万行を超えたらPandas一択です。再現性（コードで処理を残せる）・自動化（同じ処理を反復可能）・スケール（数百万行でも軽快）が圧倒的。Excelの延長で使い始めやすいのも利点です。

Q: Q. NumPyとPandasはどう使い分ける？

NumPyは数値配列の高速計算、Pandasは表形式データの操作に最適化。実務ではPandas DataFrameの内部でNumPy配列が動いており、機械学習の前処理でNumPy、ビジネスデータの集計でPandasと使い分けるのが王道です。

Engineering徹底カイボウ

佐藤楓·18分で読める

この記事でわかること

Pandas・NumPy・Matplotlibの役割分担と基本操作

実データを使ったデータクリーニング・集計・可視化の実践手順

Jupyter Notebook・Google Colabでの環境構築

初学者がつまずきがちな5つのポイントと対処法

読了目安: 10分／最終更新: 2026年4月

データサイエンティストの世界需要は2030年までに年率27.9%で拡大するとIDCは試算している。その中核を担うプログラミング言語として、KaggleのData Science & ML Survey 2024では回答者の約85%がPythonを主言語に挙げた。RやJuliaも選択肢としてあるものの、豊富なライブラリ・活発なコミュニティ・汎用性の高さという三拍子が揃うPythonは、データ分析の入り口としてほぼデファクトスタンダードの地位を確立している。本記事では、Jupyter Notebookを使った環境構築から主要ライブラリの基本操作、実データを使った分析プロジェクトの進め方まで、体系的に解説する。

なぜPythonがデータ分析に選ばれるのか

データ分析に使われる言語はPythonだけではない。RやSQLは統計処理やデータベース操作に特化しており、JuliaやScalaも特定の用途では優れた性能を発揮する。しかしPythonが圧倒的なシェアを持つ理由は、用途の横断性にある。

前処理・統計解析・機械学習・可視化・Webアプリへの組み込みまで、一つの言語とエコシステムで完結できる点が、企業現場での採用を後押ししている。

言語	主な強み	弱点	データ分析での利用率（参考）
Python	汎用性・ライブラリの豊富さ・学習コスト低	純粋な実行速度はC/Javaより遅い	約85%
R	統計解析・可視化（ggplot2）に特化	汎用開発には不向き	約19%
SQL	データ抽出・集計が得意	機械学習・可視化は別ツールが必要	約55%
Julia	数値計算の実行速度が高い	コミュニティ・ライブラリが小規模	約5%
Scala / Spark	大規模分散処理	学習コストが高い	約10%

(Kaggle Survey 2024 より概算。複数回答のため合計は100%を超える)

Pythonはデータ分析のみならず、バックエンド開発・スクリプト自動化・DevOpsにも使われる。一度習得すれば横断的に活用できる点が、特にキャリアの多様性を求めるエンジニアにとって大きなメリットとなる。

環境構築：ツール比較と選び方

分析作業を始める前に、再現性のある環境を整えることが重要である。特にライブラリのバージョン管理を怠ると、他者のコードを実行したときに動作しないという事態が頻繁に起きる。

ツール・サービス	特徴	向いている人	インストール不要
Anaconda	Python本体＋主要ライブラリを一括管理。GUIのNavigatorも提供	ローカルで完結させたい初学者	不要（ローカル）
Miniconda	Anacondaの最小構成版。conda環境管理のみ	ディスク容量を節約したい中級者	不要（ローカル）
pip + venv	標準の仮想環境。軽量だが依存解決はAnacondaより手動	Pythonの仕組みを理解しながら学びたい人	不要（ローカル）
Google Colab	ブラウザで即座に使えるJupyter互換環境。GPUも無料枠あり	環境構築を省きたい・GPU試験をしたい人	不要（クラウド）
VS Code + Jupyter拡張	エディタ機能とNotebook機能を融合。補完・デバッグが充実	IDE体験を求める開発者	不要（ローカル）
JupyterLab	Jupyterの次世代版UI。タブ管理・ファイルブラウザが充実	複数Notebookを並行して扱う人	不要（ローカル）

入門段階ではGoogle Colabが最も手軽である。Googleアカウントがあれば、ブラウザを開いた瞬間からPythonコードを実行できる。本格的にローカル環境を整えるなら、Minicondaでconda環境を作成し、必要なパッケージのみをインストールする方法が管理のしやすさと軽量さを両立する。

必須ライブラリ一覧

Pythonのデータ分析エコシステムは「スタック」として語られることが多い。NumPy・Pandas・Matplotlib・Seaborn・SciPy・scikit-learnの6つが基本的なスタックを構成しており、この組み合わせを把握しておくだけで多くの分析タスクに対応できる。

ライブラリ	主な用途	特記事項
NumPy	多次元配列・行列演算・線形代数	PandasやsciKit-learnの内部でも使用される基盤
Pandas	表形式データ（DataFrame）の読み込み・加工・集計	CSVやExcelとの親和性が高い
Matplotlib	グラフ描画の基礎。折れ線・棒・散布図など	カスタマイズ性が高いが記述量が多い
Seaborn	Matplotlibを薄くラップした統計可視化ライブラリ	美しいデフォルトスタイル・少ない記述量
SciPy	統計検定・最適化・信号処理	NumPyを拡張する科学技術計算ライブラリ
scikit-learn	機械学習（分類・回帰・クラスタリング）のAPIを統一的に提供	パイプライン機能で前処理と学習をまとめられる
Plotly / Plotly Express	インタラクティブグラフ（ズーム・ホバー）	Web公開やダッシュボード構築に有利
Statsmodels	統計モデル・回帰分析・時系列解析	p値・信頼区間などの統計的指標が充実

Anaconda / Minicondaを使う場合、NumPy・Pandas・Matplotlibは最初から同梱されているか、conda installコマンド一つでインストールできる。Google Colabではほぼすべてが既にインストール済みであるため、追加作業なしにインポートして使い始められる。

Pandasの基本操作

データ分析の実務の多くは「データの読み込み → 欠損値処理 → 型変換 → 集計」というフローで構成される。PandasのDataFrameはこのフロー全体をカバーしており、習得することがデータ分析入門の中核となる。

以下の表は、よく使われるPandasの操作を目的別に整理したものである。

目的	操作の概要	対応するメソッド・属性の例
CSVファイルの読み込み	ファイルパスを指定してDataFrameを生成する	pd.read_csv()
Excelファイルの読み込み	シート名を指定して読み込める	pd.read_excel()
データの概要確認	行数・列数・各列の型・非NULL数を一覧表示	df.info()
先頭行の確認	デフォルトで先頭5行を表示する	df.head()
基本統計量の確認	平均・標準偏差・最小値・最大値などを出力	df.describe()
欠損値の確認	列ごとのNull件数を集計する	df.isnull().sum()
欠損値の除去	NullのあるRowを削除する	df.dropna()
欠損値の補完	指定した値で穴埋めする	df.fillna(value)
列の選択	1列または複数列を抽出する	df["列名"] / df[["列A", "列B"]]
条件フィルタリング	特定条件に一致する行だけ抽出する	df[df["列名"] > 値]
列の追加・上書き	計算結果を新列として代入する	df["新列"] = df["A"] + df["B"]
グループ集計	カテゴリごとに合計・平均などを算出する	df.groupby("列名").mean()
ソート	指定列で昇順・降順に並べ替える	df.sort_values("列名", ascending=False)
重複行の削除	完全一致行または特定列基準で重複を除去	df.drop_duplicates()
データ型の変換	文字列を数値・日時型などに変換する	df["列名"].astype(int) / pd.to_datetime()
列のリネーム	列名を分かりやすい名前に変更する	df.rename(columns={"旧": "新"})
データの結合（横方向）	共通キーでテーブルを結合する（SQL JOINに相当）	pd.merge(df1, df2, on="キー")
データの結合（縦方向）	同形式のDataFrameを縦に連結する	pd.concat([df1, df2])
ピボットテーブル	行・列・集計関数を指定してクロス集計する	df.pivot_table()

初めてPandasを使う場合、まずdf.info()とdf.describe()でデータの全体像を掴み、df.isnull().sum()で欠損値の有無を確認するという「データ観察の三点セット」を習慣にすることを勧める。

データ可視化：ライブラリ比較と使い分け

データを数値で把握するだけでなく、グラフとして可視化することで外れ値・トレンド・分布の偏りが視覚的に明らかになる。Pythonには複数の可視化ライブラリがあり、目的に応じた使い分けが求められる。

ライブラリ	得意なグラフ	インタラクティブ性	記述量	学習コスト
Matplotlib	折れ線・棒・散布図・ヒストグラム	低（静的PNG/SVG）	多い	中
Seaborn	分布・ヒートマップ・ペアプロット・箱ひげ	低（静的）	少ない	低
Plotly Express	Matplotlibの代替として多彩なグラフ	高（ズーム・ホバー）	中程度	低〜中
Bokeh	大規模データのインタラクティブ可視化	高	多い	高
Altair	宣言的文法によるグラフ定義	中	少ない	中
Folium	地理情報・地図上のプロット	高	中程度	中

分析の初期探索（EDA: Exploratory Data Analysis）にはSeabornが効率的である。pairplot関数で複数の数値列を一度に散布図行列として可視化でき、変数間の相関関係を素早く把握できる。最終的なレポートやダッシュボードへの組み込みを考えている場合は、Plotly Expressのインタラクティブグラフが有効である。

実践プロジェクト例：難易度別ロードマップ

ライブラリの使い方を理解した後は、実データを使ったプロジェクトを通じてスキルを定着させることが最短の習得経路である。以下は、公開データセットを使った実践プロジェクトの難易度別リストである。

難易度	プロジェクトテーマ	使用データセット（例）	主に学べるスキル
入門	タイタニック生存者分析	Kaggle Titanic Dataset	Pandas・欠損値処理・基本可視化
入門	気温データの時系列プロット	気象庁気象データ（CSV公開）	Pandas・Matplotlib・日付型変換
初級	ECサイト売上ダッシュボード	Superstore Sales（公開CSV）	groupby・pivot_table・Seaborn
初級	映画レビューのスコア分析	IMDb Dataset（Kaggle）	テキスト前処理・分布可視化
中級	不動産価格予測モデル	Boston Housing / 東京都オープンデータ	scikit-learn・回帰分析
中級	株価トレンド分析	yfinance（Pythonライブラリで取得可能）	時系列解析・移動平均
上級	顧客セグメンテーション	UCI ML Repository	クラスタリング・次元削減
上級	異常検知ダッシュボード	製造ラインセンサーデータ（公開例）	統計的検定・Plotlyダッシュボード

入門プロジェクトとして特に推奨されるのが「タイタニック生存者分析」である。Kaggleに登録すれば無料でデータを入手でき、欠損値処理・カテゴリ変数エンコーディング・分類モデルの構築まで一気通貫で体験できる。公式Notebookも豊富に公開されているため、行き詰まったときの参考事例を探しやすい点も初学者に優しい。

学習ロードマップ：段階別の進め方

Pythonデータ分析を独学で習得する場合、「知識のインプット → 手を動かすアウトプット → 実データへの応用」というサイクルを繰り返すことが定着への近道である。以下は、週単位での学習ステップの目安を示したロードマップである。

フェーズ	期間の目安	学習内容	到達目標
Phase 1: 基礎固め	1〜2週間	Python基本文法・リスト・辞書・関数・ファイル操作	自力でPythonスクリプトを書ける
Phase 2: Pandas入門	2〜3週間	DataFrame操作・欠損値処理・グループ集計・テーブル結合	CSVを読み込んで基本集計ができる
Phase 3: 可視化入門	1〜2週間	Matplotlib・Seaborn・グラフの種類と使い分け	分析結果をグラフで表現できる
Phase 4: 統計基礎	2〜3週間	記述統計・確率分布・仮説検定・相関・回帰	データから仮説を立てて検証できる
Phase 5: 機械学習入門	3〜4週間	scikit-learnによる分類・回帰・評価指標・パイプライン	予測モデルを構築して精度を評価できる
Phase 6: 実践プロジェクト	4〜8週間	実データ取得・EDA・モデリング・Notebookとしてのまとめ	Kaggleコンペに参加、または社内分析レポートを作成できる
Phase 7: 発展的スキル	継続	SQL連携・API取得・ダッシュボード・大規模データ処理（Spark等）	データパイプラインを設計・運用できる

Phase 1とPhase 2を並行して進める方法も有効である。理論を学んだらすぐにデータに当てはめて操作することで、抽象的な関数の意味が具体的な感覚として定着しやすい。学習進捗の記録には、Jupyter Notebookのファイルそのものをポートフォリオとして活用すると、後のキャリア展示にも役立てられる。

開発環境のベストプラクティス

Pythonデータ分析の現場では、個人の習熟度に関わらず、再現性の確保が常に優先課題となる。環境管理・バージョン固定・ドキュメント化の3つを意識することで、自分の作業を半年後の自分や他のチームメンバーが再現できるようになる。

プラクティス	内容	活用ツール・手段
仮想環境の使用	プロジェクトごとに独立したPython環境を用意する	venv・conda environment
依存関係の記録	使用ライブラリとバージョンを書き出しておく	requirements.txt / environment.yml
Notebookの整理	セルの実行順序・説明Markdownを整える	Jupyter Notebook / JupyterLab
データのバージョン管理	元データを変更せず加工済みデータを別フォルダに保存する	フォルダ規則・DVC（Data Version Control）
コードレビュー	集計ロジックや可視化コードをチームで確認する	GitHub / GitLab PRレビュー
テストの作成	データ変換関数の単体テストを書く	pytest

特に「元データを上書きしない」というルールは、多くの初学者が見落としがちながら実務での失敗を防ぐ重要な習慣である。生データ（raw）・加工済みデータ（processed）・出力物（output）をフォルダで分けて管理するだけで、作業ミスのリカバリーが格段に楽になる。

まとめと次のステップへの問い

Pythonによるデータ分析は、適切な環境を整えてPandasの基本操作を習得した段階から、実データを使った探索を始めることができる。NumPy・Pandas・Matplotlib・Seabornの組み合わせは現場でも広く使われており、この土台を持つことで機械学習・統計モデリング・ダッシュボード構築へとスキルを拡張しやすくなる。

学習において重要なのは、最初から完璧な分析を目指すことではなく、まず手元のデータに問いを立てることである。「このデータのどの列が売上に最も影響しているか」「購買パターンに曜日の傾向はあるか」というように、ビジネス上の問いをデータで検証しようとする姿勢が、単なるツール習得を実践的な分析力へと変えていく。

あなたが今もっとも気になっているデータは何か。そのデータに対して、最初に立てたい問いはどんな問いだろうか。

導入5ステップ

ステップ1: 環境構築（Anaconda or Google Colab）

ローカルで始めるならAnaconda、すぐ動かしたいならGoogle Colabを選ぶ。Colabはブラウザだけで完結し、GPUも無料枠で使える。初学者がつまずくライブラリ衝突の問題も回避できる。

ステップ2: Jupyter Notebookで最初のセル実行

import pandas as pd と import numpy as np を書いたセルを実行し、バージョンを確認する。Markdown セルで分析の目的を書き、コードと文章を交互に配置する「ノートブック流」の書き方に慣れる。

ステップ3: CSV読み込みとPandas基本操作

pd.read_csv('data.csv') でデータを読み込み、head()、info()、describe() で全体像を把握する。列選択・行フィルタ・groupby で集計する流れを、小さなサンプルデータで繰り返し手を動かす。

ステップ4: 欠損値処理と型変換

isnull().sum() で欠損を確認し、fillna() または dropna() で処理方針を決める。日付カラムは pd.to_datetime()、カテゴリは astype('category') に変換し、メモリ効率と後続処理を改善する。

ステップ5: Matplotlib/Seabornで可視化

棒グラフ、折れ線、ヒストグラム、散布図をSeabornの sns.histplot や sns.scatterplot で描く。仮説→グラフ→気づき→次の仮説というサイクルをノートブック内で回し、レポートとして共有できる状態にする。

よくある質問（FAQ）

Q. ExcelよりPandasを使うメリットは？

データ量が数万行を超えたらPandas一択です。再現性（コードで処理を残せる）・自動化（同じ処理を反復可能）・スケール（数百万行でも軽快）が圧倒的。Excelの延長で使い始めやすいのも利点です。

Q. NumPyとPandasはどう使い分ける？

NumPyは数値配列の高速計算、Pandasは表形式データの操作に最適化。実務ではPandas DataFrameの内部でNumPy配列が動いており、機械学習の前処理でNumPy、ビジネスデータの集計でPandasと使い分けるのが王道です。

Q. データ分析者のキャリアパスは？

「データアナリスト → データサイエンティスト → ML/AIエンジニア」の段階的昇格が一般的です。Pythonデータ分析はすべての起点で、SQLとBIツール（Tableau・Looker）を組み合わせると市場価値が跳ね上がります。

このような記事を毎週お届けします

メールアドレスだけで登録完了。いつでも解除できます。

タグ:#Python #Machine Learning #データ分析

佐藤楓ソフトウェアエンジニア / テックライター

筑波大学情報学群卒。SaaS企業でフルスタックエンジニアとして5年間の開発経験を経て、開発ツール・設計パターン・AI活用開発の解説に注力。Cursor、Claude Code、GitHub Copilotなどのコーディングツールを日常的に使いこなし、実務経験に基づいた技術記事を執筆する。「動くコードで語る」がポリシー。

※ AIを活用して取材・執筆を行うバーチャルジャーナリストです

この記事が参考になったら、シェアしてください。

DeepMindの「AIコ・クリニシャン」、プライマリケア98件中97件でエラーゼロ——医療AIが診断支援の主役となる日（2026年5月）

【2026年版】プログラミング副業で月10万円稼ぐ完全ガイド──案件獲得から確定申告まで

【Claudeが、Blenderの中で手を動かす】3DアーティストとAIの境界が消える日

週刊テックニュースレター