Pythonで自動データ分析！ydata-profilingの使い方

データ分析を行う際、データの統計情報や分布、欠損値の確認などの基本的なデータプロファイリングは重要です。

しかし、手動でこれを行うのは手間がかかり、特にデータ量が多い場合には時間がかかります。

ydata-profilingライブラリを使えば、たった数行でデータの概要がレポートとして自動生成され、分析効率が大幅に向上します。

今回は、ydata-profilingを使ってデータレポートを生成する基本手順から、応用例までを紹介します。

ごまこ

データ分析を行う上でデータの可視化や情報の表示を
Pythonを使って手軽に行う方法はありますか？

ごまお

それならydata-profilingを使ってみましょう！
pandasやmatplotlibを使って個別にコードを書かなくてもデータを見渡せます！
初心者でもわかるように使い方を説明した上で応用例も紹介します！

1. ydata-profilingとは？
1. 主な特徴
2. ydata-profilingのインストール方法
3. データレポートの生成手順
4. 出力内容の詳細解説
5. 応用例：HTML出力、フィルタリング、特定列のプロファイリング
6. まとめ
1. ydata-profilingの主な利点

リンク

1. ydata-profilingとは？

ydata-profiling（旧pandas-profiling）は、pandasデータフレームから自動で統計情報や可視化を行い、データの特徴をレポートとして出力するPythonライブラリです。

このライブラリは、データ分析の初期段階に役立ち、データセット全体の理解や、異常値・欠損値の検出を簡単に行えます。

主な特徴

自動で統計レポート生成：データの統計情報、分布、相関、欠損値、サンプルデータなどを一括で出力。
視覚的にわかりやすいレポート：ヒートマップや散布図、頻度分布などのグラフを含んだ詳細レポート。
HTMLファイルとして保存可能：レポートをHTML形式で保存でき、共有や報告にも便利。

2. ydata-profilingのインストール方法

まず、ydata-profilingをインストールしましょう。以下のコマンドを実行します。

pip install ydata-profiling

インストールが完了すれば、次にデータレポートの生成手順を紹介します。

リンク

3. データレポートの生成手順

ydata-profilingを使用してデータレポートを作成するのは非常に簡単です。

以下のコードを使用して、CSVファイルを読み込み、データレポートを生成してみましょう。

import pandas as pd
from ydata_profiling import ProfileReport

# CSVファイルを読み込み
df = pd.read_csv("sample_data.csv")

# プロファイルレポートを作成
profile = ProfileReport(df, title="Sample Data Report")

# Jupyter Notebookでレポートをインタラクティブに表示
profile.to_widgets()

コードの説明

pd.read_csv("sample_data.csv")：
データセットをpandasデータフレームに読み込みます。
ProfileReport(df, title="Sample Data Report")：
データフレームに基づいてプロファイルレポートを生成し、タイトルを設定します。
profile.to_widgets()：
Jupyter Notebook上でインタラクティブな形式でレポートを表示します。

4. 出力内容の詳細解説

ydata-profilingで生成されるレポートには、以下のような内容が含まれます。

1. Overview（統計概要）

データ全体の概要（件数、欠損値数、ユニークな値の数、データ型など）がまとめられています。

リンク

2. Variables（各変数の詳細分析）

各列ごとに、分布、平均値、中央値、標準偏差、最小・最大値などの統計情報が表示されます。

カテゴリ変数については頻度分布も示されます。

3. Correlations（相関ヒートマップ）

各変数間の相関関係がヒートマップ形式で視覚化され、どの変数が他の変数と関連性が高いかを確認できます。

4. Missing Values（欠損値の確認）

欠損値のある変数の割合や位置が表示され、クリーニングが必要な箇所が一目でわかります。

5. Sample（サンプルデータの表示）

データの先頭数行と末尾数行が表示され、データの内容が確認できます。

リンク

6. Interactions（各散布図）

2つの変数間の関係を散布図で確認し、特徴量エンジニアリングに役立ちます。

5. 応用例：HTML出力、フィルタリング、特定列のプロファイリング

応用例1: HTML形式でレポートを保存

生成したレポートをHTMLファイルとして保存し、ブラウザで閲覧したり、チームメンバーと共有できます。

# レポートをHTML形式で保存
profile.to_file("data_profile_report.html")

応用例2: 特定の列だけをプロファイリング

データセットが非常に大きい場合や、特定のカラムに焦点を当てて分析したい場合は、対象の列だけを選択してプロファイリングを行うことができます。

# 特定の列（例えば "age" と "income"）をプロファイリング
subset_profile = ProfileReport(df[["age", "income"]], title="Subset Data Report")
subset_profile.to_widgets()

応用例3: 設定をカスタマイズしてプロファイリング

ydata-profilingは、レポートの詳細度や表示する項目をカスタマイズできます。

以下のように、詳細な設定を指定してレポートを生成できます。

profile = ProfileReport(
    df,
    title="Custom Data Report",
    explorative=True,          # 探索的分析モードを有効化
    correlations={
        "pearson": False,      # ピアソン相関を非表示
        "spearman": True,      # スピアマン相関を表示
    },
    missing_diagrams={
        "heatmap": False,      # 欠損値ヒートマップを無効化
    }
)
profile.to_widgets()

応用例4: 大規模データに対するサンプリング分析

大規模データの場合、全体をプロファイリングすると負荷が高くなるため、サンプルデータでのプロファイリングを行うことも有効です。

# サンプリングしてデータの一部をプロファイリング
sampled_df = df.sample(frac=0.1, random_state=42)  # データの10%をサンプリング
sampled_profile = ProfileReport(sampled_df, title="Sampled Data Report")
sampled_profile.to_widgets()

リンク

6. まとめ

今回は、Pythonのydata-profilingライブラリを使ってデータプロファイリングを効率化し、簡単に統計レポートを生成する方法を解説しました。

また、生成したレポートの応用例として、HTML形式での出力、特定列のプロファイリング、詳細設定のカスタマイズ、サンプリング分析なども紹介しました。

リンク