前処理

python

pandas: 欠損値割合を指定して列を削除する

python-pandasを用いた前処理を実施する際に,欠損率XX%を超える列を削除する方法について。 結論 自前で処理を作成するパターンと,pandas.DataFrame.dropnaメソッドの”thresh”を設定するパ...
python

pandas .to_csv エラー対策: UnicodeEncodeError: ‘shift_jis’ codec can’t encode character

Pandasの.to_csvメソッドを使用してCSVファイル出力を行う際にUnicodeEncodeErrorを起こしたので,備忘録的に対策を記載。 ページ作成者のOSはWindowsなので,Linux / Mac OS での再現性...
python

pythonで高相関の特徴量を削除する方法

重回帰モデルなどの予測モデル構築を行う際に,特徴量間で高い相関係数を示すものが存在する場合には多重共線性が問題となるケースがあります。 こうしたケースでは一般的に高相関の特徴量をデータから除外しますが,このページではその手続きについ...
python

pythonで移動平均

時系列データには,トレンドや季節変動など意味ある成分のほかに,不規則な誤差変動が含まれる場合があります。 誤差変動の重畳した時系列データの例 こうした非系統的な誤差変動を平滑化するために移動平均が用いられます。 サンプル...
python

pythonで指定値に最も近い値のインデックス検索

python環境におけるnumpy arrayやpandas dataframeから,指定した値に最も近い値のインデックス番号を検索する方法についてまとめてみました。 (本ページにて紹介しているコードはgithubに...
python

pythonでエクセルシート別にデータ保存

シート別にデータを保存したエクセルファイルの作成方法について (本ページにて紹介しているコードはgithubにて公開しています。) openpyxlのインストール Excel操作のための「op...
python

pythonで特定文字列を含む/含まない列名を取得

python環境において,pandasデータフレームの列から指定の文字列を含む列を取得する方法について。 (本ページにて紹介しているコードはgithubにて公開しています。) サンプルデータの読み込み サンプ...