前処理
変数を使用してPandas.DataFrameの列名を動的に設定する方法についてまとめます。 Pythonにはフォーマット済み文字列リテラル(f-strings)という記法が存在するのですが、今回はそれを使用します。 1.フォーマット済み文字列リテラル(f-strings)とは 文…
Pandas Dataframeに対して、locで抽出した方が良いのか、queryで抽出した方が良いのか。 可読性はqueryの方が良さそうですが、今回は性能面で比較してみようと思います。 1.データダウンロード データはsklearnの「カリフォルニア住宅価格」を使用しました…
PythonのPandasを用いて、任意のカラム毎にグルーピングして、過去データを集約する方法についてまとめます。調べても意外と情報が少なくて苦戦しました。見つけても、複数カラムでグルーピングできなかったり、自信のデータを除外できなかったりと。これら…
ImageDataGeneratorを使って画像拡張を色々試してみます。使う画像は実家のワンコ(小次郎君)の写真です。 1.画像の水増し ① 回転(rotation_range) ② 横にずらす(width_shift_range) ③ 縦にずらす(height_shift_range) ④ 明るさを変える(brightnes…
tensorflow.kerasの画像拡張用モジュールImageDataGeneratorを使ってデータ拡張する際に、featurewise系のオプションの使用方法で躓いていたのですが、解決策が分かったのでまとめます。結論は至極シンプルで、しかも公式ドキュメントにちゃんと書かれている…
機械学習における不均衡データへの対処方法としてアンダーサンプリングやオーバーサンプリングについてまとめます。不均衡データとは目的変数のクラスの度数が極端に偏っているデータのことです。今回はKaggleで公開されている「Credit Card Fraud Detection…
※2021/11/4現在において「日付を指定できない問題」が解消していることを確認しました。 ※同様の事象が再発した場合の参考になるかもしれないので、本記事は残しておきます。株価データを取得する際に、多くの人がpandas-datareaderを使ってStooq(各種経済…
本記事では以下についてまとめます。 TensorFlowとPytorchにおける画像のデータ構造の違いについて解説 データ構造の相互に変換する方法について解説 1.TensorFlowとPytorchの画像のデータ構造の違い 1.1.概要 1.2.具体例を使ってデータ構造の違い…
Python上で銘柄コード一覧を取得して、Pandas.DataFrameに格納する方法についてまとめます。手っ取り早くソースコードを見たい方は本記事最下段の参考まで飛んでください。 1.概要 2.JPXから銘柄コード一覧をダウンロード 3.ダウンロードしたExcelをPa…
PythonのPandasで横持ちデータを縦持ちにデータに変換する方法についてまとめます。 縦持ちデータを横持ちデータに変換する方法については過去記事にまとめています。 1.実施内容(概要) Pandasの以下のような横持ちデータを 氏名 数学 国語 英語 ドイツ…
SQLで横持ちデータを縦持ちにデータに変換する方法についてまとめます。 縦持ちデータを横持ちデータに変換する方法については過去記事にまとめています。 1.実施内容(概要) SQLで以下のような横持ちデータを 氏名 数学 国語 英語 ドイツ語 アラビア語 A…
前回はPythonのPandasで縦持ちデータを横持ちにする方法についてまとめましたが、今回はSQLです。PostgreSQLで実行した方法ですが、たぶんOracleやMySQLでも動くと思います。動かったなかったらごめんなさい。 縦持ちデータを横持ちデータに変換する方法につ…
データを縦持ちから横持ちに変換する方法について解説します。 横持ちデータを縦持ちデータに変換する方法についてはこちらでまとめています。 1.そもそも縦持ちと横持ちとは 縦持ちとは縦に長いデータで以下のようなデータのことです。 氏名 科目 点数 A…