CATEGORY

機械学習

【Pythonで機械学習】過学習対策にRFEを活用した次元削除方法

Kaggleのコンペでデータ分析をやっていると、カラム数が100(100次元)を超えるもの、pandas.get_dummies関数を使って、カテゴリ変数の数量化をやるとカラム数が一気に増えてしまうものです。 カラム数が増えた状態で機械学習のアルゴリズムに通すと、過学習の原因になることがあります。さらに、学習の時間が増えます。 過学習の対策の一つとしてscikit-learnのライブラリーであるR […]

Python・matplotlibで図の中のテキストが重なってしまうときの2つの対処方法

matplotlibを使って、図の中にtext(テキスト)を配置しました。 すると、文字が重なってしまいました。 試行錯誤していたら2つの対処方法がわかったので記事化します!   上記の図は、かなりテキストが重なり合ってしまっていると言えます。 実現したいこと 実現したいことは、値(点)が近すぎて、テキストが重なり合ってしまっても、テキストの内容を確認できること。 そこで私は、以下の2つ […]

【図解あり】Pythonの3次元配列で苦しんでる方へ | 時系列の天気予報とnumpy.zerosを例に解説

最近、3次元配列を扱うことになったのですが、直感的なイメージができず頭の中が混乱してしまいました。 どのように3次元配列をどのように理解すればよいか、自分なりの答えがでたので記事にします!     どんなときに3次元配列を使うの?   3次元配列が必要になるケース ・機械学習のRNNなどの時系列で処理するもの ・天気予報など時間の流れを考慮して予測。 ・自然言語処理の […]

【5分】機械学習の流れをPythonコードで確認!scikit-learnでデータ準備・訓練・モデルの評価の解説!

機械学習というと、TensorFlow、Keras、ニューラルネットワークなどどこから学んでよいかわからなくなります。機械学習を学ぶ上で、比較的簡単なのがscikit-learnです。 この記事では、scikit-learnを使って、データの読み込み、モデルの作成(訓練)、モデルの評価と、機械学習の一連の流れを解説します。   この記事は、以下のような人を対象にしています。 ・機械学習を […]

Pythonの機械学習プログラムを勉強したらKaggleのタイタニック問題にトライ

この記事は、2019年6月時点の執筆内容のため技術的に古い内容になります。 先日、機械学習の勉強会に参加してきた。 そこで、Kaggleの存在を知ることになりました。   Kaggleは、世界中のデーターサイエンティスト、AIエンジニアが集まるネットワーク上のコミュニティです。 企業や研究者がデータを投稿し、コンペという形で精度の良い予測モデリングを競わせます。 最近では、日本企業のメル […]

コードあり!単語の頻出度がわかるWordCloudを使って文章を画像化してみた

PythonのWordCloudを使って、以下のような単語の頻出度を画像化してみました。 画像化するフローを紹介します!     大きい文字ほど、出現回数が多い単語です。   作ったプログラムの概要 Mysqlに保存した文章データを1件ほど読み込んで、形態素分析します。 形態素分析で分けた文字列の品詞は、「名詞」「形容詞」だけに限定しています。文書の中で、どんな単語を […]