CATEGORY

Python

OpenCVの基本操作・ファイル読み込み、RGB変換、ヒストグラム表示

OpenCVの基本操作、とくにファイル読み込み、RGB変換、ヒストグラム表示について解説します。   ファイル読み込み・RGB変換・ヒストグラム・画像回転など import cv2 from matplotlib import pyplot as plt import numpy as np ポートレートモデルの未来さんの写真を使ってOpenCVの基本操作をする 元画像は以下のような感じ […]

【5分で読める!】pythonでpyfpgrowthを使って簡単に共起語・バスケット分析をしてみる

概要 pythonで簡単に共起語・バスケット分析する方法を紹介したいと思います。 話を簡単にするため、分析に使用する文章(データ)は、かなり短いものにしています。   そもそも共起語・バスケット分析ってなに バスケット分析についてwikiで調べると以下のように書いています。 バスケット解析(バスケットかいせき)とは、マーケットバスケット解析 (Market Basket Analysis […]

【日本語対応】NetworkX(V2)の使い方!最も行数が少ないPythonサンプル

日本語に対応した、NetworkX(v2.4)とpythonを使って、 簡単なネットワーク図を描画するための実装方法を紹介します。   概要 実装環境 実装時の環境は以下のとおりです。 Python 3.6.8 NetworkX 2.4   実装上のポイント 実装上のポイントを記載します。 FontPropertiesなど使って日本語のフォントを指定しないと文字化けする Net […]

【pythonで自然言語処理】日本語版・word2vecで分散表現した単語を2次元に可視化する

スクレイピングでデータを集めてみたんだけど、10000行とかデータが多すぎて分析が面倒だよ。 なんかいい方法ないかな?     すべてのデータを見るなんて現実的ではないよね。 そんな事やっているのは、De○Aのkaggleの金メダリストくらいだよ〜。 今回は、日本語の類似単語を図に出す方法を解説するよ。 単語を図にプロットするとなんとなく傾向をつかめて良いよ♪   & […]

【pythonで自然言語処理】word2vecで分散表現した単語を2次元に可視化する

意味的に近い単語の分布を知りたい。そんなときは、2次元の分布図を作成するのが有効です。 kaggleで特徴量を調査するときにも役立つツールになります。 この記事では、word2vecによる分散表現、PCA(主成分分析)による次元圧縮(N次元から2次元へ)、単語を2次元の図にプロットする方法を解説します。 なお、word2vecによる分散表現についてはUdemyの自然言語処理の講座が参考になります。 […]

サクッとdockerでpythonとmysqlの開発環境を作成する

■この記事を読むとわかること dockerを使ってpythonからmysqlを呼び出して処理する方法がわかる(「Docker Compose」は利用していません) pythonとmysqlを連携するときに必要なDockerネットワークの使い方がわかる pythonとmysqlを連携する際にハマるポイントがわかる     概要 時間をかけないでpythonとmysqlの開発環境を […]

【ハマり解決】Pythonのmysql接続ライブラリdatasetを使ったらUnicodeEncodeErrorが発生した

Pythonのライブラリdatasetを使ってmysqlにデータを書き込もうとしたときに、UnicodeEncodeErrorが出て書き込みに失敗した。 対処方法がわかったので記事化します!   起きた問題 Pythonのライブラリdatasetを使ってmysqlにデータを書き込み(insert)を試みました。 しかし、insertの処理をしようとしたタイミングで、UnicodeEnco […]

pythonのseleniumでjavascript(ajax)、iframeが使われたページのスクレイピング方法

情報収集には、「スクレイピング」を使うと楽ですが、javascript(ajax)、iframeが使われたサイトだとうまく取得できないことが多いです。 今回は、javascriptによる非同期読み込み、iframeが使われたサイトに対応した、「スクレイピング」方法をseleniumを使った例で解説します。   概要 スクレイピングを使うと、自動でWEBサイトのデータをダウンロードできるの […]