seleniumとpythonを使ったスクレイピングをyahoo知恵袋を例に解説!図に出力も

悩みあり スクレイピングはどのようにやるの? 集めたデータは、どのように活用するの?   というわけで、今回はYahoo知恵袋の質問の検索結果の取得および、質問の詳細ページの取得を例にスクレイピングの実装例を紹介します。 さらに、集めたデータの活用例としてword2vecとPCAを用いて近い単語をグラフにプロットする例も紹介します。   準備 まずは、スクレイピングするための必 […]

【pythonで自然言語処理】日本語版・word2vecで分散表現した単語を2次元に可視化する

スクレイピングでデータを集めてみたんだけど、10000行とかデータが多すぎて分析が面倒だよ。 なんかいい方法ないかな?     すべてのデータを見るなんて現実的ではないよね。 そんな事やっているのは、De○Aのkaggleの金メダリストくらいだよ〜。 今回は、日本語の類似単語を図に出す方法を解説するよ。 単語を図にプロットするとなんとなく傾向をつかめて良いよ♪   & […]

【pythonで自然言語処理】word2vecで分散表現した単語を2次元に可視化する

意味的に近い単語の分布を知りたい。そんなときは、2次元の分布図を作成するのが有効です。 kaggleで特徴量を調査するときにも役立つツールになります。 この記事では、word2vecによる分散表現、PCA(主成分分析)による次元圧縮(N次元から2次元へ)、単語を2次元の図にプロットする方法を解説します。 なお、word2vecによる分散表現についてはUdemyの自然言語処理の講座が参考になります。 […]

サクッとdockerでpythonとmysqlの開発環境を作成する

■この記事を読むとわかること dockerを使ってpythonからmysqlを呼び出して処理する方法がわかる(「Docker Compose」は利用していません) pythonとmysqlを連携するときに必要なDockerネットワークの使い方がわかる pythonとmysqlを連携する際にハマるポイントがわかる     概要 時間をかけないでpythonとmysqlの開発環境を […]

【ハマり解決】Pythonのmysql接続ライブラリdatasetを使ったらUnicodeEncodeErrorが発生した

Pythonのライブラリdatasetを使ってmysqlにデータを書き込もうとしたときに、UnicodeEncodeErrorが出て書き込みに失敗した。 対処方法がわかったので記事化します!   起きた問題 Pythonのライブラリdatasetを使ってmysqlにデータを書き込み(insert)を試みました。 しかし、insertの処理をしようとしたタイミングで、UnicodeEnco […]

pythonのseleniumでjavascript(ajax)、iframeが使われたページのスクレイピング方法

情報収集には、「スクレイピング」を使うと楽ですが、javascript(ajax)、iframeが使われたサイトだとうまく取得できないことが多いです。 今回は、javascriptによる非同期読み込み、iframeが使われたサイトに対応した、「スクレイピング」方法をseleniumを使った例で解説します。   概要 スクレイピングを使うと、自動でWEBサイトのデータをダウンロードできるの […]

テックキャンプのメンターは親身なの?【評判、卒業生の声から考察してみた】

以下のような疑問にお答えします テックキャンプのメンターは、親身に接してくれるの? テックキャンプのメンターの評判は、どうなの? そのような疑問にお答えします。 かんたん結論 独自の調査の結果、 テックキャンプのメンターは、親身になって教えてくれることがわかりました! メンターの不評を調べた結果「メンターには、当たり外れはある。現役エンジニアでない人もいる」という声がある一方で、テックキャンプ卒業 […]

Kaggleで銅メダル以上を取るには?コンペ後にwinner solutionを試した結果・・・

この記事を読むとわかること ・メダルが取れる人と、取れない人の思考パターンがわかる ・コンペ「Google QUEST Q&A Labeling」を例に、何をしたら銅メダルを取れるのかわかる ・無メダルと銅メダルの境界ラインが、実際のコードを使った例でわかる   プロローグ 先日、2020年2月10日にGoogle QUEST Q&A Labelingが終了しました。 G […]