seleniumとpythonを使ったスクレイピングをyahoo知恵袋を例に解説!図に出力も
悩みあり スクレイピングはどのようにやるの? 集めたデータは、どのように活用するの? というわけで、今回はYahoo知恵袋の質問の検索結果の取得および、質問の詳細ページの取得を例にスクレイピングの実装例を紹介します。 さらに、集めたデータの活用例としてword2vecとPCAを用いて近い単語をグラフにプロットする例も紹介します。 準備 まずは、スクレイピングするための必 […]
悩みあり スクレイピングはどのようにやるの? 集めたデータは、どのように活用するの? というわけで、今回はYahoo知恵袋の質問の検索結果の取得および、質問の詳細ページの取得を例にスクレイピングの実装例を紹介します。 さらに、集めたデータの活用例としてword2vecとPCAを用いて近い単語をグラフにプロットする例も紹介します。 準備 まずは、スクレイピングするための必 […]
スクレイピングでデータを集めてみたんだけど、10000行とかデータが多すぎて分析が面倒だよ。 なんかいい方法ないかな? すべてのデータを見るなんて現実的ではないよね。 そんな事やっているのは、De○Aのkaggleの金メダリストくらいだよ〜。 今回は、日本語の類似単語を図に出す方法を解説するよ。 単語を図にプロットするとなんとなく傾向をつかめて良いよ♪ & […]
意味的に近い単語の分布を知りたい。そんなときは、2次元の分布図を作成するのが有効です。 kaggleで特徴量を調査するときにも役立つツールになります。 この記事では、word2vecによる分散表現、PCA(主成分分析)による次元圧縮(N次元から2次元へ)、単語を2次元の図にプロットする方法を解説します。 なお、word2vecによる分散表現についてはUdemyの自然言語処理の講座が参考になります。 […]
■この記事を読むとわかること dockerを使ってpythonからmysqlを呼び出して処理する方法がわかる(「Docker Compose」は利用していません) pythonとmysqlを連携するときに必要なDockerネットワークの使い方がわかる pythonとmysqlを連携する際にハマるポイントがわかる 概要 時間をかけないでpythonとmysqlの開発環境を […]
Pythonのライブラリdatasetを使ってmysqlにデータを書き込もうとしたときに、UnicodeEncodeErrorが出て書き込みに失敗した。 対処方法がわかったので記事化します! 起きた問題 Pythonのライブラリdatasetを使ってmysqlにデータを書き込み(insert)を試みました。 しかし、insertの処理をしようとしたタイミングで、UnicodeEnco […]
この記事では、pythonのライブラリmysql.connectorを使って、dockerのmysql8に接続しようとしたとき、caching_sha2_passwordエラーが出でて詰まった人に解決策を述べます! また、dockerを使っていなくてもcaching_sha2_passwordエラーの対処方法がわかると思います! 概要 pythonでmysql8にmysql.connectorライ […]
情報収集には、「スクレイピング」を使うと楽ですが、javascript(ajax)、iframeが使われたサイトだとうまく取得できないことが多いです。 今回は、javascriptによる非同期読み込み、iframeが使われたサイトに対応した、「スクレイピング」方法をseleniumを使った例で解説します。 概要 スクレイピングを使うと、自動でWEBサイトのデータをダウンロードできるの […]
この記事でわかること pythonのnltkでstopwords辞書をダウンロードする方法がわかる nltk.downloadでSSL関係のエラーが出たときの対処方法がわかる pythonの自然言語処理パッケージnltkのnltk.downloadを実行してstopwordsをダウンロードしようとしたら、 SSL CERTIFICATE_VERIFY_FAILEDエラーがでてハマりま […]
以下のような疑問にお答えします テックキャンプのメンターは、親身に接してくれるの? テックキャンプのメンターの評判は、どうなの? そのような疑問にお答えします。 かんたん結論 独自の調査の結果、 テックキャンプのメンターは、親身になって教えてくれることがわかりました! メンターの不評を調べた結果「メンターには、当たり外れはある。現役エンジニアでない人もいる」という声がある一方で、テックキャンプ卒業 […]
この記事を読むとわかること ・メダルが取れる人と、取れない人の思考パターンがわかる ・コンペ「Google QUEST Q&A Labeling」を例に、何をしたら銅メダルを取れるのかわかる ・無メダルと銅メダルの境界ラインが、実際のコードを使った例でわかる プロローグ 先日、2020年2月10日にGoogle QUEST Q&A Labelingが終了しました。 G […]