Pocket

こんにちは。QAチームでマネージャーをしているエンジニアの斉藤(@saik1010)です。

弊社QAチームで品質向上を目的として取り組んでいる、PythonWebスクレイピングを使用した自動リンクチェッカー(HTTPステータスコードのチェック)について、
環境構築〜実際にリンクチェックを実行するところまでご紹介しようと思います。

環境

環境 バージョン
macOS Sierra 10.12.6
Python 3.6.4
pyenv 1.2.1

1. Pythonのインストール

Homebrewを使用し、Python3をインストールします。
汎用性の考えて、バージョン切り替えが容易にできるpyenvを使用します。

pyenvのインストール

インストールしたいpythonのバージョンを確認

pythonをインストール

pythonのバージョン変更

PATHを通す

設定を反映する

2. Pythonライブラリのインストール

requests

HTTP通信を行うためのライブラリです。
http://requests-docs-ja.readthedocs.io/en/latest/

BeautifulSoup

HTMLやXMLファイルからデータを取り出すためのライブラリです。
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

3. HTTPステータスコードのチェック

インストールしたライブラリを利用して、HTTPステータスコードを実装します。
まずはPythonファイルを作成し、以下のコードを書きましょう。
※私は、test.pyとしました

ソースコード

実行する

実行結果

下記内容がtest.csvに出力されていればOKです。

まとめ

いかがでしたでしょうか?
かなりシンプルにHTTPステータスコードチェックの実装ができました!
HTMLにある要素はなんでも取得できそうなので、ステータスコード以外にも幅広く使えそうです。次回は再帰処理を利用して、リンクを深掘りした実装をしていこうと思います!

◉筆者執筆の「5分でできる自動化」シリーズ
5分でできる!Seleniumでブラウザテスト自動化入門

Wedding Parkでは一緒に技術のウエディングパークを創っていくエンジニアを募集しています。
興味のある方はぜひ一度気軽にオフィスに遊びにきてください。

ブライダル業界のデジタルシフトを加速させるリードエンジニア候補募集!

Pocket

Join Us !

ウエディングパークでは、一緒に働く仲間を募集しています!
ご興味ある方は、お気軽にお問合せください(カジュアル面談から可)

採用情報を見る