こんにちは、あきぞらです。
コロナウイルス関連の情報を確認していたら厚生労働省のサイトにRSSで情報を提供していたので、
最新情報のURLリンクを取得するスクリプトを作成してみました。
RSSについてはこちらを参照ください。RSS
ウェブサイトの更新情報を配信するための文書フォーマットのことです。
厚生労働省のRSSにアクセスしてデータを取得してみる
厚生労働省では、RSSでの情報を提供しているようです(2020/03/29時点)。
こちらから最新情報のURLを取得したいと思います。
feedparserのインストール
まず、feedparserをpip でインストールします。
$ pip install feedparser
feedparserを使ってURL一覧を取得
以下のようなコードで、簡単にURLの一覧を作成することができます。
RSSのデータを確認すると、
linkタグからURLが取れそうなのでそこから取得してみます。
またnewpageと記載されているURLが新着情報っぽいので、
この文字列が含まれるURLの一覧を取得してみます。
import feedparser def getRssFeedData(): # アクセスするrdfのURLを記載 RSS_URL = 'https://www.mhlw.go.jp/stf/news.rdf' xml = feedparser.parse(RSS_URL) for entry in xml.entries: # linkの中からnewpageの文字列を含むURLを取り出す if('newpage' in entry.link): print(entry.link) getRssFeedData()
実行すると、確かにURLの一覧が取得できました。
$ python getRssFeed.py https://www.mhlw.go.jp/stf/newpage_10555.html https://www.mhlw.go.jp/stf/newpage_10552.html https://www.mhlw.go.jp/stf/newpage_10551.html https://www.mhlw.go.jp/stf/newpage_10549.html