Python

Pythonでfeedparserを使用してRSSからデータを取得する

こんにちは、あきぞらです。

コロナウイルス関連の情報を確認していたら厚生労働省のサイトにRSSで情報を提供していたので、

最新情報のURLリンクを取得するスクリプトを作成してみました。

RSSについてはこちらを参照ください。RSS

ウェブサイトの更新情報を配信するための文書フォーマットのことです。

厚生労働省のRSSにアクセスしてデータを取得してみる

厚生労働省では、RSSでの情報を提供しているようです(2020/03/29時点)。

こちらから最新情報のURLを取得したいと思います。

feedparserのインストール

まず、feedparserをpip でインストールします。

$ pip install feedparser

feedparserを使ってURL一覧を取得

以下のようなコードで、簡単にURLの一覧を作成することができます。

RSSのデータを確認すると、

linkタグからURLが取れそうなのでそこから取得してみます。

またnewpageと記載されているURLが新着情報っぽいので、

この文字列が含まれるURLの一覧を取得してみます。

import feedparser

def getRssFeedData(): # アクセスするrdfのURLを記載
    RSS_URL = 'https://www.mhlw.go.jp/stf/news.rdf'
    xml = feedparser.parse(RSS_URL)
    for entry in xml.entries:
        # linkの中からnewpageの文字列を含むURLを取り出す
        if('newpage' in entry.link):
            print(entry.link)

getRssFeedData()

実行すると、確かにURLの一覧が取得できました。

$ python getRssFeed.py
https://www.mhlw.go.jp/stf/newpage_10555.html
https://www.mhlw.go.jp/stf/newpage_10552.html
https://www.mhlw.go.jp/stf/newpage_10551.html
https://www.mhlw.go.jp/stf/newpage_10549.html

-Python

Copyright© あきぞらてっく , 2025 All Rights Reserved Powered by AFFINGER5.