
こんにちは、あきぞらです。
スプレッドシートで仕事をする人も多いと思います。
「スプレッドにWEBサイトの情報をまとめておきたいな…。」
ってときありますよね?
そんなとき、スプレッドシートだけでスクレイピングできたら便利ですよね。
今日はその方法を紹介したいと思います!
IMPORTXML関数で スクレイピングする方法
スプレッドシートのIMPORTXML関数というのを使うと、
かなり簡単にWebスクレイピングすることができます。
IMPORTXML関数の式はこんな感じです。
=IMPORTXML(サイトのURL, XPATH)
XPATHというのは、HTMLやXMLの要素を指定するための書きかたです。
たとえば、Webサイト「website.akizora.tech」に、こんな感じのHTML(XML)があったとします。
<contents>
<subject>
<test>てすと</test>
</subject>
</contents>
この「てすと」を取得するにはこう書きます。
=IMPORTXML('website.akizora.tech', '//contents/subject/test')
一番上の階層を「//」とし、そこから要素ごとにスラッシュ「/」で区切っていきます。
これで簡単に値が取得できます。
とても簡単なので、ぜひ。