Wikipediaからデータをダウンロードする
Wikipediaからデータをダウンロードするには、wikipediaという名前のモジュールを使います。これを使うための準備として、以下のコマンドをShellで実行してください。
sudo pip3 install wikipedia
Wikipediaからデータをダウンロードするサンプル・プログラムがwiki.pyです。まずは、プログラムの中でこのモジュールをインポートします:
import wikipedia
そして、使用言語を指定します:
wikipedia.set_lang("en")
英語なら”en”、日本語なら”ja”を指定します。
キーワードでWikipediaのページを検索して、ページ内の先頭部分の文章をダウンロードするには、以下のようにwikipedia.summary()という関数を使います:
summaryEn = wikipedia.summary("Milky Way", sentences=1, auto_suggest=False)
print(summaryEn)
ここでは、キーワードを”Milky Way”、ダウンロードする文章を1つ指定しています。sentences=2
とすれば先頭から文章を2つ、sentences=3
とすれば先頭から文章を3つダウンロードできます。
キーワードでWikipediaのページを検索して、ページ全体をダウンロードするには、以下のようにwikipedia.page()という関数を使います:
searchResult = wikipedia.page("Milky Way", auto_suggest=False)
print( searchResult.title )
print( searchResult.url )
print( searchResult.content )
print( searchResult.images )