酷爸爸網站新開張,想說去抓抓環保署的大氣資料玩玩,沒想到還蠻有趣的,分享給大家。
通常下載資料我們會在GOOGLE打上一些關鍵字,我隨便下了「 環保署 空氣資料下載」,GOOGLE就秀出以下這個網頁的資料下載頁面:
https://erdb.epa.gov.tw/FileDownload/FileDownload.aspx
酷爸爸常蒐集環境的空氣資料,索性在時間點選「近三個月」,才發現這三個Ratio按鈕是幫助選擇下面的起迄時間用的,而近三個月的結果是2018/04~06,以目前的時間點來說,嗯…怪怪的。沒有2019年是以往的慣例,但近三個月不是2018的10、11、12月…好吧,反正只是測試一下。

還很貼心的寫了EXCEL打開CSV檔可能會碰到的問題,這個應該是編碼上的問題,現在大部份的資料都盡可能的使用UTF-8的編碼格式了。EXCEL預設以系統編碼(以WINDOWS來說,BIG-5)來開啟檔案就會出問題。這個是題外話倒是。

點選了「空氣品質測站」、「空氣品質監測日值」。在右邊輸入下載碼「yc3482,卻怎麼也說我輸入錯…原來c要「大寫」…Orz,I Agree…
送出後就可以點選下載抓檔案回來了

會幫我們依月份來分檔案呢。我們先來看看「空氣品質基本資料」吧。

順手點了兩下不小心用EXCEL開啟,竟然是正常的XD。顯然是BIG-5的編碼。剛剛的貼心提醒就多餘了(笑。有個「影像連結」欄位也存著「[URL]/ATM/AQX_P_01/032-201512031040.jpg」,不知道怎麼用@_@。不過整體該有的資訊都有,也不太需要整理。相當便民!
接著,我就開啟4月份的空氣資料…

這其中一定有什麼誤會,不過我再抓一次也還是一樣,應該是檔案有問題(?!。我有嘗試抓抓不同的月份,檔案是正常的。仔細研究後,應該是第一行被拆成了好幾行。使用sublime text開啟檢示如下圖(5月份):

比起一行一行backspace,sublime text有更好的解法:
框起1~39行,ctrl+shift+L,Home,backspace, 收工~
不過裡面也有看到有的項目沒有「雙引號」,有的卻有。PM懸浮微粒的單位部份也包含空格,與最後一行資料的空值(一堆逗號)。

這些雖然在一些資料程式處理時會自動解決,不影響判讀與使用,但還是覺得美中不足就是了。
P.S. 2018年5月份不知道為什麼只有1號到7號的值,在使用時也需要多加注意哦!(從環保署的空氣品質監測網查詢資料是有值的)

值得一提的是,如果研究要做比較即時的部份。就必須要使用上面的網站查詢。不過環保署也有新版的網頁哦,不知道有沒有比較貼心一點就是了。
下一篇將會介紹,如果想抓取「近年」來的即時值資料,手動很辛苦,想使用Python來幫忙,該怎麼做。