Kaggleなどでcsvファイル以外の圧縮ファイルなどをcsvで読み出す方法
状況
Kaggleでは多くの場合、Dataのインプットとして様々な形式のデータが与えられます。
csvであることは多いのですが、 この問題のように、DataSourceがzipであたえらることもあります。
csvの場合、
import pandas as pd train = pd.read_csv(f'/kaggle/input/folder_name/train.csv')
のようにpandas.read_csv
を使うことで、csvは読み込めるのですが、zipなどの場合どうすればいいのか…と悩んだのと、Kaggle以外でも使えそうだったので、その備忘録。
やるべきこと
csvの時と同じようにpandas.read_csv
をすれば良い
import pandas as pd train = pd.read_csv(f'/kaggle/input/folder_name/train.zip')
試しに読み出してみた結果。
解説
公式リファレンスのcompression
の通りでした。
デフォルトでは拡張子を読み取っていい感じに読み取ってくれるぽいです。
ただ場合によっては、sep
(csvがなにで分割されているか)の指定や、header
(1行目を読み出すかどうか)の指定は必要そうです。