前々回【前処理の学習-3】では、読込んだデータが文字化けしたことで頓挫したデータ読込み。いったん文字コード・改行コードについて見直し、あらためてデータ読込みに挑戦いたします。
データ分析は本業ではないためセオリーを分かっておらず、どのように進めていけば良いのか考えに耽っていると、ふっとひらめいたのは「他のアプリケーションで、直接データを覗いてみよう。」でした。
前々回では、すべてMacOS環境下で、以下のようにいろいろと試してみました。
jupyter notebookでエラー確認
terminalから
$cat {データファイル.csv}
で文字化けを確認テキストエディタで開くも、やはり文字化けを確認
以上のことから、今回は、Windows環境で、以下のことを試してみました。
その結果が、下記の通りです。
!!! 注意 !!! 必ずデータは、コピーを取ってから、いろいろと試してください。
データファイルをExcelで開いてみる
結果から申しますと文字コードや改行コードのような制御コードは見えないため、きれいなデータが表示されました。
若干、赤枠で囲った部分に違和感を感じながらも、内容を読む事ができたので、ちょっと嬉しかったです。
続いて
データファイルをテキストエディタで開いてみる
こちらも、結果は良好。MacOSのテキストエディタでは、文字化けしていた部分が、Windows上のテキストエディタでは、クリアにデータを読むことができました。
やはり赤枠のところに違和感を感じつつも、先に進めます。
このあと、テキストエディタ上で、現在設定されている文字コード/改行コードを確認いたしました。
確認方法は「名前を付けて保存」で表示されるダイアログから見てみました。
[Windows7][-][サクラエディタ]
確認の結果
文字コードが「UTF-8」ではありませんでした。これが文字化けの原因だったのですね。
再度、動作確認をするため、一度開いたデータファイルは破棄し、あらためてオリジナルデータファイルのコピーを取り、Windows環境のjupyter notebookでデータを読込んでみました。
結果は、以下の通り、Windows環境でも、やはりエラーとなってしまいました。。。
[Windows][Python][jupyter notebook]
[Windows][Python][jupyter notebook]
では先ほど「名前を付けて保存」で確認したダイアログから、文字コードを「UTF-8」に変更し保存することで、何か変化があるのか試します。
文字コード変更後、あらためてjupyter notebookで、データファイルを読込みます。
[Windows][Python][jupyter notebook]
「あれっ?エラーが出なかった。」
続けてコードdf.head()
を書き実行しました。
[Windows][Python][jupyter notebook]
「おおぉっ~データが表示されたっ!」
とても他愛無いことですが、サンプルプログラムの写経や、GitHubに用意された学習用データファイルを利用していた身といたしましては、感慨深いものがあります。
表示されたデータの内容については、やはり「う~ん。。???」という部分もありますが、いったん「データ読込み~事前確認~」のミッションはクリアしたのではと思います。
最後に、もうひとつ確認を。
メモ帳でも、文字コードの設定が変更できるのか
これは非常に大切なことで、有償など特別なアプリケーションを用意しなくても、誰でもすぐに始められる機械学習であってほしいという思いから、Windowsに標準装備されているメモ帳でも、今回の作業ができることを確認したかったのです。
その結果は、以下の通りです。
[Windows][-][メモ帳]
当たり前のことなのでしょうが、メモ帳でも「UTF-8」への設定変更が可能でした(^-^)v
いよいよ次回からは、データの内容に迫って参ります。
今回は、以上です。
【参考資料】
「地上気象観測時日別編集データ(CSV版)2000年」((財)気象業務支援センター 発行)