pimientitoの機械学習

「機械学習って何だろう。」から、はじまり、いまだ???の毎日。数学初心者、PG・DBアマチュアのサービス・エンジニアが、どこまで理解できるのか。

【前処理の学習-5】データ読込み~事前確認②~

前々回【前処理の学習-3】では、読込んだデータが文字化けしたことで頓挫したデータ読込み。いったん文字コード・改行コードについて見直し、あらためてデータ読込みに挑戦いたします。

データ分析は本業ではないためセオリーを分かっておらず、どのように進めていけば良いのか考えに耽っていると、ふっとひらめいたのは「他のアプリケーションで、直接データを覗いてみよう。」でした。

前々回では、すべてMacOS環境下で、以下のようにいろいろと試してみました。

  • jupyter notebookでエラー確認

  • terminalから$cat {データファイル.csv}で文字化けを確認

  • テキストエディタで開くも、やはり文字化けを確認



以上のことから、今回は、Windows環境で、以下のことを試してみました。

  • データファイルをExcelで開いてみる

  • テキストエディタでも開いてみる

  • 念のためメモ帳でも動作確認をする。



その結果が、下記の通りです。

!!! 注意 !!! 必ずデータは、コピーを取ってから、いろいろと試してください。

データファイルをExcelで開いてみる

結果から申しますと文字コードや改行コードのような制御コードは見えないため、きれいなデータが表示されました。

[Windows7][-][Excel]

f:id:Pimientito:20180713014744j:plain

若干、赤枠で囲った部分に違和感を感じながらも、内容を読む事ができたので、ちょっと嬉しかったです。

続いて

データファイルをテキストエディタで開いてみる

こちらも、結果は良好。MacOSテキストエディタでは、文字化けしていた部分が、Windows上のテキストエディタでは、クリアにデータを読むことができました。

[Windows7][-][サクラエディタ]

f:id:Pimientito:20180713015520j:plain

やはり赤枠のところに違和感を感じつつも、先に進めます。

このあと、テキストエディタ上で、現在設定されている文字コード/改行コードを確認いたしました。

確認方法は「名前を付けて保存」で表示されるダイアログから見てみました。
[Windows7][-][サクラエディタ]

f:id:Pimientito:20180713020645j:plain



確認の結果

  • 文字コード(セット)はSJIS(Shift-JIS)」

  • 改行コードは「変換なし」(変換なしとは、どういう状況なのか。またの機会に確認いたします。)


文字コードが「UTF-8」ではありませんでした。これが文字化けの原因だったのですね。

再度、動作確認をするため、一度開いたデータファイルは破棄し、あらためてオリジナルデータファイルのコピーを取り、Windows環境のjupyter notebookでデータを読込んでみました。

結果は、以下の通り、Windows環境でも、やはりエラーとなってしまいました。。。
[Windows][Python][jupyter notebook]

f:id:Pimientito:20180713021552j:plain



[Windows][Python][jupyter notebook]

f:id:Pimientito:20180713021609j:plain


では先ほど「名前を付けて保存」で確認したダイアログから、文字コードを「UTF-8」に変更し保存することで、何か変化があるのか試します。


[Windows7][-][サクラエディタ]

f:id:Pimientito:20180713022133j:plain


文字コード変更後、あらためてjupyter notebookで、データファイルを読込みます。


[Windows][Python][jupyter notebook]

f:id:Pimientito:20180713022342j:plain



「あれっ?エラーが出なかった。」



続けてコードdf.head()を書き実行しました。


[Windows][Python][jupyter notebook]

f:id:Pimientito:20180713022544j:plain


「おおぉっ~データが表示されたっ!」

とても他愛無いことですが、サンプルプログラムの写経や、GitHubに用意された学習用データファイルを利用していた身といたしましては、感慨深いものがあります。

表示されたデータの内容については、やはり「う~ん。。???」という部分もありますが、いったん「データ読込み~事前確認~」のミッションはクリアしたのではと思います。

最後に、もうひとつ確認を。

メモ帳でも、文字コードの設定が変更できるのか

これは非常に大切なことで、有償など特別なアプリケーションを用意しなくても、誰でもすぐに始められる機械学習であってほしいという思いから、Windowsに標準装備されているメモ帳でも、今回の作業ができることを確認したかったのです。

その結果は、以下の通りです。


[Windows][-][メモ帳]

f:id:Pimientito:20180713024818j:plain

当たり前のことなのでしょうが、メモ帳でも「UTF-8」への設定変更が可能でした(^-^)v

いよいよ次回からは、データの内容に迫って参ります。

今回は、以上です。





【参考資料】