pimientitoの機械学習

「機械学習って何だろう。」から、はじまり、いまだ???の毎日。数学初心者、PG・DBアマチュアのサービス・エンジニアが、どこまで理解できるのか。

【前処理の学習-26】データを学ぶ ~結合~①

前回までは、六回に渡りデータの「集約」について学びました。 pimientito-handson-ml.hatenablog.com 今回からデータの「結合」について学んでいきます。 【今回の目標到達点】 データテーブルとマスタテーブルの結合を学ぶ 【目次】 参考資料のご紹介 「デ…

【前処理の学習-25】データを学ぶ ~集約~⑥

前回は、最頻値について学習しました。 pimientito-handson-ml.hatenablog.com 今回も、引続きデータの「集約」について学んでいきます。 【今回の目標到達点】 順位の算出を学ぶ 【目次】 参考資料のご紹介 「データ集約」の概要 今回のテーマ 概要 [SQL]順…

【前処理の学習-24】データを学ぶ ~集約~⑤

前回は、分散値・標準偏差値について学習しました。 pimientito-handson-ml.hatenablog.com 今回も、引続きデータの「集約」について学んでいきます。 【今回の目標到達点】 最頻値の算出を学ぶ 【目次】 参考資料のご紹介 「データ集約」の概要 今回のテス…

【前処理の学習-23】データを学ぶ ~集約~④

前回は、データの極値・代表値について学習しました。 pimientito-handson-ml.hatenablog.com 今回も、引続きデータの「集約」について学んでいきます。 【今回の目標到達点】 データのばらつき具合の算出手法を学ぶ 【目次】 参考資料のご紹介 「データ集約…

【前処理の学習-22】データを学ぶ ~集約~③

前回は、Pythonの集約関数sum( )について学習しました。 pimientito-handson-ml.hatenablog.com 今回も、引続きデータの「集約」について学んでいきます。 【今回の目標到達点】 データの極値・代表値の算出手法を学ぶ 【目次】 参考資料のご紹介 「データ集…

【前処理の学習-21】データを学ぶ ~集約~②

前回は、Pythonのgroupby( )関数を利用して「集約」について学びました。 pimientito-handson-ml.hatenablog.com 今回も、引続きデータの「集約」について学んでいきます。 【今回の目標到達点】 集約関数を使って、データを指定単位にまとめる 【目次】 参…

【前処理の学習-20】データを学ぶ ~集約~①

前回までは、六回に渡りデータの「抽出」について学びました。 pimientito-handson-ml.hatenablog.com 今回からデータの「集約」について学んでいきます。 【今回の目標到達点】 集約関数を使って、データの概要を掴む 【目次】 参考資料のご紹介 「データ集…

【前処理の学習-19】データを学ぶ ~抽出~⑥

前回、前々回の二回にわたって、SQLのWINDOW句を使用したデータサンプリング手法を学びました。 pimientito-handson-ml.hatenablog.com 今回は、WINDOW句を使用した場合と、通常のSQL構文の抽出結果を比較します。 【今回の目標到達点】 SQL文のWINDOW句と、…

【前処理の学習-18】データを学ぶ ~抽出~⑤

前回では、分析対象とサンプリングデータの単位を揃えた抽出手法について学びました。また、たくさんの宿題を残したままになり、今回は、その宿題をひとつずつ学習していきます。 pimientito-handson-ml.hatenablog.com 【今回の目標到達点】 SQL「WINDOW句…

【前処理の学習-17】データを学ぶ ~抽出~④[再編集版]

【「pimientitoの機械学習」をご覧のみなさまへ】(2018.11.18) 平素は、お忙しいなか、私の拙いブログをご覧いただき、誠にありがとうございます。 本記事「【前処理の学習-17】データを学ぶ~抽出~④」の公開後、何度となく、記載内容の誤りや、認識違い…

【前処理の学習-16】データを学ぶ ~抽出~③

前回、DBテーブルのカラム(項目、列)に、インデックスを設定することで、検索処理コストが軽減されるのか検証しましたが、残念ながら、筆者の検証環境の規模が小さいため、目に見えるほどの効果は確認できませんでした。 pimientito-handson-ml.hatenablog…

【前処理の学習-番外編-4】Python/Psycopg2を利用してPostgreSQLへ大量データをINSERTしてみた

前回「【前処理の学習-14】データを学ぶ~抽出~①」で作成したテスト用DBテーブル(以後、テストテーブルと表記)に不足な点があったため、テストテーブルを再作成しようとしたところ、思わぬ問題にぶつかり、試行錯誤を繰り返したため、その足跡を番外編と…

【前処理の学習-15】データを学ぶ ~抽出~②

前回から、データ前処理「抽出」について、学びはじめました。 pimientito-handson-ml.hatenablog.com 【今回の目標到達点】 DBのインデックス機能を利用した場合の優位性を確認する。 【目次】 参考資料のご紹介 「データ抽出」の概要 条件指定によるデータ…

【前処理の学習-14】データを学ぶ ~抽出~①

前回は、いままでの流れを再確認するため、参考資料のご紹介と、検証環境、サンプルデータについて振り返りました。 pimientito-handson-ml.hatenablog.com 今回も、引続き「機械学習」の前処理「抽出」について学んでいきます。 【今回の目標到達点】 イン…

【前処理の学習-13】データを学ぶ・・・その前に。

前回から、本格的に機械学習の前処理について学びはじめました。 pimientito-handson-ml.hatenablog.com 【今回の目標到達点】 いままでの足跡を振り返る 【目次】 参考資料のご紹介 いままでの振り返り(検証環境とサンプルデータについて) 【告知】 10/8 …

【前処理の学習-12】データに触れる(Windows環境編)②

前回から機械学習に使うデータに触れはじめました。 pimientito-handson-ml.hatenablog.com 残念ながら、いまの状態では分析に利用できそうもなく、もう少しデータの整理が必要になりそうです。 【今回の目標到達点】 前処理の学習の方向性を探る 【目次】 …

【前処理の学習-11】データに触れる(Windows環境編)①

前回までの番外編では、PostgreSQLのインストールからDB構築までの工程を全7話で学習してきました。 pimientito-handson-ml.hatenablog.com 今回から、いよいよ「機械学習の前処理」について学習を進めていきます。 【今回の目標到達点】 DB化したデータに触…

【前処理の学習-番外編3-⑦】PostgreSQL 管理Tool「pgAdmin」によるDB管理(Windows環境編)

前回は、PostgreSQL管理ツール「pgAdmin」を使用して、データベースのテーブルを作成しました。 pimientito-handson-ml.hatenablog.com 今回は作成したテーブルへ、実際にデータを入れていきます。 【今回の目標到達点】 (財)気象業務支援センター発行の「…

【前処理の学習-番外編3-⑥】PostgreSQL 管理Tool「pgAdmin」によるDB管理(Windows環境編)

前回は、PostgreSQL管理ツール「pgAdmin」の操作から少し離れて、データベースのテーブルデザインを行いました。 pimientito-handson-ml.hatenablog.com 今回は作成したデザインをもとに、pgAdminでDBテーブルを作成いたします。 【今回の目標到達点】 (財…

【前処理の学習-番外編3-⑤】PostgreSQL 管理Tool「pgAdmin」によるDB管理(Windows環境編)

前回は、PostgreSQL管理ツール「pgAdmin」を使って新しいDBを作成いたしました。 pimientito-handson-ml.hatenablog.com 今回は使用するデータの内容を確認し、テーブルデザインを作成いたします。 【今回の目標到達点】 テーブルデザインの作成 【もくじ】 …

【前処理の学習-番外編3-④】PostgreSQL 管理Tool「pgAdmin」によるDB管理(Windows環境編)

前回は、PostgreSQLの大まかな構成を調べてみました。 pimientito-handson-ml.hatenablog.com 今回から具体的にDBを作成していきます。 【今回の目標到達点】 pgAdminを使ってDBを新規作成する。 【もくじ】 DB設定項目の系統図 DB新規作成 「一般」タブの設…

【前処理の学習-番外編3-③】PostgreSQL 管理Tool「pgAdmin」によるDB管理(Windows環境編)

前回は、PostgreSQL管理ツール「pgAdmin」で、新しいスーパーユーザ「pimientito」を作成いたしました。 pimientito-handson-ml.hatenablog.com 今回は、PostgreSQLを通してデータベース(以後、DBと表記)の構成について学びます。 【今回の目標到達点】 Po…

【前処理の学習-番外編3-②】PostgreSQL 管理Tool「pgAdmin」によるDB管理(Windows環境編)

前回は、PostgreSQL管理ツール「pgAdmin」の機能概要を調べました。 pimientito-handson-ml.hatenablog.com 今回も引続き番外編をお送りいたします。 【もくじ】 ログイン/グループロールの概要 初期ユーザ ユーザ属性 ユーザの新規作成 スーパーユーザ「po…

【前処理の学習-番外編3-①】PostgreSQL 管理Tool「pgAdmin」によるDB管理(Windows環境編)

前回は、Windows7環境へPostgreSQLをインストールしたところで終りました。 pimientito-handson-ml.hatenablog.com 「データベース(以後、DBと表記)」「SQL」「テーブル設計」「正規化」。。。。 資格試験の問題に回答する程度の知識のみで、実際のDB業務…

【前処理の学習-10】データ読込み~PostgreSQLデータベース構築(Windows環境編)① インストール~

【免責事項のお願い】 本記事では、アプリケーションのインストールや設定について説明している部分がございます。ご参考にされる場合は、自己責任の下でご利用いただけますようお願いいたします。 前回まで(財)気象業務支援センター発行の「地上気象観測…

【前処理の学習-番外編2】「Pimientitoの機械学習」の振り返り

みなさまのご支持のおかげで、次回「Pimientitoの機械学習」が、第10回を迎えます。 そこで始まって間もないですが、ちょっと振り返ってみたいと思います。みなさまのご負担にならぬよう、最小限の思い出話しや、機械学習への思いを綴ってまいりますので、し…

【前処理の学習-9】データ読込み~下準備(Windows環境編)④~

前回、データファイルの加工について「心得」のようなものを学びました。おかげで少し気が楽になり「分析のためのデータ加工」に対して、以前より考え方に余裕ができました。 pimientito-handson-ml.hatenablog.com まず、いままでのことを整理するため、デ…

【前処理の学習-番外編】Windows環境でUNIX OS系コマンドを利用する(Cygwinソフトウェアパッケージのインストール)

【免責事項のお願い】 本記事をご参考にされる場合、自己責任の下でご利用いただけますようお願いいたします。 次回以降、Windows環境下でUNIX OS系のコマンドを使用するため、事前にCygwinソフトウェアパッケージをインストールいたします。 なおこの説明に…

【前処理の学習-8】データ読込み~下準備(Windows環境編)③~

前回の記事では、データの項目名が二次元(二行)で表記されていることにより、今後のデータ操作に支障をきたすのではと考え、事前にデータ加工する必要があるのか模索を始めたところで終わりました。 pimientito-handson-ml.hatenablog.com 今回も引き続き…

【前処理の学習-7】データ読込み~下準備(Windows環境編)②~

前回の記事では、Shift-JIS形式のデータファイルを、Excel VBAの力を借りてUTF-8に変換いたしました。 pimientito-handson-ml.hatenablog.com 今回は、jupyter notebookを使って実際にデータの中身を見ていきます。 と、その前に、過去記事で発見した「地上…