💡 Key Takeaways
- The Spreadsheet That Nearly Cost Me My Job
- Why Python Beats Excel for Data Analysis (And When It Doesn't)
- Setting Up Your Python Environment in 10 Minutes
- Your First Data Analysis: Loading and Exploring a CSV File
私の仕事を危うく失わせたスプレッドシート
マネージャーが47タブの印刷されたExcelスプレッドシートを持って私のキュービクルに入ってきた朝を今でも覚えています。「サラ」と、彼女は苛立ちの声で言いました。「午後1時に始まる取締役会に向けて、正午までにQ3の分析が必要です。」時刻は午前9時47分。私は顧客取引データの18万行を分析し、トレンドを特定し、維持率メトリクスを計算し、230万ドルの予算決定に影響を与えるビジュアライゼーションを作成するために、2時間13分しかありませんでした。
💡 重要なポイント
- 私の仕事を危うく失わせたスプレッドシート
- データ分析におけるPythonの優位性(とその例外)
- 10分でPython環境をセットアップする
- あなたの初めてのデータ分析:CSVファイルの読み込みと探索
それは7年前、私が中規模のeコマース会社でジュニアアナリストだった頃のことです。次の90分をクリック、ドラッグ、そしてピボットテーブルがクラッシュしないことを祈りながら過ごしました。4分で締切に間に合いました。プレゼンテーションはうまくいきましたが、運が良かったことを知っていました。その夜、私は初めてPythonをダウンロードしました。
今では、リテール、ヘルスケア、ファイナンス部門で5000万行以上のデータを処理したシニアデータアナリストとして、同じ分析を15分以内で完了でき、正確性も大幅に向上しています。Pythonは私のワークフローだけでなく、キャリア全体の軌道を変えました。私の給与は3年間で64%増加しました。私は月曜日の朝のデータリクエストを恐れるのではなく、数字に隠された洞察を見つける探偵の仕事を楽しむようになりました。
一番の利点は?コンピュータサイエンスの学位や数ヶ月のトレーニングは必要ありません。次の30分で、実際のデータをPythonで分析し始める方法を正確にお見せします。理論ではなく、抽象的な概念でもありません。実際に、明日の朝に上司からメールで送られたCSVファイルを開いたときに使える実践的なスキルです。
データ分析におけるPythonの優位性(とその例外)
正直に言わせてください:Excelはどこにも行かず、行くべきではありません。私は今でもほぼ毎日、クイックチェック、簡単な計算、非技術的な利害関係者との結果の共有に使っています。しかし、7年間にわたりデータを両方の方法で分析した後に学んだことがあります:Excelはスポーツカーで、Pythonは貨物列車です。スポーツカーは町を快速で移動するのに完璧です。貨物列車は、本格的な貨物を運ぶ必要があるときに必要です。
"ジュニアアナリストとシニアアナリストの違いは知性ではありません。それは15分で100,000行を処理する能力であり、3時間ではありません."
Pythonは、Excelが泣くであろうボリュームを扱います。私は一度、2.1 GBのCSVファイルをExcelで開こうとしました。読み込むのに11分かかり、計算列を追加しようとしたときにクラッシュしました。Pythonでは、pandasライブラリを使って同じファイルを23秒で読み込み、さらに8秒で複雑な集計を行いました。これが誇張ではないことを証明するために、私は時間を計りました。
再現性は、Pythonが本当に輝くところです。私がPythonで行うすべての分析はコードに文書化されています。「プレミアムセグメントの顧客生涯価値をどのように計算したの?」とマネージャーが尋ねたとき、私は3週間前にクリックしたセルや適用したフィルターを思い出す必要はありません。Pythonスクリプトを開くと、すべての手順が明確に書かれており、レビューまたは更新データで再実行する準備が整っています。これにより、少なくとも10回はエラーを回避できました。
Pythonはまた、あなたの野心に応じてスケールします。まずは今日から基本的なCSV分析を始めましょう。来月は、会社のデータベースに直接接続します。6ヶ月後には、毎朝出社前に実行される自動レポートを構築します。1年後には、顧客離脱を予測する機械学習モデルを実装します。これらのタスクには、共通の基礎的なスキルが適用されます。一方、Excelはかなり早く天井に達します。
しかし、私がまだExcelを選ぶのは次のときです:素早い一回限りのチェック(この数字は妥当か?)、スプレッドシートを「見る」ことを望む幹部との結果の共有、そして技術的でないチームメンバーとの共同作業。Pythonは、全員がPythonをインストールし、基本的なプログラミングの概念を理解している必要があります。Excelは普遍的です。あなたのオーディエンスを知り、適切に選択しましょう。
10分でPython環境をセットアップする
Pythonを始める上での最大の障壁は、言語を学ぶことではなく、すべてをインストールして設定することです。私は同僚がインストール手順で迷ってしまい、1行もコードを書く前に諦めるのを見てきました。私が誰かに教えてもらいたかった明確な道をお教えします。
| 特徴 | Excel | Python (pandas) | 最適な使用ケース |
|---|---|---|---|
| 行制限 | 1,048,576行 | RAMのみ(数百万+)によって制限される | 大規模データセット向けのPython |
| 学習曲線 | 基本を習得するのに1~2週間 | データ分析には2~4週間 | 即座に始めるためのExcel |
| 自動化 | マクロ(制限あり、脆弱) | 完全にスクリプト可能で再現可能 | 定期的なタスクにはPython |
| コラボレーション | 簡単な共有、バージョンの競合 | Gitフレンドリー、再現可能なコード | 素早い共有にはExcel |
| コスト | $70-160/年(Microsoft 365) | 無料でオープンソース | 予算に配慮したチーム向けのPython |
Anacondaをダウンロードしてください。Pythonそのものやpip、仮想環境ではなく、Anacondaだけを。anaconda.comにアクセスし、あなたのオペレーティングシステム用のインストーラーをダウンロードして実行します。AnacondaはPythonと、必要なすべてのデータ分析ライブラリが含まれるディストリビューションで、事前に設定されていてすぐに使えます。約500 MBですので、ダウンロードはインターネット速度に応じて3~8分かかります。
インストール中は、すべてのデフォルトオプションを受け入れてください。何もカスタマイズしないでください。インストールパスや環境変数を変更することで問題が発生し、数時間トラブルシューティングに費やす人を見てきました。デフォルト設定で完璧に機能します。Windowsの場合、インストーラーはAnacondaをPATHに追加するかどうか尋ねてきます—「はい」と答えてください。これにより、コンピュータのどこからでもPythonを実行するのがはるかに簡単になります。
インストールが完了したら、Anaconda Navigatorを開きます。いくつかのアプリケーションが表示されます。「Jupyter Notebook」の下にある「起動」をクリックします。ファイルシステムを表示するブラウザウィンドウが開きます。これがあなたの作業スペースです。分析プロジェクトを保存するフォルダーに移動します—I use a folder called "data_projects" in my Documents—and click "New" then "Python 3" in the top right corner.
おめでとうございます。今、あなたはJupyterノートブックを見ています。ここでPythonコードを書いて実行します。これは、コード、結果、ノートを1つの場所に組み合わせたスマートドキュメントとして考えましょう。最初のセルに以下を入力します: print("Hello, data world!") とShift+Enterを押します。セルの下に「Hello, data world!」が表示されれば、あなたの環境は完璧に機能しています。
このプロセス全体—ダウンロード、インストール、起動、テスト—には約10分かかります。私は同僚をトレーニングする際に、少なくとも30台の異なるコンピュータでこれを行ってきたので、驚くほど一貫しています。唯一の一般的な問題は、インストールをブロックするウイルス対策ソフトウェアですが、その場合は通常、インストールプロセス中に一時的に無効にすることで解決できます。
あなたの初めてのデータ分析:CSVファイルの読み込みと探索
実際のデータを分析してみましょう。例として販売データセットを使用しますが、同じテクニックはすべてのCSVファイル—顧客データ、調査回答、財務取引、ウェブサイトの分析、あなたが取り組んでいるものに適用できます。パターンは普遍的です。
"Excelは成長した計算機であり、Pythonはデータを扱うことを学んだプログラミング言語です。問題のサイズに合うツールを知りましょう。"
まず、データが必要です。手元にCSVファイルがない場合は、Excelで「日付」「製品」「数量」「収益」などの列を持つシンプルなファイルを作成し、「sales_data.csv」としてJupyterノートブックがある同じフォルダーに保存してください。または、kaggle.comからサンプルデータセットをダウンロードしてください—彼らは実践に最適な数千の無料データセットがあります。
Jupyterノートブックで、データ分析を非常に強力にするライブラリpandasをインポートすることから始めます。新しいセルに以下を入力します:
import pandas as pd
Shift+Enterを押して実行します。目に見える何も起こりませんが、データを扱うための何百もの関数を含むライブラリをロードしました。「as pd」という部分は省略形で、毎回「pandas」と入力する代わりに「pd」と入力できます。これは、ほぼすべてのPythonデータアナリストが従う慣例です。
次にCSVファイルをロードします:
df = pd.read_csv('sales_data.csv')
これで終わりです。たった1行のコードで、あなたのデータセット全体が「df」という変数にロードされました(これはpandasがデータの表を呼ぶ名前です)。私は最初にこれを見たとき、何年もクリックしていた後で、信じられませんでした。