[討論] 為什麼資料分析需要會編程語言

leohope

對於資料分析,如果只是給定準備好的資料集,做簡單的描述性統計、簡單繪圖,那麼不太需要掌握任何編程語言。問題是,現實中收集到的資料是多樣的、基礎的,很少能直接滿足模型對資料規格的要求以及模型成立的假設,那麼就需要在分析前變換、合并、分類、整理資料,此時可能需要從資料庫用SQL跨表查詢,資料整理好後利用模型做統計推斷或者機器學習等等,形成樣本內或樣本外的預測,可能還要用視覺化的方式呈現結果。

這整個過程中,各個環節都可能涉及到大量的參數需要調節,各種細節都需要控制,還有很多主觀的選擇。這樣的過程如果用軟體窗口去實現,窗口中的選項將非常複雜,整個過程需要在多個資料及上重複執行也很麻煩。用編程語言可以精確地描述整個過程,控制大部分細節,並且可以批量的重複實現。

資料分析和探索的過程是一個不斷嘗試想法、驗證假設的過程,這就需要臨時產生、執行新的代碼,腳本語言如Python和R天生就是對這樣的互動操作有很好的支持。如果這種過程都用C++或Java這些需要編譯(二進位或bytecode)——執行的語言來完成,那麼過程將比較痛苦。

因此對於專業的資料分析,掌握資料庫的應用、資料分析的編程語言是很有必要的。題目中提到的編程語言一些是通用編程語言(如C++、Java)可以廣泛地用於開發各種項目,而R作為腳本語言憑藉其良好的互動性和豐富的擴展包資源可以方便地解決大部分資料處理、變換、統計分析、資料視覺化的問題,並可以重現所有的細節。資料分析者最好通用語言和腳本語言各至少掌握一種,這樣在處理許多項目時就能合理地發揮不同語言的優勢,提高整體的生產力。對於資料分析,如果只是給定準備好的資料集,做簡單的描述性統計、簡單繪圖,那麼不太需要掌握任何編程語言。問題是,現實中收集到的資料是多樣的、基礎的,很少能直接滿足模型對資料規格的要求以及模型成立的假設,那麼就需要在分析前變換、合并、分類、整理資料,此時可能需要從資料庫用SQL跨表查詢,資料整理好後利用模型做統計推斷或者機器學習等等,形成樣本內或樣本外的預測,可能還要用視覺化的方式呈現結果。
這整個過程中,各個環節都可能涉及到大量的參數需要調節,各種細節都需要控制,還有很多主觀的選擇。這樣的過程如果用軟體窗口去實現,窗口中的選項將非常複雜,整個過程需要在多個資料及上重複執行也很麻煩。用編程語言可以精確地描述整個過程,控制大部分細節,並且可以批量的重複實現。

資料分析和探索的過程是一個不斷嘗試想法、驗證假設的過程,這就需要臨時產生、執行新的代碼,腳本語言如Python和R天生就是對這樣的互動操作有很好的支持。如果這種過程都用C++或Java這些需要編譯(二進位或bytecode)——執行的語言來完成,那麼過程將比較痛苦。
因此對於專業的資料分析,掌握資料庫的應用、資料分析的編程語言是很有必要的。題目中提到的編程語言一些是通用編程語言(如C++、Java)可以廣泛地用於開發各種項目,而R作為腳本語言憑藉其良好的互動性和豐富的擴展包資源可以方便地解決大部分資料處理、變換、統計分析、資料視覺化的問題,並可以重現所有的細節。資料分析者最好通用語言和腳本語言各至少掌握一種,這樣在處理許多項目時就能合理地發揮不同語言的優勢,提高整體的生產力。

opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。分享自:巨量資料實驗室

原文網址:https://t17.techbang.com/topics/36308-why-would-data-analysis-need-to-be-a-programming-language?page=1