データサイエンスの歴史
Contents
1663年~ジョン・グラントの人口統計データ
1663年、英国の人口学者であるジョン・グラントは、ロンドンの死亡率に関する情報を記録して分析しました。
3つのルールで計算し、ロンドンとイングランドの人口の規模、男性と女性の出生率と死亡率、などについてデータを収集し、特定の病気の広がりなどの警告に使用していました。
John Grauntは「人口統計学の父」としても知られています。

1763年~ベイズの定理

1763年、トーマスベイズの死後に発表された、ベイズ定理は、現代にも繋がるデータサイエンスの基礎の1つとなっています。
1840年~人類初のコンピュータープログラマー

ラブレース伯爵夫人オーガスタ・エイダ・キング(Augusta Ada King, Countess of Lovelace)はプログラミングデータサイエンスにとって非常に重要であり、17世紀にプログラミングを開拓したのは、英国の貴婦人であるエイダラブレスでした。
母のアン・イザベラ・ミルバンクには教養があり、数学者ウィリアム・フレンドに数学を教わったこともありました。
「平行四辺形のプリンセス」とも称された数学者である母の影響で、エイダも数学に興味を持ちはじめました。
1840年、エイダラブレスは、イタリアのエンジニア、ルイージマナブレアが書いた論文の翻訳プロジェクトに取り組んでいました。
この論文でラブレスはベルヌーイ数を計算するためのアルゴリズムを提案しました。
パンチカードを利用したベルヌーイ数を求めるための解析機関用プログラムのコードは、世界初のコンピュータプログラムと言われています。
エイダラブレスの伝記作家でオックスフォード大学コンピューターサイエンスの教授であるアーシュラ・マーティンは、「彼女は、かなり複雑な数値であるベルヌーイ数を計算するプログラムを作成しました。これは、コンピューターが複雑なことを実行できたことを示しています。」
エイダラブレスのアルゴリズムは、データサイエンスに直接関係していませんが、プログラミングの基礎を築いた最初の人物としてデータサイエンス史にとって非常に重要な人物です。
1855年~ナイチンゲールがデータの視覚化を使用
現代看護の創始者としても知られるフローレンス・ナイチンゲールは、統計とデータの視覚化を使用して感染症の蔓延を分析するパイオニアとしても知られていました。
彼女は、1850年代のクリミア戦争時、イギリス兵の死因は、戦闘よりも衛生状態の悪さであることを指摘します。
ナイチンゲールは、その後政府に報告するためキャンプや病院での勤務中のスタッフと共にデータを収集していました。

ナイチンゲールは衛生の重要性について当局を説得するためにも様々なチャートを作成しています。

視覚化は、ナイチンゲールが好むコミュニケーション方法の1つでした。
“Whenever I am infuriated, I revenge myself with a new diagram.”
Florence Nightingale
「私が激怒するときはいつも、新しい図で自分自身に復讐します」と言っています。
ナイチンゲールのアイデアは徐々に認められ始め、軍病院や民間病院の患者の衛生状態は改善していきました。
1884年~ホレリスのデータ処理

1884年、アメリカの発明家で統計学者のハーマンホレリスが、パンチカード作表機を発明しました。
ホレリスは、現代の自動コンピューティングの父として知られています。
ホレリスが開発したこの集計装置は、1890年の米国国勢調査データを処理するために使用されました。
ホレリスは大学卒業後、ジョン・ショウ・ビリングス統計部長に誘われて助手として働いていた際にこの大変な作業に直面します。
ホレリスはパンチカード上の各位置に穴があるかどうかを電気的に検知して集計する仕組みを開発。
パンチカードの所定の位置に数値を記録すれば、それを元にカードを機械的にソート、所定の桁位置のデータを集計できると気づきます。
1888年、国勢調査局にはホレリスのシステムが選ばれ、1890年の国勢調査からホレリスのタビュレーティングマシンが大々的に使われることになりました。
その後、1911年に、彼はComputing-Tabulating-Recording Companyを設立。
後にトーマス・J・ワトソンを社長に迎えると、1924年にIBM (International Business Machines Corporation)に社名を変更しました。
1936年~アランチューリングが「計算可能数」を発表

Alan Mathison Turing – (1912年6月23日 – 1954年6月7日41歳没)/ 引用:Wikipedia
1936年、Alan Turingの論文、On Computable Numbersは、現代のコンピューターのような複雑な計算を実行するユニバーサルマシンを紹介しています。
チューリングマシンや、チューリングテストといった言葉は誰もが一度は耳にしたことがあるでしょうか。
第二次世界大戦時に鉄壁の暗号通信といわれたドイツのエニグマの解読に成功したことはあまりにも有名です。
bombeと呼ばれた暗号解析機はレプリカはブレッチリー・パークに展示されています。

1943年~最初のデータ処理機
1943年、英国の郵便局の電子技術者であるTommy Flowersは、理論上のコンピューターであるColossusを設計しました。
Colossusは第二次世界大戦中にナチスのコードを解析するためのデータ処理マシンです。
Colossusは、ブール演算と計算を実行して、膨大なデータセットを分析することができます。
Colossusは、傍受したメッセージのパターンを毎秒5000文字の速度で検索。
解析時間を数週間からわずか数時間に短縮しました。
設計図と実物は破棄されていましたが、当時の技術者のノートなど大量の資料が主にアメリカ合衆国に現存していたため実現しました。
1962年:ジョン・テューキーは電子コンピューティングの影響を予測

John W. Tukeyは、1962年に「データ分析の未来」を執筆しました。
この書籍を機にデータサイエンスは世界的に認知されることになりました。
Tukeyは、「2桁」の短縮形として「ビット」という用語を導入。
Tukeyは「コンピュータの歴史の年表」という本の中で、コンピュータプログラムの基礎となる1と0を表す用語である「2進数」の短縮形である「ビット」という単語が生み出されたきっかけとなった人物としてクレジットされています。
ブラウン大学で化学の学士号(1936年)と修士号(1937年)を取得。
プリンストン大学で数学の博士号を取得。
1974年~PeterNaurが現代のデータ処理を分析

1974年、Peter Naurは、「データサイエンス」という用語を、「データが確立された後、データを処理する科学であり、データとデータの表現との関係は他の分野や科学に委任されている」と定義しました。
彼はデンマークのコンピュータ科学者で、チューリング賞の受賞者でもあります。
1957年に天文学の博士号を取得。
しかしコンピュータと出会ったことでその後の進路が変わりました。
1969年から1998年まで、ナウアはコペンハーゲン大学の計算機科学の教授を務めました。
主な研究分野はプログラムとアルゴリズムの構造、設計、性能で、ナウアはソフトウェア工学やソフトウェアアーキテクチャといった分野でも先駆的な研究を行った。
彼は「コンピュータ科学」(computer science) という用語を嫌い、datalogy と呼ぶことを提案しています。
このためデンマークとスウェーデンでは計算機科学に相当する分野を datalogi と呼んでいます。
Knowing and the Mystique of Logic and Rules (Amazon)
1977年~IASCが設立
1977年、国際計算機統計学会(IASC)は、第41回会期中にISIのセクションとして設立。
「データを情報と知識に変換するために、従来の統計手法、最新のコンピューターテクノロジー、およびドメインの専門家の知識をリンクすることがIASCの使命です。」と述べています。
会の目的は、統計学者、コンピューティングの専門家、企業、政府、および一般市民の間のさまざまな国際ネットワーキングイベントを通じて、実用的な統計コンピューティングへの世界的な関心を促進し、技術的知識を交換することにあります。
1989年~データマイニングの出現

1989年、Gregory Piatetsky-Shapiroは、Knowledge Discovery in Databases (KDD)のワークショップを開催し、議長を務めました。
Knowledge Discovery in Databases (KDD)という用語は、GregoryPiattesky-Shapiroによって造られました。
今日、ほとんどすべての業界がデータマイニングを活用してデータを分析し、傾向を特定して、顧客ベースの拡大、価格予測、株価の変動、顧客の需要などのビジネス目標を達成しています。
1997年~ビッグデータという用語が誕生
1997年、NASA、Michael Cox、David Ellsworthの研究者は、論文「アウトオブコア視覚化のためのアプリケーション制御のデマンドページング」で「ビッグデータ」という言葉を最初に使用しました。
ビッグデータとは、通常のソフトウェアツールやコンピューティングシステムでは処理できない膨大なデータセットのことを指します。
2006年~Hadoop0.1.0がリリース
2006年には、オープンソースの非リレーショナルデータベースであるHadoop0.1.0がリリースされました。
Hadoopの立ち上げは、ビッグデータの始まりでもありました。
Hadoopは、ファイルを大きなブロックに分割し、クラスター内のノードに分散することで機能します。
パッケージ化されたコードを複数のノードに転送し、並列データ処理を可能にします。
これにより、データセットのより高速で効率的な処理が可能となりました。
2007年~データサイエンス研究センター設立
2007年、中国の上海にある復旦大学にデータ学とデータサイエンスの研究センターが設立されました。
2009年、同大学の研究者2名であるYangyongZhuとYunXiongは、「データ学とデータ科学の紹介」を発表。
2010年6月22〜23日、中国の復旦大学のデータサイエンスおよびデータサイエンス研究センターは、「データサイエンスおよびデータサイエンスに関する最初の国際ワークショップ」を主催。
「データ学とデータサイエンス」について意見交換を行うため、国内外から30名以上の学者が参加しました。
データサイエンスの分野は2010年から飛躍的に進化し、ほとんどの業界を一気に支配していきました。
データの備蓄は、費用効果が高く効率的なストレージ処理やストレージの進歩のおかげで、指数関数的に増加し続けています。
IDCによると、2025年までに、世界中で175ゼタバイトを超えるデータが存在することになるとされています。