テキスト・画像・音楽・動画
生成AIローンチの歴史
一元化
最初の音楽生成AIから、ChatGPTの衝撃、そしてDeepSeekまで──
生成AIローンチの十年を、出典と共に一元化。
JPY 200(税込)
購入する →購入後、そのままPDFダウンロードページへ移動します
お支払いは決済サービス「Square」を通じて安全に処理されます。カード情報が当サイトに保存されることはありません。
本書について
西暦2,022年11月、ChatGPTの公開は、生成AIという技術を一夜にして世界の話題の中心へと押し上げた。しかし其の登場は、決して突然のものではなかった。本書は、テキスト・画像・音楽・動画を生み出す生成AIが、西暦2,015年から西暦2,025年までの間にどの様にローンチされてきたのかを、開発企業・基盤モデル・対応機能・公開形態等の記録と共に、年月日単位で一元化した記録である。
意外にも、其の系譜の最初期に立つのは音楽であった。西暦2,015年、ハミングや歌から著作権フリーの音楽を生成するiOSアプリ「Humtap」がローンチされ、翌西暦2,016年には音楽生成AI「AIVA」が登場し、自ら作曲したアルバム「Genesis」を世に送り出した。そして西暦2,018年、オープンAI社が大規模言語モデル(LLM)「GPT-1」をリリースする。プロンプトに答える形式ではなく、文章をより自然に理解し作る為のAIとして開発された此のモデルが、後の対話型AIの礎となっていく。
基盤は静かに、しかし着実に築かれていった。西暦2,019年から2,021年に掛けて、オープンAI社は音楽生成AIのMuseNet・Jukeboxを、そして西暦2,021年1月にはテキストから写実的な画像を生成する「DALL-E」を技術デモとして公開する。同年にはNovelAI・Boomy・Mubert等の画像・音楽生成ツールが相次いで現れ、10月にはギットハブ社が、オープンAI社のCodexを基盤とするコーディング支援ツール「GitHub Copilot」をローンチした。生成AIの部品は、此の頃までに出揃いつつあった。
そして西暦2,022年、転機が訪れる。7月にはデイヴィッド・ホルツ率いるチームが「Midjourney」を、8月にはステービリティAI社が「Stable Diffusion」を公開し、テキストから画像を生成するAIが一気に普及した。決定打となったのが、同年11月30日にオープンAI社が研究プレビューとして公開した「ChatGPT」であった。其の名は当時の主力モデルGPT-3.5に由来する。前後して、Perplexity AI・ChatSonic・YouChat等の対話型AIが続々とローンチされ、生成AIは専門家の道具から、誰もが触れる存在へと変わっていった。
翌西暦2,023年以降は、競争の時代となる。マイクロソフト社のBing Chat(GPT-4搭載)、アンソロピック社のClaude、グーグル社のBard、イーロン・マスクのxAI社によるGrok、そしてアドビ社のFireflyが相次いで登場した。動画ではランウェイ社のGen-1やシンセシア社のSynthesia、音楽ではSuno AIやUdioが現れ、西暦2,025年1月には、ディープシーク社のチャットボット「DeepSeek」が、公開僅か1週間でアプリのダウンロード数2,600,000回を記録する。本書は、此の十年間に積み重ねられたローンチを――誰が、何を、いつ世に送り出したのかを――出典と共に一冊に束ねている。
本書が記録する出来事
-
音楽生成AIの
先駆
(2015〜16年) ハミングから音楽を生成するiOSアプリ「Humtap」と、自ら作曲しアルバムを発表した音楽生成AI「AIVA」が、生成AIの系譜の最初期に立つ。 -
GPT-1の
リリース
(2018年) オープンAI社が、文章をより自然に理解し作る為の大規模言語モデル(LLM)「GPT-1」をリリース。後の対話型AIの礎となった。 -
MuseNetと
Jukebox
(2019〜20年) オープンAI社が、複数の楽器で作曲するMuseNetと、アーティスト・ジャンル・歌詞の指定だけで作曲するJukeboxを相次いで公開した。 -
DALL-Eの
登場
(2021年) オープンAI社が、テキストから写実的な画像をオンデマンドで生成する「DALL-E」を技術デモとして公開。画像生成AIの本格的な幕開けとなった。 -
GitHub Copilot
(2021年) ギットハブ社が、オープンAI社のGPT-3を基盤としたCodexを用いたAIコーディング支援ツール「GitHub Copilot」をローンチした。 -
Midjourneyの
公開
(2022年) リープモーション社共同創業者デイヴィッド・ホルツ率いるチームが、テキストから画像を生成する「Midjourney」のオープンベータ版を公開。 -
Stable Diffusion
の公開
(2022年) ステービリティAI社が、ミュンヘン大学やランウェイML社と共に、テキストから画像を生成する「Stable Diffusion」を公開した。 -
ChatGPTの
衝撃
(2022年) オープンAI社が、GPT-3.5に由来する「ChatGPT」を研究プレビューとして公開。生成AIを一夜にして世界の話題の中心へと押し上げた。 -
対話型AIの
乱立
(2022〜23年) Perplexity AI・ChatSonic・YouChatに続き、Bing Chat・Bard・Claude・Grok等の対話型AIが、各社から相次いで投入された。 -
Adobe Fireflyの
登場
(2023年) アドビ社が、画像生成AI「Adobe Firefly」のベータ版をローンチし、Creative Cloud等の自社製品へ直接統合した。 -
動画生成AIの
台頭
(2022〜24年) elai.io・Gen-1・Synthesia・Invideo AI等、テキストやスクリプトから動画を生成するAIが続々と現れた。 -
音楽生成の新世代
とDeepSeek
(2023〜25年) Suno AI・Udio等の新たな音楽生成AIが登場し、西暦2,025年にはディープシーク社のDeepSeekが、公開1週間で爆発的な普及を見せた。
歴史が映し出す構図
-
大規模言語モデル
(LLM)の進化 GPT-1からGPT-3、GPT-3.5、GPT-4へと続くLLMの発展が、対話型AIの性能を押し上げ、生成AIブームの中核を成した。 -
画像生成の
爆発的普及 DALL-E・Midjourney・Stable Diffusionの登場により、テキストから画像を生み出す技術が、専門家の手を離れ一般に広まった。 -
音楽・動画への
拡張 テキストだけでなく、音楽や動画を生成するAIが次々と現れ、生成の対象は創作のあらゆる領域へと広がっていった。 -
オープンソースと
商用利用 Stable Diffusionの公開やGrok-1の重み公開等、オープンソース化の流れと、生成物の著作権・商用利用を巡る論点が記録される。 -
巨大企業の
参入 マイクロソフト・グーグル・アドビ・アマゾン等の巨大企業が、検索・デザイン・クラウド等の自社製品に生成AIを統合し、競争を加速させた。 -
企業と
創業者たち オープンAI・アンソロピック・ステービリティAI・xAI・ディープシーク等、生成AIを生んだ企業と人々の選択が、年月日と出典と共に記録される。
テキスト・画像・音楽・動画――
生成AIローンチの全軌跡を一元化。
JPY 200(税込)
購入する →購入後、そのままPDFダウンロードページへ移動します
お支払いは決済サービス「Square」を通じて安全に処理されます。カード情報が当サイトに保存されることはありません。