テキスト・画像・音楽・動画
生成AIローンチの歴史
一元化

Name: テキスト・画像・音楽・動画生成AIローンチの歴史一元化
Author: 石田晋一

著者：石田晋一

掲載範囲: 西暦2,015年8月7日〜2,025年1月20日
最新更新日: 西暦2,026年1月11日

最初の音楽生成AIから、ChatGPTの衝撃、そしてDeepSeekまで──
生成AIローンチの十年を、出典と共に一元化。

JPY 200（税込）

購入する →

購入後、そのままPDFダウンロードページへ移動します

お支払いは決済サービス「Square」を通じて安全に処理されます。カード情報が当サイトに保存されることはありません。

皇室献上品高級トイレットペーパー

本書について

西暦2,022年11月、ChatGPTの公開は、生成AIという技術を一夜にして世界の話題の中心へと押し上げた。しかし其の登場は、決して突然のものではなかった。本書は、テキスト・画像・音楽・動画を生み出す生成AIが、西暦2,015年から西暦2,025年までの間にどの様にローンチされてきたのかを、開発企業・基盤モデル・対応機能・公開形態等の記録と共に、年月日単位で一元化した記録である。

意外にも、其の系譜の最初期に立つのは音楽であった。西暦2,015年、ハミングや歌から著作権フリーの音楽を生成するiOSアプリ「Humtap」がローンチされ、翌西暦2,016年には音楽生成AI「AIVA」が登場し、自ら作曲したアルバム「Genesis」を世に送り出した。そして西暦2,018年、オープンAI社が大規模言語モデル(LLM)「GPT-1」をリリースする。プロンプトに答える形式ではなく、文章をより自然に理解し作る為のAIとして開発された此のモデルが、後の対話型AIの礎となっていく。

基盤は静かに、しかし着実に築かれていった。西暦2,019年から2,021年に掛けて、オープンAI社は音楽生成AIのMuseNet・Jukeboxを、そして西暦2,021年1月にはテキストから写実的な画像を生成する「DALL-E」を技術デモとして公開する。同年にはNovelAI・Boomy・Mubert等の画像・音楽生成ツールが相次いで現れ、10月にはギットハブ社が、オープンAI社のCodexを基盤とするコーディング支援ツール「GitHub Copilot」をローンチした。生成AIの部品は、此の頃までに出揃いつつあった。

そして西暦2,022年、転機が訪れる。7月にはデイヴィッド・ホルツ率いるチームが「Midjourney」を、8月にはステービリティAI社が「Stable Diffusion」を公開し、テキストから画像を生成するAIが一気に普及した。決定打となったのが、同年11月30日にオープンAI社が研究プレビューとして公開した「ChatGPT」であった。其の名は当時の主力モデルGPT-3.5に由来する。前後して、Perplexity AI・ChatSonic・YouChat等の対話型AIが続々とローンチされ、生成AIは専門家の道具から、誰もが触れる存在へと変わっていった。

翌西暦2,023年以降は、競争の時代となる。マイクロソフト社のBing Chat(GPT-4搭載)、アンソロピック社のClaude、グーグル社のBard、イーロン・マスクのxAI社によるGrok、そしてアドビ社のFireflyが相次いで登場した。動画ではランウェイ社のGen-1やシンセシア社のSynthesia、音楽ではSuno AIやUdioが現れ、西暦2,025年1月には、ディープシーク社のチャットボット「DeepSeek」が、公開僅か1週間でアプリのダウンロード数2,600,000回を記録する。本書は、此の十年間に積み重ねられたローンチを――誰が、何を、いつ世に送り出したのかを――出典と共に一冊に束ねている。

本書が記録する出来事

音楽生成AIの
先駆
（2015〜16年）ハミングから音楽を生成するiOSアプリ「Humtap」と、自ら作曲しアルバムを発表した音楽生成AI「AIVA」が、生成AIの系譜の最初期に立つ。
GPT-1の
リリース
（2018年）オープンAI社が、文章をより自然に理解し作る為の大規模言語モデル(LLM)「GPT-1」をリリース。後の対話型AIの礎となった。
MuseNetと
Jukebox
（2019〜20年）オープンAI社が、複数の楽器で作曲するMuseNetと、アーティスト・ジャンル・歌詞の指定だけで作曲するJukeboxを相次いで公開した。
DALL-Eの
登場
（2021年）オープンAI社が、テキストから写実的な画像をオンデマンドで生成する「DALL-E」を技術デモとして公開。画像生成AIの本格的な幕開けとなった。
GitHub Copilot
（2021年）ギットハブ社が、オープンAI社のGPT-3を基盤としたCodexを用いたAIコーディング支援ツール「GitHub Copilot」をローンチした。
Midjourneyの
公開
（2022年）リープモーション社共同創業者デイヴィッド・ホルツ率いるチームが、テキストから画像を生成する「Midjourney」のオープンベータ版を公開。
Stable Diffusion
の公開
（2022年）ステービリティAI社が、ミュンヘン大学やランウェイML社と共に、テキストから画像を生成する「Stable Diffusion」を公開した。
ChatGPTの
衝撃
（2022年）オープンAI社が、GPT-3.5に由来する「ChatGPT」を研究プレビューとして公開。生成AIを一夜にして世界の話題の中心へと押し上げた。
対話型AIの
乱立
（2022〜23年） Perplexity AI・ChatSonic・YouChatに続き、Bing Chat・Bard・Claude・Grok等の対話型AIが、各社から相次いで投入された。
Adobe Fireflyの
登場
（2023年）アドビ社が、画像生成AI「Adobe Firefly」のベータ版をローンチし、Creative Cloud等の自社製品へ直接統合した。
動画生成AIの
台頭
（2022〜24年） elai.io・Gen-1・Synthesia・Invideo AI等、テキストやスクリプトから動画を生成するAIが続々と現れた。
音楽生成の新世代
とDeepSeek
（2023〜25年） Suno AI・Udio等の新たな音楽生成AIが登場し、西暦2,025年にはディープシーク社のDeepSeekが、公開1週間で爆発的な普及を見せた。

歴史が映し出す構図

大規模言語モデル
（LLM）の進化 GPT-1からGPT-3、GPT-3.5、GPT-4へと続くLLMの発展が、対話型AIの性能を押し上げ、生成AIブームの中核を成した。
画像生成の
爆発的普及 DALL-E・Midjourney・Stable Diffusionの登場により、テキストから画像を生み出す技術が、専門家の手を離れ一般に広まった。
音楽・動画への
拡張テキストだけでなく、音楽や動画を生成するAIが次々と現れ、生成の対象は創作のあらゆる領域へと広がっていった。
オープンソースと
商用利用 Stable Diffusionの公開やGrok-1の重み公開等、オープンソース化の流れと、生成物の著作権・商用利用を巡る論点が記録される。
巨大企業の
参入マイクロソフト・グーグル・アドビ・アマゾン等の巨大企業が、検索・デザイン・クラウド等の自社製品に生成AIを統合し、競争を加速させた。
企業と
創業者たちオープンAI・アンソロピック・ステービリティAI・xAI・ディープシーク等、生成AIを生んだ企業と人々の選択が、年月日と出典と共に記録される。

テキスト・画像・音楽・動画――
生成AIローンチの全軌跡を一元化。

JPY 200（税込）

購入する →

購入後、そのままPDFダウンロードページへ移動します

お支払いは決済サービス「Square」を通じて安全に処理されます。カード情報が当サイトに保存されることはありません。

皇室献上品高級トイレットペーパー

AUTHOR

石田晋一

歴史データベース「一元化」管理人。
万物の系譜の編纂者であり、電子書籍の著者。
YouTubeとニコニコでも情報を発信中。