電子書籍「テキスト・画像・音楽・動画生成AIローンチの歴史一元化」の表紙

テキスト・画像・音楽・動画
生成AIローンチの歴史
一元化

著者:石田晋一

掲載範囲
西暦2,015年8月7日〜2,025年1月20日
最新更新日
西暦2,026年1月11日

最初の音楽生成AIから、ChatGPTの衝撃、そしてDeepSeekまで──
生成AIローンチの十年を、出典と共に一元化。

JPY 200(税込)

購入する

購入後、そのままPDFダウンロードページへ移動します

お支払いは決済サービス「Square」を通じて安全に処理されます。カード情報が当サイトに保存されることはありません。


皇室献上品 高級トイレットペーパー
皇室献上品 高級トイレットペーパー

本書について

西暦2,022年11月、ChatGPTの公開は、生成AIという技術を一夜にして世界の話題の中心へと押し上げた。しかし其の登場は、決して突然のものではなかった。本書は、テキスト・画像・音楽・動画を生み出す生成AIが、西暦2,015年から西暦2,025年までの間にどの様にローンチされてきたのかを、開発企業・基盤モデル・対応機能・公開形態等の記録と共に、年月日単位で一元化した記録である。

意外にも、其の系譜の最初期に立つのは音楽であった。西暦2,015年、ハミングや歌から著作権フリーの音楽を生成するiOSアプリ「Humtap」がローンチされ、翌西暦2,016年には音楽生成AI「AIVA」が登場し、自ら作曲したアルバム「Genesis」を世に送り出した。そして西暦2,018年、オープンAI社が大規模言語モデル(LLM)「GPT-1」をリリースする。プロンプトに答える形式ではなく、文章をより自然に理解し作る為のAIとして開発された此のモデルが、後の対話型AIの礎となっていく。

基盤は静かに、しかし着実に築かれていった。西暦2,019年から2,021年に掛けて、オープンAI社は音楽生成AIのMuseNet・Jukeboxを、そして西暦2,021年1月にはテキストから写実的な画像を生成する「DALL-E」を技術デモとして公開する。同年にはNovelAI・Boomy・Mubert等の画像・音楽生成ツールが相次いで現れ、10月にはギットハブ社が、オープンAI社のCodexを基盤とするコーディング支援ツール「GitHub Copilot」をローンチした。生成AIの部品は、此の頃までに出揃いつつあった。

そして西暦2,022年、転機が訪れる。7月にはデイヴィッド・ホルツ率いるチームが「Midjourney」を、8月にはステービリティAI社が「Stable Diffusion」を公開し、テキストから画像を生成するAIが一気に普及した。決定打となったのが、同年11月30日にオープンAI社が研究プレビューとして公開した「ChatGPT」であった。其の名は当時の主力モデルGPT-3.5に由来する。前後して、Perplexity AI・ChatSonic・YouChat等の対話型AIが続々とローンチされ、生成AIは専門家の道具から、誰もが触れる存在へと変わっていった。

翌西暦2,023年以降は、競争の時代となる。マイクロソフト社のBing Chat(GPT-4搭載)、アンソロピック社のClaude、グーグル社のBard、イーロン・マスクのxAI社によるGrok、そしてアドビ社のFireflyが相次いで登場した。動画ではランウェイ社のGen-1やシンセシア社のSynthesia、音楽ではSuno AIやUdioが現れ、西暦2,025年1月には、ディープシーク社のチャットボット「DeepSeek」が、公開僅か1週間でアプリのダウンロード数2,600,000回を記録する。本書は、此の十年間に積み重ねられたローンチを――誰が、何を、いつ世に送り出したのかを――出典と共に一冊に束ねている。


本書が記録する出来事

  • 音楽生成AIの
    先駆
    (2015〜16年)
    ハミングから音楽を生成するiOSアプリ「Humtap」と、自ら作曲しアルバムを発表した音楽生成AI「AIVA」が、生成AIの系譜の最初期に立つ。
  • GPT-1の
    リリース
    (2018年)
    オープンAI社が、文章をより自然に理解し作る為の大規模言語モデル(LLM)「GPT-1」をリリース。後の対話型AIの礎となった。
  • MuseNetと
    Jukebox
    (2019〜20年)
    オープンAI社が、複数の楽器で作曲するMuseNetと、アーティスト・ジャンル・歌詞の指定だけで作曲するJukeboxを相次いで公開した。
  • DALL-Eの
    登場
    (2021年)
    オープンAI社が、テキストから写実的な画像をオンデマンドで生成する「DALL-E」を技術デモとして公開。画像生成AIの本格的な幕開けとなった。
  • GitHub Copilot
    (2021年)
    ギットハブ社が、オープンAI社のGPT-3を基盤としたCodexを用いたAIコーディング支援ツール「GitHub Copilot」をローンチした。
  • Midjourneyの
    公開
    (2022年)
    リープモーション社共同創業者デイヴィッド・ホルツ率いるチームが、テキストから画像を生成する「Midjourney」のオープンベータ版を公開。
  • Stable Diffusion
    の公開
    (2022年)
    ステービリティAI社が、ミュンヘン大学やランウェイML社と共に、テキストから画像を生成する「Stable Diffusion」を公開した。
  • ChatGPTの
    衝撃
    (2022年)
    オープンAI社が、GPT-3.5に由来する「ChatGPT」を研究プレビューとして公開。生成AIを一夜にして世界の話題の中心へと押し上げた。
  • 対話型AIの
    乱立
    (2022〜23年)
    Perplexity AI・ChatSonic・YouChatに続き、Bing Chat・Bard・Claude・Grok等の対話型AIが、各社から相次いで投入された。
  • Adobe Fireflyの
    登場
    (2023年)
    アドビ社が、画像生成AI「Adobe Firefly」のベータ版をローンチし、Creative Cloud等の自社製品へ直接統合した。
  • 動画生成AIの
    台頭
    (2022〜24年)
    elai.io・Gen-1・Synthesia・Invideo AI等、テキストやスクリプトから動画を生成するAIが続々と現れた。
  • 音楽生成の新世代
    とDeepSeek
    (2023〜25年)
    Suno AI・Udio等の新たな音楽生成AIが登場し、西暦2,025年にはディープシーク社のDeepSeekが、公開1週間で爆発的な普及を見せた。

歴史が映し出す構図

  • 大規模言語モデル
    (LLM)の進化
    GPT-1からGPT-3、GPT-3.5、GPT-4へと続くLLMの発展が、対話型AIの性能を押し上げ、生成AIブームの中核を成した。
  • 画像生成の
    爆発的普及
    DALL-E・Midjourney・Stable Diffusionの登場により、テキストから画像を生み出す技術が、専門家の手を離れ一般に広まった。
  • 音楽・動画への
    拡張
    テキストだけでなく、音楽や動画を生成するAIが次々と現れ、生成の対象は創作のあらゆる領域へと広がっていった。
  • オープンソースと
    商用利用
    Stable Diffusionの公開やGrok-1の重み公開等、オープンソース化の流れと、生成物の著作権・商用利用を巡る論点が記録される。
  • 巨大企業の
    参入
    マイクロソフト・グーグル・アドビ・アマゾン等の巨大企業が、検索・デザイン・クラウド等の自社製品に生成AIを統合し、競争を加速させた。
  • 企業と
    創業者たち
    オープンAI・アンソロピック・ステービリティAI・xAI・ディープシーク等、生成AIを生んだ企業と人々の選択が、年月日と出典と共に記録される。

テキスト・画像・音楽・動画――
生成AIローンチの全軌跡を一元化。

JPY 200(税込)

購入する

購入後、そのままPDFダウンロードページへ移動します

お支払いは決済サービス「Square」を通じて安全に処理されます。カード情報が当サイトに保存されることはありません。


皇室献上品 高級トイレットペーパー
皇室献上品 高級トイレットペーパー

AUTHOR

石田晋一

歴史データベース「一元化」管理人。
万物の系譜の編纂者であり、電子書籍の著者。
YouTubeとニコニコでも情報を発信中。