GenAI應用技術演進史 - Generative AI Evolution Timeline

2020.06~2022.11

GPT-3/3.5

Generative Pre-trained Transformer 3/3.5

OpenAI 於 2020 年 6 月發佈 GPT-3，標誌著大型語言模型（LLM）的重要進展。1750億參數展現前所未有的語言理解和生成能力。
OpenAI於 2022 年推出 GPT‑3.5，包括 text-davinci-002/003 及 gpt-3.5‑turbo，其中 ChatGPT 正是基於 GPT‑3.5 的 fine‑tuned 版本（即 InstructGPT 系列）。
ChatGPT於 2022 年 11 月推出，僅 5 天即突破 100 萬用戶，2 個月內達到 1 億用戶，顯著改變全球對 AI 的認知與採用節奏。

timeline title GPT 系列模型發布時間表 section Early LLM 2018 : GPT-1 發佈 : 1.17 億個參數 2019 : GPT-2 發佈 : 最大 15 億個參數 2020 : GPT-3 發佈 : 1750 億個參數 2022-11-30 : GPT-3.5 發佈 : 驅動 ChatGPT section Evolving LLM 2023-03 : GPT-4 發佈 : 提升推理能力與穩定性 2023-11 : GPT-4 Turbo : 效能/成本優化 : context 最長 128K 2024-05 : GPT-4o 發佈 : 多模態整合 : 圖像、語音、影片

~2022

早期LLM

Early Large Language Models

早期的 LLM（如 GPT-2, GPT-3）能夠生成類似人類的自然語言文本，但存在幾個主要問題：

知識受訓練數據限制： 它們只能回答基於訓練數據的問題，無法即時更新知識。
幻覺（Hallucination）問題： 經常生成錯誤或不存在的資訊。
缺乏行動能力： 它們只能提供文本回應，不能與外部系統互動。

~2022

User-LLM 交互

User-LLM Interaction

flowchart LR USER((User)) ------>| Query | LLM((LLM)) LLM ------>| Response | USER style USER strostroke-width:4px,color:#000,fill:#EC2D7A style LLM strostroke-width:4px,color:#FFF,fill:#540a0a

在早期 LLM 應用中，用戶與模型之間的交互是單向且靜態的：

用戶輸入: 提供問題或指令
LLM 處理: 根據訓練數據生成回應
靜態輸出: 返回文本結果，並無與外部系統互動

2022~

提示工程

Prompt Engineering

發現的問題:

LLM雖然功能強大，但回應品質極度依賴使用者的輸入。
初期使用者經常無法得到預期的回答，原因可能是輸入模糊、不具體、或缺乏上下文說明。
LLM的回應常常出現錯誤、幻覺，或不符合商業應用場景的需求。

解決方案: Prompt Engineering（提示詞工程）

提示詞工程的基本概念與原理：透過設計更明確、有結構的提示詞（Prompt），來引導語言模型產生更精確、穩定、有用的回應。這些提示詞可包括範例、角色設定、格式限制、步驟指令等，引導 LLM 「如何思考與回答」。

改進點：

提升 LLM 回應的一致性與可預測性。
可針對不同任務（摘要、分類、問答、轉換格式等）設計不同的 prompt 模板，提高應用彈性與品質。
可結合「Chain-of-Thought（思路鏈）」、「Zero-shot/One-shot/Few-shot Examples」等技巧，提升推理與問題解決能力。

2022~

增強的 User-LLM 交互

Enhanced User-LLM Interaction

flowchart TD USER((User)) --> |Query:「三角形內角和是多少？」| COMPOSE{{Compose Prompt}} subgraph PE[Prompt Engineering] ZERO[Zero‑Shot CoT] SYSTEM[System Instructions] CONTEXT[Context Injection] FEWSHOT[Few‑shot Examples] ZERO --> COMPOSE SYSTEM --> COMPOSE CONTEXT --> COMPOSE FEWSHOT --> COMPOSE end COMPOSE --> LLM((LLM)) LLM --> |Response: 邏輯思維 + 最終答案| USER subgraph Examples ZERO_EX[Zero‑Shot CoT: 「三角形內角和是多少？請詳細分步驟解析之。」] --> ZERO SYSTEM_EX[系統指令: 「你是一位資深數學教師，解答需邏輯清晰、步驟完整」] --> SYSTEM CONTEXT_EX[上下文: 三角形知道內角和為 180°，問三角形的角推理。] --> CONTEXT FEW_EX[Few‑Shot CoT 示例: Q: 四邊形內角和？ A: …步驟… 最終答案 Q: 三邊形內角和？ A: …步驟… 180°] --> FEWSHOT end style USER strostroke-width:4px,color:#000,fill:#EC2D7A style LLM strostroke-width:4px,color:#FFF,fill:#540a0a

提示工程改善了用戶與 LLM 之間的交互：

結構化輸入: 用戶學習如何構造更有效的提示詞
中介層: 提示工程作為用戶和 LLM 之間的橋樑，引導模型產生更好的結果
改進的輸出: 經過優化的提示詞，LLM 能產生更精確、一致的回應

2020~

Token

timeline title 最大 Token 上限數 GPT-3.5 : 4k ~ 16k tokens : 最多 24 頁 GPT-4.1 : ≈1,000k tokens : 約 1,500–2,000 頁 Claude 4（Sonnet 4 / Opus 4）: 200k ~ 500k tokens : 約 300–500 頁 Gemini 2.5 Pro : 1,000k tokens : 約 1,500–2,000 頁

token 是現代大型語言模型（LLM）處理文本的基本單位。它不是固定的「字」或「詞」，而是由模型 tokenizer 自動分割出具有意義的「字串」或「子詞單位」。

英文中的 "unbelievable" 可能被斷成 ["un", "believ", "able"]，所以一個字可能是多個 token。
中文通常每個字是一個 token，例如「測」、「試」、「中」分別為獨立 tokens。

大型語言模型（LLM）在每次回答時，會依據目前「對話的完整上下文」來產生回應。而這個「上下文」包含：

使用者的提問
模型之前的回應
系統訊息（如角色設定）
你可能傳的文件、表格、指令等外部內容
歷史對話記錄（多輪內容）
模型之後的回應

當總 token 數超過限制時，模型會：

裁切最早的歷史對話內容（通常是你最早的提問與模型的回覆）
保留最近的幾輪對話 + 當前提問 + 系統訊息
這會導致模型「忘記你先前說的話」，可能讓回答變得前後不一致。

2021-23

RAG

Retrieval-Augmented Generation

發現的問題:

訓練好的 LLM 雖然能生成自然語言，但知識是靜態的，無法即時查詢最新資訊或公司內部資料。
如果訓練資料中缺少某些領域的知識，模型會給出錯誤答案或胡亂編造。

解決方案: RAG（Retrieval-Augmented Generation，檢索增強生成）

原理：在 LLM 生成回應前，先從外部知識庫（如向量資料庫、企業內部文件）檢索相關資訊，並將這些資訊傳給 LLM 作為上下文來生成更準確的回應。

改進點：

讓 LLM 可以即時訪問外部知識，減少幻覺。
企業可以利用自己的資料（如技術文件、客服對話）來增強 LLM 的回答能力。

2021-23

RAG 增強的 LLM

LLM Enhanced with RAG

graph LR %% --- Knowledge Base (Offline) --- subgraph KB[Knowledge Base] PDF[PDF Files] PPTX[Office Files] CONF[Confluence Pages] end subgraph INGESTION[Embedding → Vector DB] direction LR PDF --> CHUNK{{Chunk + Embed}} PPTX --> CHUNK CONF --> CHUNK CHUNK --> VDB[(Vector DB)] end %% --- User Query Flow (Online RAG) --- USER((User)) -->|Query| EQ{{Embed Query}} EQ --> VDB VDB --> TOPK[Top-k Similarity Search] TOPK --> PROMPT{{Build Prompt}} PROMPT --> LLM((LLM)) LLM -->|Response| USER style USER strostroke-width:4px,color:#000,fill:#EC2D7A style LLM strostroke-width:4px,color:#FFF,fill:#540a0a

RAG 通過將外部知識庫與 LLM 結合，顯著提升了模型的能力：

雙向交互: LLM 與知識庫之間可以雙向通信
即時檢索: 根據用戶查詢從知識庫中檢索相關信息
增強生成: LLM 利用檢索到的信息生成更準確的回應
減少幻覺: 基於真實數據的回答降低了虛假信息的產生

- 原始文檔 (string) → 使用 tokenizer 統計 token 長度 → chunking (使用 token count 作為切分邊界 + overlap) → 每個 chunk 啟用 tokenizer → 生成真正的 token ID 列表 → 再 embed 做語意向量。
- 而使用者的提問流程則是 Tokenizing (分詞) → Embedding (向量化)，最後再進行 retrieval 和 generation。

2022~

上下文學習

In-Context Learning

發現的問題:

LLM 雖然具備廣泛知識，但缺乏對特定企業情境的理解。
無法長期記憶先前對話，也無法處理大量文件（受限於 token 上限）。

解決方案: 在 LLM 生成回應時，將相關資訊（例如使用者上傳的文件、對話上下文）一併作為 prompt 提供給模型參考，讓 LLM「彷彿」當下就學會這些資訊。

改進點:

讓 LLM 在不需要重新訓練模型的情況下，也能理解特定情境或專案資料。
適合中小型應用，或一次性處理文件（如合約審閱、報告摘要）。
開發速度快、門檻低，是許多 Copilot 工具（如 Office、VS Code）常見的技術基礎。

2022

上下文學習

In-Context Learning

flowchart TD subgraph ICL[In-Context Learning] direction TB INST[Instruction Prompting
Zero-shot] --> LLM1((LLM)) FEWSHOT[Few-shot Prompting
Examples] --> LLM2((LLM)) STUFFING[Prompt Stuffing
Context Injection] --> LLM3((LLM)) end USER((User)) ------> PROMPTING[Prompt Engineering] PROMPTING ------>|Compose Prompt| ICL LLM1 -->|Response| USER LLM2 -->|Response| USER LLM3 -->|Response| USER subgraph Prompt_Stuffing_Context [Prompt Stuffing Details] DOCS[Documents / Tables / Knowledge] --> STUFFING end USER --> Prompt_Stuffing_Context style USER strostroke-width:4px,color:#000,fill:#EC2D7A style LLM1 strostroke-width:4px,color:#FFF,fill:#540a0a style LLM2 strostroke-width:4px,color:#FFF,fill:#540a0a style LLM3 strostroke-width:4px,color:#FFF,fill:#540a0a

2023.06

函數調用

Function Calling

發現的問題:

LLM 可以產生正確的建議（例如「你可以申請一張請購單」），但它無法執行具體的動作（如查詢某一張請購單進度，或將待簽核的表單填寫意見核准送出）。
使用者仍然需要手動操作系統，降低了自動化效率。

解決方案: OpenAI 於 2023 年 6 月在其 API 中引入此功能，讓 LLM 可以根據需求輸出結構化數據（如 JSON），並透過 API 調用外部系統來執行具體任務。

flowchart LR USER((User)) -->|Query| LLM((LLM)) LLM --> CHECK{Need Function Call?} CHECK -->|No| RESPONSE[Final Response] CHECK -->|Yes| JSON{{Generate JSON Instructions}} subgraph FC[Function Calling] JSON --> FUNCTION{{Call Tool / API}} FUNCTION --> EXECUTE{{Execute Function}} end EXECUTE -->|Execution Result| LLM LLM -->|Response| USER RESPONSE --> USER style USER strostroke-width:4px,color:#000,fill:#EC2D7A style LLM strostroke-width:4px,color:#FFF,fill:#540a0a

改進點:

讓 LLM 可以即時訪問外部知識，減少幻覺。
企業可以利用自己的資料（如儲存在關聯式資料庫的資料、客服對話）來增強 LLM 的回答能力。

2023-24

智能代理

AI Agent

發現的問題:

Function Calling 讓 LLM 可以執行單個指令，但它無法自主計劃和執行複雜任務。例如：「幫我整理一份 IT 年度報告」涉及多個步驟（查詢數據 → 生成摘要 → 匯總成報告）。
Function Calling 只能處理單一 API 呼叫，無法自己決定「下一步該做什麼」。

解決方案: 讓 LLM 不只是回答問題，而是根據目標「規劃步驟」、「決策下一步行動」並「執行多個函數」。在人工智慧領域，智能代理的概念早已存在，但結合 LLM 的 Agent 系統在 2023 年開始受到廣泛關注。

flowchart TD USER((User)) -->|Goal / Task| AGENT((AI Agent)) subgraph Agent Loop AGENT --> PLAN{{Plan Next Action}} PLAN --> ACT{Action Type?} ACT -->|Tool| TOOL{{Tool / API Call}} ACT -->|Reflect| THINK{{Internal Reflection}} ACT -->|Ask| ASKUSER{{Ask User Clarification}} TOOL --> OBSERVE{{Observe Result}} THINK --> OBSERVE ASKUSER --> USER OBSERVE --> MEMORY{{Update Memory}} MEMORY --> PLAN end AGENT -->|Final Response / Completion| USER style USER strostroke-width:4px,color:#000,fill:#EC2D7A style AGENT strostroke-width:4px,color:#FFF,fill:#540a0a

改進點:

讓 AI 可以自主處理複雜任務，而不只是單次回應。
可以與 Function Calling 和 RAG 結合，形成完整的智能工作流。

2024

代理式RAG

Agentic RAG

技術特點: 作為 RAG 的進化版本，Agentic RAG 在 2024 年開始出現，結合 Agent 能力，使檢索與生成過程更加自主和靈活。

flowchart TD USER((User)) -->|Query / Task| AGENT((AI Agent)) subgraph Agent Workflow AGENT --> PLAN{{Plan Step}} PLAN --> ACTION{Need External Knowledge?} ACTION -->|Yes| RETRIEVE{{Retrieve Documents}} RETRIEVE --> EMBEDDING[Vector Similarity Search] EMBEDDING --> CONTEXT[Relevant Context] ACTION -->|No| THINK{{Use Internal Reasoning}} CONTEXT --> AUGMENT[Augment Prompt] THINK --> AUGMENT AUGMENT --> LLM((LLM)) LLM --> TOOL_CHECK{Tool Call Needed?} TOOL_CHECK -->|Yes| TOOL_EXEC{{Call Tool/API}} TOOL_EXEC --> TOOL_RESULT[Tool Result] TOOL_RESULT --> PLAN TOOL_CHECK -->|No| RESPONSE[Final Response] end RESPONSE --> AGENT AGENT -->|Response| USER style USER strostroke-width:4px,color:#000,fill:#EC2D7A style LLM strostroke-width:4px,color:#FFF,fill:#540a0a style AGENT strostroke-width:4px,color:#FFF,fill:#540a0a

改進點: 能夠動態調整檢索策略，自主決定何時檢索、檢索什麼內容，以及如何整合檢索到的資訊，提供更智能的知識增強生成能力。

2024~25

模型上下文協議

Model Context Protocol (MCP)

發現的問題: 在大型企業應用中，通常需要多個 AI 模型或和外部系統協作，例如：

一個 RAG 系統負責檢索企業內部文件。
一個 Function Calling 負責執行業務操作。
一個 Agent 負責綜合決策並指導整個流程。

這些 AI 模型和外部系統各自獨立，沒有標準化的方式來共享上下文資訊，導致資訊孤島。

解決方案: 由 Anthropic 在 2024 年底推出的開放標準，它徹底改變了 AI 如何與「外部世界」互動的方式。你可以把它視為「AI 應用程式的 USB-C 接口」一種通用的連接方式，讓 AI 模型能安全、標準化地存取外部即時資料與工具。

flowchart TD USER((User)) -->|Query| LLM((LLM)) LLM --> CHECK{Need context or tool?} CHECK -->|No| RESPONSE[Final Response] CHECK -->|Yes| MCP_CLIENT[MCP Client] MCP_CLIENT -->|Prompt/Tool Request| MCP_SERVER[MCP Server] subgraph Server Process CONTEXT_MANAGER[Context Manager] TOOL_REGISTRY[Tool Registry / Schema] TOOL_EXECUTOR[Tool Executor] MCP_SERVER --> CONTEXT_MANAGER CONTEXT_MANAGER --> MEMORY_DB[(Long-Term Memory)] CONTEXT_MANAGER --> VECTOR_DB[(Vector DB)] CONTEXT_MANAGER -->|Compose Prompt| FINAL_PROMPT{{Final Prompt}} FINAL_PROMPT --> MODEL((LLM)) MODEL -->|Response or ToolCall| MCP_SERVER MCP_SERVER --> TOOL_REGISTRY TOOL_REGISTRY --> TOOL_EXECUTOR TOOL_EXECUTOR --> TOOL_RESULT[Result] TOOL_RESULT --> MCP_SERVER end MCP_SERVER -->|Return Output| MCP_CLIENT MCP_CLIENT -->|Return Decision or Augmented Prompt| LLM LLM --> RESPONSE RESPONSE --> USER style USER strostroke-width:4px,color:#000,fill:#EC2D7A style LLM strostroke-width:4px,color:#FFF,fill:#540a0a style MODEL strostroke-width:4px,color:#FFF,fill:#540a0a

改進點:

讓不同的 AI 模型互通，不再是獨立運行的「黑箱」。
讓 AI 生態系統更加靈活，能夠跨系統處理更複雜的任務。

2024

多代理系統

Multi-Agent Systems

技術特點: 多代理系統的概念早已有之，但在 AI 領域，結合 LLM 的多代理協作系統在 2024 年開始被廣泛研究和應用。

應用方式: 多個AI代理分工合作，各司其職，協同解決複雜問題，展現集體智慧的力量。每個代理可以專精於不同的任務領域，通過協作完成單一代理無法處理的複雜工作。

2025

AI 輔助開發

AI‑Assisted Software Development

背景和問題： 隨著程式愈來愈複雜，開發者不僅要寫程式，還要 Debug、測試、維護 legacy code。

解決方案：

AI 如 VS Code (內建GitHub Copilot，或外掛Gemini Code Assist、Cline、Roo Code等)、Cursor、Windsurf、Trae等IDE工具，可在撰寫程式時自動補全 code、生成測試範例、偵錯建議、撰寫註解，提升效率並減少 bug。
這些AI工具也不限於需要使用IDE才能使用。包括Claude (Claude Code)、Google (Gemini)、Atlassian (Rovo Dev)、Amazon (Kiro)、Qwen等都已釋出在命令列可以執行的AI輔助開發工具。

例子：

補全：你寫 for (int i=0; i<10; i++)，AI 即刻建議整個迴圈內容。
偵錯：AI 主動指出潛在 Null pointer，並標記風險行數。

2025

氛圍編程

Vibe Coding

這個概念源自 OpenAI 聯合創辦人 Andrej Karpathy，在 2025 年提出，用來描述一種「幾乎忘記程式碼存在，只用語意導引 AI 寫程式」的新開發方式。

它與「No‑code／Low‑code」不同，強調『自然語言 → AI 生成邏輯和介面』，開發者不需了解語法，只需透過描述讓 AI 完成大部分程式生成。

技術特點: 建立在大型語言模型（如 GPT‑4、Claude、Gemini、DeepSeek、Qwen等）可理解並生成程式碼之能力。

應用方式: 幫助非程式背景者「自己作原型、小工具」。

2025

規格先行

Vibe Spec

Vibe Spec（或稱 Vibespec）是一種將自然語言與正式規格結合的方式，讓 LLM 在生成程式碼前，先產生一份清晰、可追蹤的規格文件。這有助於避免隨性生成導致的混亂與錯誤。

解決的問題:

Vibe Coding 雖快速流暢，但容易缺乏結構、可測試性，並帶來安全與維護風險。
Vibe Spec 可以為每個功能定義需求、輸入/輸出、流程與測試標準，讓 AI 輸出的程式碼更穩健且可複製。

例子：

工具層級：在絕大多數的AI輔助開發工具中，你都可以設定規則或透過提示詞讓 AI 在開始寫程式前，自動先生成 spec，而不是直接生成程式碼。
實務流程：使用三份 Markdown 文件（requirements.md、design.md、tasks.md）來描述使用者故事、架構設計與任務拆解，類似 Kiro Spec 的開發流程，確保 AI 按 spec 編碼。

2025

規格先行

Vibe Spec

flowchart TD USER((User)) --> |啟動 Spec 模式| START[Spec Session] subgraph Spec Workflow START --> LLM((LLM)) LLM --> RA{{Define Requirements → requirements.md}} RA --> DS{{Design System → design.md}} DS --> TS{{Plan Tasks → tasks.md}} TS --> EXEC{{Execute Tasks & Monitor Progress}} EXEC --> DONE[功能完成] end subgraph Files RA --> REQ[requirements.md
（EARS 規範：WHEN … THE SYSTEM SHALL …）] DS --> DES[design.md
（系統架構圖／接口／資料流程）] TS --> TAS[tasks.md
（待辦清單、任務拆解、狀態追蹤）] end subgraph Auto Generation & Feedback REQ --> TOOL_AI{{AI 製作需求草稿}} TOOL_AI --> RA DES --> TOOL_AI TAS --> TOOL_AI EXEC --> TOOL_AI end style USER strostroke-width:4px,color:#000,fill:#EC2D7A style LLM strostroke-width:4px,color:#FFF,fill:#540a0a

2025

多模態 AI

Multimodal AI

背景和問題： 單純文本或圖像的思維限制創意與應用場景。

解決方案： 多模態模型能處理文字／圖片／語音／影音，讓應用更貼近複雜需求。

例子：

客服 AI 能根據客戶上傳的故障照片，分析問題並語音回覆操作步驟。
企劃中 AI 幫你根據腳本直接生成簡短動畫提案片段。

2025

合成式多媒體

Synthetic Media

背景和問題： 傳統影像、音頻內容製作耗時高、人力密集。

解決方案： GenAI可自動生成圖像、音樂、影片、甚至互動遊戲元素。

例子：

藝術家用 AI 生成獨特的數位藝術作品。
影片製作者用 AI 生成動畫角色和背景。
音樂人用 AI 生成背景音樂或聲效。

2025

生成設計

Generative Design

背景和問題： 工程或建築設計需考慮節能、成本、材質等複雜參數。

解決方案： AI 把 CAD + 環境數據導入，經由演算法生成多種設計方案供選擇。

例子：

建築師需求： 只描述「需要最大自然採光、用最低成本建一棟辦公室」，AI 畫出 5 種外觀與材料配置供選擇。
IT 機櫃規劃： 規劃機櫃配置時，AI 根據冷度流量與電力負載給出合理排佈建議。

2025

因果AI

Causal AI

背景和問題： 傳統 AI 只「看關聯」，無法找原因，導致決策根據不夠穩健。

解決方案： 因果 AI 建立「X 導致 Y」模型，幫企業做更可靠的決策

例子：

IT 評估系統升級是否導致效能下降，就能區分「版本不穩定導致的問題」vs.「正確升級帶來的延遲」。
客服部門可找出「培訓完客服是否真正改善滿意度」，而不是只看時間關聯。

此時此刻，AI的演進還在繼續中...(未完待續)