OpenAI春季發表會：GPT-4o爆炸登場！

威爾斯親王 | 2024-5-14 08:02:34

1樓

（5月14日）淩晨，美國人工智慧研究公司OpenAI在線上舉辦了「春季更新」活動。

　　整體來看，活動主要分為兩大部分：推出新旗艦模型“GPT-4o”，以及在ChatGPT中免費提供更多功能。

　　GPT-4o登場

　　OpenAI在活動中發布了新旗艦模型“GPT-4o”，“可以即時對音訊、視覺和文字進行推理。”據介紹，新模型使ChatGPT能夠處理50種不同的語言，同時提高了速度和品質。

GPT-4o的“o”代表“omni”。該字意為“全能”，源自拉丁文“omnis”。在英文中「omni」常被用作字根，用來表示「全部」或「所有」的概念。

　　新聞稿稱，GPT-4o是邁向更自然人機互動的一步，它可以接受文字、音訊和圖像三者組合作為輸入，並產生文字、音訊和圖像的任意組合輸出，「與現有模型相比，GPT-4o在影像和音訊理解方面尤其出色。

　　在GPT-4o之前，使用者使用語音模式與ChatGPT對話時，GPT-3.5的平均延遲為2.8秒，GPT-4為5.4秒，音訊在輸入時還會因為處理方式遺失大量訊息，讓GPT-4無法直接觀察音調、說話的人和背景噪音，也無法輸出笑聲、歌唱聲和表達情感。

　　與之相比，GPT-4o可以在232毫秒內對音訊輸入做出反應，與人類在對話中的反應時間相近。在錄播影片中，兩位高層做出了演示：機器人能夠從急促的喘氣聲中理解「緊張」的含義，並且指導他進行深呼吸，還可以根據用戶要求變換語調。

　　影像輸入方面，示範影片顯示，OpenAI高階主管啟動攝影機要求即時完成一個一元方程式題，ChatGPT輕鬆完成了任務；另外，高階主管還展示了ChatGPT桌面版對程式碼和電腦桌面（一張氣溫圖表）進行即時解讀的能力。

　　OpenAI新聞稿稱，「我們跨文字、視覺和音訊端到端地訓練了一個新模型，這意味著所有輸入和輸出都由同一神經網路處理。由於GPT-4o是我們第一個結合所有這些模式的模型，因此我們仍然只是淺嚐輒止地探索該模型的功能及其局限性。

　　在性能方面，根據傳統基準測試，GPT-4o在文本、推理和編碼等方面實現了與GPT-4 Turbo級別相當的性能，同時在多語言、音頻和視覺功能方面的表現分數也創下了新高。

　　更多工具免費解鎖

　　OpenAI表示，「我們開始向ChatGPT Plus和Team用戶推出GPT-4o，很快就會向企業用戶推出。我們今天也開始推出ChatGPT Free，但有使用限額。 Plus用戶的訊息限額將比免費用戶高出5倍，團隊和企業用戶的限額會再高一些。

　　新聞稿稱，即使是ChatGPT Free（免費）用戶也可以有機會體驗GPT-4o，但當達到限額時，ChatGPT將自動切換到GPT-3.5。

　　另外，OpenAI還推出適用於macOS的ChatGPT桌面應用程序，透過簡單的鍵盤快捷鍵（Option + Space）可以立即向ChatGPT提問，還可以直接在應用程式中截取螢幕截圖與機器人進行討論。

　　在直播活動尾聲時，OpenAI首席技術官Mira Murati說道，“感謝傑出的OpenAI團隊，也感謝Jensen（黃仁勳）和英偉達團隊為我們帶來了最先進的GPU，使今天的演示成為可能。”

評分

已有 1 人評分	名聲	金幣	收起理由
S.O.H	+ 6	+ 6	感謝大大分享

總評分: 名聲 + 6 金幣 + 6 查看全部評分

分享 收藏0 分享

免責聲明：本文所載資料僅供參考，本人對該資料或使用該資料所導致的結果概不承擔任何責任.本人已盡告知讀者之義務!，且並無意違反兒童及少年性剝削防制條例第40條所稱『以宣傳品、出版品、廣播、電視、電信、網際網路或其他方法，散布、傳送、刊登或張貼足以引誘、媒介、暗示或其他使兒童或少年有遭受第二條第一項第一款至第三款之虞之訊息』請讀者自重!本文為網路創作，與現實之人事物無關，內容如與現實雷同，純屬巧合!以上純屬夢境，一切都是假的，假如你以為是真的，建議去檢查視力，你眼睛業障太重