97成人免费视频,97视频免费公开成人福利,免费视频99,99婷婷,国产伊人久久,亚洲视频欧美,国产精品福利久久

您當(dāng)前的位置是：首頁 > 技術(shù) > 技術(shù)動態(tài) >

首頁|資訊|文章精選|商城|黃頁|會展|訪談|人才|資源|專家團隊|周刊|呼叫中心|企業(yè)通信|通信業(yè)務(wù)

首頁 > 技術(shù) > 技術(shù)動態(tài) > Meta開源多感官人工智能模型整合文本、音頻、視覺等六類數(shù)據(jù)

Meta開源多感官人工智能模型整合文本、音頻、視覺等六類數(shù)據(jù)

2023-05-10 10:08:10 作者：來源：IT之家評論：0 　點擊：

　　Meta 公司發(fā)布了一個新的開源人工智能模型 ImageBind，該模型能夠?qū)⒍喾N數(shù)據(jù)流，包括文本、音頻、視覺數(shù)據(jù)、溫度和運動讀數(shù)等整合在一起。該模型目前只是一個研究項目，還沒有直接的消費者或?qū)嶋H應(yīng)用，但它展示了未來生成式人工智能系統(tǒng)的可能性，這些系統(tǒng)能夠創(chuàng)造出沉浸式、多感官的體驗。同時，該模型也表明了 Meta 公司在人工智能研究領(lǐng)域的開放態(tài)度，而其競爭對手如 OpenAI 和谷歌則變得越來越封閉。

　　該研究的核心概念是將多種類型的數(shù)據(jù)整合到一個多維索引(或用人工智能術(shù)語來說，“嵌入空間”)中。這個概念可能有些抽象，但它正是近期生成式人工智能熱潮的基礎(chǔ)。例如，人工智能圖像生成器，如 DALL-E、Stable Diffusion 和 Midjourney 等，都依賴于在訓(xùn)練階段將文本和圖像聯(lián)系在一起的系統(tǒng)。它們在尋找視覺數(shù)據(jù)中的模式的同時，將這些信息與圖像的描述相連。這就是為什么這些系統(tǒng)能夠根據(jù)用戶的文本輸入生成圖片。同樣的道理也適用于許多能夠以同樣方式生成視頻或音頻的人工智能工具。

　　Meta 公司稱，其模型 ImageBind 是第一個將六種類型的數(shù)據(jù)整合到一個嵌入空間中的模型。這六種類型的數(shù)據(jù)包括：視覺(包括圖像和視頻);熱力(紅外圖像);文本;音頻;深度信息;以及最有趣的一種 —— 由慣性測量單元(IMU)產(chǎn)生的運動讀數(shù)。(IMU 存在于手機和智能手表中，用于執(zhí)行各種任務(wù)，從手機從橫屏切換到豎屏，到區(qū)分不同類型的運動。)

　　未來的人工智能系統(tǒng)將能夠像當(dāng)前針對文本輸入的系統(tǒng)一樣，交叉引用這些數(shù)據(jù)。例如，想象一下一個未來的虛擬現(xiàn)實設(shè)備，它不僅能夠生成音頻和視覺輸入，還能夠生成你所處的環(huán)境和物理站臺的運動。你可以要求它模擬一次漫長的海上旅行，它不僅會讓你置身于一艘船上，并且有海浪的聲音作為背景，還會讓你感受到甲板在腳下?lián)u晃和海風(fēng)吹拂。

　　Meta 公司在博客文章中指出，未來的模型還可以添加其他感官輸入流，包括“觸覺、語音、氣味和大腦功能磁共振成像信號”。該公司還聲稱，這項研究“讓機器更接近于人類同時、全面、直接地從多種不同的信息形式中學(xué)習(xí)的能力。”

　　當(dāng)然，這很多都是基于預(yù)測的，而且很可能這項研究的直接應(yīng)用會非常有限。例如，去年，Meta 公司展示了一個人工智能模型，能夠根據(jù)文本描述生成短而模糊的視頻。像 ImageBind 這樣的研究顯示了未來版本的系統(tǒng)如何能夠整合其他數(shù)據(jù)流，例如生成與視頻輸出匹配的音頻。

　　對于行業(yè)觀察者來說，這項研究也很有趣，因為注意到 Meta 公司是開源了底層模型的，這在人工智能領(lǐng)域是一個越來越受到關(guān)注的做法。

【免責(zé)聲明】本文僅代表作者本人觀點，與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立，不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索：

上一篇:長虹電視將率先搭載AI大模型 “超級大腦”語音助手6月公測

下一篇:最后一頁

相關(guān)閱讀：