更新時(shí)間:2025-03-05 23:08:17來(lái)源:安勤游戲網(wǎng)
智譜AI最新發(fā)布的CogView4模型在文本到圖像生成領(lǐng)域取得了突破性進(jìn)展,成為首個(gè)能夠生成漢字的開源模型,并在DPG-Bench基準(zhǔn)測(cè)試中榮獲榜首,標(biāo)志著開源文生圖模型的新高度。這一創(chuàng)新成果不僅遵循Apache 2.0協(xié)議,更為圖像生成領(lǐng)域帶來(lái)了前所未有的技術(shù)革新。
據(jù)悉,CogView4模型以其卓越的復(fù)雜語(yǔ)義對(duì)齊和指令跟隨能力,能夠支持中英雙語(yǔ)輸入,無(wú)論文本長(zhǎng)度如何,均能生成指定范圍內(nèi)的任意分辨率圖像。這一特性使得CogView4在廣告、短視頻等創(chuàng)意領(lǐng)域具有廣泛的應(yīng)用潛力。
在DPG-Bench基準(zhǔn)測(cè)試中,CogView4憑借其出色的表現(xiàn)脫穎而出,成為開源文生圖模型中的佼佼者。DPG-Bench測(cè)試主要評(píng)估模型在復(fù)雜語(yǔ)義對(duì)齊和指令跟隨方面的能力,而CogView4無(wú)疑在這一領(lǐng)域樹立了新的標(biāo)桿。
CogView4的兩大技術(shù)性創(chuàng)新尤為引人注目。首先,它支持中英雙語(yǔ)提示詞輸入,擅長(zhǎng)理解和遵循中文提示詞,這在開源文生圖模型中尚屬首次。通過采用具備雙語(yǔ)能力的GLM-4 encoder,并結(jié)合中英雙語(yǔ)圖文對(duì)進(jìn)行訓(xùn)練,CogView4成功實(shí)現(xiàn)了雙語(yǔ)提示詞輸入功能。這一創(chuàng)新使得模型能夠更好地滿足中文用戶的創(chuàng)意需求,如古詩(shī)文中的意境描繪等。
其次,CogView4支持輸入任意長(zhǎng)度的提示詞,并能夠生成指定范圍內(nèi)的任意分辨率圖像。這一特性極大地提升了用戶創(chuàng)作的自由度,同時(shí)也提高了訓(xùn)練效率。為了實(shí)現(xiàn)這一目標(biāo),CogView4采用了二維旋轉(zhuǎn)位置編碼(2D RoPE)來(lái)建模圖像位置信息,并通過內(nèi)插位置編碼方式支持不同分辨率的圖像生成任務(wù)。模型還采用了Flow-matching方案進(jìn)行擴(kuò)散生成建模,并結(jié)合參數(shù)化的線性動(dòng)態(tài)噪聲規(guī)劃,以適應(yīng)不同分辨率圖像的信噪比需求。
作為首個(gè)遵循Apache 2.0協(xié)議的圖像生成模型,CogView4的開源將極大地推動(dòng)AI技術(shù)的普及和應(yīng)用。智譜AI表示,將繼續(xù)增加ControlNet、ComfyUI等生態(tài)支持,并推出全套的微調(diào)工具包,以滿足更多用戶的需求。CogView4的最新版本將于3月13日上線智譜清言平臺(tái),供用戶下載和使用。
作為國(guó)內(nèi)最早的開源大模型公司之一,智譜AI始終致力于推動(dòng)AI技術(shù)的普惠發(fā)展。2025年被定為智譜開源年,公司將陸續(xù)開源基礎(chǔ)模型、推理模型、多模態(tài)模型、Agent模型等,為AI技術(shù)的創(chuàng)新和應(yīng)用注入新的活力。
相關(guān)資訊
其他推薦