您的位置: 首頁(yè) >科技 >

阿里大模型開源 讀圖識(shí)物 基于通義千問7B打造 可以商用

2023-08-28 14:52:48 編輯:滕唯愛 來(lái)源:
導(dǎo)讀 阿里再一次推出大規(guī)模視覺語(yǔ)言模型Qwen-VL,上線之后可以直接開源。Qwen-VL是基于通義千問-7B打造的多模態(tài)大模型,支持多種不同的輸入,包...

阿里再一次推出大規(guī)模視覺語(yǔ)言模型Qwen-VL,上線之后可以直接開源。Qwen-VL是基于通義千問-7B打造的多模態(tài)大模型,支持多種不同的輸入,包括圖像輸入、文本輸入以及檢測(cè)框輸入等等。除了文字輸出之外,也支持檢測(cè)框輸出。

這款模型可以支持多語(yǔ)言對(duì)話,端到端支持圖片里中英雙語(yǔ)的長(zhǎng)文識(shí)別。支持多圖輸入和比較,指定圖片問答,多圖文學(xué)創(chuàng)作等等。在視覺定位能力方面做得也比較完美,即使圖片當(dāng)中有非常復(fù)雜的人物,也能夠根據(jù)使用者的需求,精準(zhǔn)的找到對(duì)應(yīng)目標(biāo)。在模型架構(gòu)上引入視覺編碼器 ViT,通過(guò)位置感知的視覺語(yǔ)言適配器連接兩者,能夠讓大模型支持視覺信號(hào)輸入。引入高分辨率的多任務(wù)視覺語(yǔ)言數(shù)據(jù),多項(xiàng)任務(wù)可以做聯(lián)合預(yù)訓(xùn)練。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號(hào):

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)