2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
阿里再一次推出大規(guī)模視覺語言模型Qwen-VL,上線之后可以直接開源。Qwen-VL是基于通義千問-7B打造的多模態(tài)大模型,支持多種不同的輸入,包括圖像輸入、文本輸入以及檢測框輸入等等。除了文字輸出之外,也支持檢測框輸出。
這款模型可以支持多語言對話,端到端支持圖片里中英雙語的長文識別。支持多圖輸入和比較,指定圖片問答,多圖文學創(chuàng)作等等。在視覺定位能力方面做得也比較完美,即使圖片當中有非常復雜的人物,也能夠根據(jù)使用者的需求,精準的找到對應目標。在模型架構上引入視覺編碼器 ViT,通過位置感知的視覺語言適配器連接兩者,能夠讓大模型支持視覺信號輸入。引入高分辨率的多任務視覺語言數(shù)據(jù),多項任務可以做聯(lián)合預訓練。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)