阿里大模型開源讀圖識物基于通義千問7B打造可以商用

2023-08-28 14:52:48 編輯：滕唯愛來源：

導讀阿里再一次推出大規(guī)模視覺語言模型Qwen-VL，上線之后可以直接開源。Qwen-VL是基于通義千問-7B打造的多模態(tài)大模型，支持多種不同的輸入，包...

阿里再一次推出大規(guī)模視覺語言模型Qwen-VL，上線之后可以直接開源。Qwen-VL是基于通義千問-7B打造的多模態(tài)大模型，支持多種不同的輸入，包括圖像輸入、文本輸入以及檢測框輸入等等。除了文字輸出之外，也支持檢測框輸出。

這款模型可以支持多語言對話，端到端支持圖片里中英雙語的長文識別。支持多圖輸入和比較，指定圖片問答，多圖文學創(chuàng)作等等。在視覺定位能力方面做得也比較完美，即使圖片當中有非常復雜的人物，也能夠根據使用者的需求，精準的找到對應目標。在模型架構上引入視覺編碼器 ViT，通過位置感知的視覺語言適配器連接兩者，能夠讓大模型支持視覺信號輸入。引入高分辨率的多任務視覺語言數據，多項任務可以做聯合預訓練。

標簽：阿里大模型，通義千問