阿里深夜炸場！通義千問發布新一代端到端旗艦模型Qwen2.5-Omni

　　北京時間周四凌晨，阿里巴巴發布通義千問系列的最新旗艦模型Qwen2.5-Omni。這款端到端多模態模型專為廣泛的多模態感知設計，能夠處理文本、圖像、音頻和視頻等多種輸入，同時能夠通過生成文本和合成語音提供實時流式響應。

　　據“通義千問Qwen”官方微信號介紹，這款模型的主要特點如下：

　　全能創新架構：Qwen團隊提出了一種全新的Thinker-Talker架構，這是一種端到端的多模態模型，旨在支持文本/圖像/音頻/視頻的跨模態理解，同時以流式方式生成文本和自然語音響應。Qwen提出了一種新的位置編碼技術，稱為TMRoPE（Time-aligned Multimodal RoPE），通過時間軸對齊實現視頻與音頻輸入的精準同步。

　　實時音視頻交互：架構旨在支持完全實時交互，支持分塊輸入和即時輸出。

　　自然流暢的語音生成：在語音生成的自然性和穩定性方面超越了許多現有的流式和非流式替代方案。

　　全模態性能優勢：在同等規模的單模態模型進行基準測試時，表現出卓越的性能。Qwen2.5-Omni在音頻能力上優於類似大小的Qwen2-Audio，並與Qwen2.5-VL-7B保持同等水平。

　　卓越的端到端語音指令跟隨能力：Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文本輸入處理相媲美的效果，在MMLU通用知識理解和GSM8K數學推理等基準測試中表現優異。

　　模型性能方面，Qwen2.5-Omni在包括圖像，音頻，音視頻等各種模態下的表現都優於類似大小的單模態模型以及封閉源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

　　在多模態任務OmniBench，Qwen2.5-Omni達到了SOTA的表現。此外，在單模態任務中，Qwen2.5-Omni在多個領域中表現優異，包括語音識別（Common Voice）、翻譯（CoVoST2）、音頻理解（MMAU）、圖像推理（MMMU、MMStar）、視頻理解（MVBench）以及語音生成（Seed-tts-eval和主觀自然聽感）。

　　該模型現已在 Hugging Face、ModelScope、DashScope 和 GitHub上開源開放。

（文章來源：財聯社）