HappyHorse 在 AI 影片盲測中匿名奪冠,阿里巴巴的淘天與 Sand.ai 受到審查

robot
摘要生成中

根據 1M AI News 的監測,上週一款名為 HappyHorse-1.0 的匿名模型在 AI 影像評估平台 Artificial Analysis 的「Video Arena」排名中奪得冠軍,在文字轉影像到影片(text-to-video)與影像轉影片(image-to-video)兩個類別(不包含音訊)都拿下第一名。這使得字節跳動(ByteDance)的 Seedance 2.0 下滑至第二名。

在音訊類別中,Seedance 2.0 仍以些微優勢領先。目前並沒有召開記者會、沒有技術部落格、也沒有公司歸屬說明,且截至目前尚未有人公開認領。

Video Arena 排名係基於 Elo 盲測系統:使用者在不知道模型身分的情況下,對兩個生成選項中自己較偏好的影片進行投票。HappyHorse 上榜時間不長,樣本數約 3,500,少於 Seedance 2.0 的一半以上,因而造成較大的信心水準區間(±12-13 分)。

不過,在不含音訊的類別中(文字轉影片約 76 分、影像轉影片約 48 分),其領先幅度遠超誤差範圍。根據官方網站上的語言排序(中文與粵語列在英文之前)以及「HappyHorse」提及其 2026 年為「馬年」,業界內部人士推測該模型出自中國團隊。

目前有兩種主流說法:1. 多家業界媒體指出,該模型來自阿里巴巴(Alibaba)的 Taotian Group「Future Life Lab」,負責人是張迪(Zhang Di)。他此前曾擔任快手(Kuaishou)的技術副總裁,並將自 2024 年起領導 Keling AI 的開發,計畫於 2025 年 4 月推出 Keling 2.0 Master Edition。同年 11 月,他將回到阿里巴巴。 2. 使用者 Vigo Zhao 進行了詳細比對,並發現 HappyHorse 完全符合多項 daVinci-MagiHuman 的基準指標;而 daVinci-MagiHuman 由 AI 影片初創 Sand.ai 在今年 3 月開源。官方網站的結構也高度相似。Sand.ai 由 Swin Transformer 的第一作者 Cao Yue 創辦,業界將其稱為「AI 影片領域的 DeepSeek」。HappyHorse 的官方網站顯示,該模型具備 150 億參數、包含 40 層自注意力(self-attention)Transformer,使用 Transfusion 架構(在同一個模型內統一文字自回歸預測與影片音訊擴散生成),採用 8-step 推理;可輸出具同步音訊的 1080p 影片,並支援七種語言的口型同步(lip-sync):中文、英文、日本語、韓文、德文、法文與粵語。該模型完全開源,並允許商業使用。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言