Domo AI推出v2v真實模型,可以進行反向操作,將動漫類型的視頻轉換成真人視頻,還可以通過Prompt將視頻里的對象轉成別的真實事物,如將一個圣誕老人轉成一只圣誕兔子,功能類似于Runway推出的Act one功能。
訊飛星火對其瀏覽器插件進行升級,增加了多項AI能力。集成了訊飛星火V4.0底層能力,兼容Chrome、Edge等主流瀏覽器。新增“繼續提問”功能,隨時深入討論,獲取高質量答案;實現網頁全局對照翻譯;新增“一鍵朗讀”功能,實現邊聽邊看;支持句子、段落總結。
Hume AI推出OCTAVE的文本與語音引擎,該引擎能夠通過簡單的文本描述一段5秒的語音錄音,生成或克隆出逼真的語音和人格特質。不僅能夠生成自然的語音,還能精確地模仿說話者的性別、年齡、口音、情緒語調及職業特定的說話風格,能夠在毫秒級別內完成語音生成,實現了真正的實時對話,并且還允許用戶實時動態地調整生成內容。
南洋理工大學的研究團隊發布圖像超分辨率(SR)技術,該技術基于擴散反演(Diffusion Inversion),通過充分利用大型預訓練擴散模型中的圖像先驗信息,提升圖像的分辨率和清晰度。與現有的超分辨率方法相比,這項技術具有更加靈活高效的采樣機制,可以支持從一個到五個任意數量的采樣步驟。
清華大學與騰訊ARC實驗室的研究團隊推出ColorFlow的新型圖像序列上色模型。解決了在黑白圖像序列上色的同時,保持角色和物體身份一致性的問題,能夠利用上下文信息,通過參考圖像池為黑白圖像序列準確生成顏色。與以往需要針對每個角色進行微調的技術不同,ColorFlow通過具備泛化能力的檢索增強上色管道,簡化了色彩生成的過程。
OpenAI在第十二天技術直播中正式發布了o3模型,在全球著名的編碼競賽平臺Codeforces中得分是2727,位于排列榜單第175名,超越了99.99%的人類。在數學競賽AIEM2024中接近滿分,在評估人工智能在高級數學推理方面能力的FrontierMath中成功率為25.2%,與之對比,GPT-4和Gemini1.5Pro的成功率不足2%。目前不知道o3什么時候放出,但是OpenAI又基于o3訓練了3個小尺寸的o3模型,其中o3-mimi預估在1月底可以對外開放。
AI創意工具Krea AI宣布在Krea Editor推出自定義訓練功能,可以在幾秒鐘內將真實產品添加到任何圖像中。從官方的演示視頻來看,在實際操作中只需涂抹需要替換的區域,如“涂抹模特臉上的墨鏡”,然后選擇商品圖“VR眼鏡”,AI就會自動處理,將VR眼鏡戴到模特臉上。用戶還可以繼續擴圖處理,用同樣的方法繼續涂抹區域,選擇其它商品,AI就會把商品融合到模特身上。
支付寶宣布推出AI創意平臺“螞上有創意”,這是一個面向商務機構的AI營銷服務。“螞上有創意”可以為客戶提供AI快速生成創意素材、營銷廣告智能分析等服務,還免費開放多項營銷圖片素材。據介紹,過去一年支付寶將AI全面應用于商業開放生態,共接入近70個業務場景,累計為生態商家機構生成8700萬張AI素材。
快手旗下AI視頻生成工具可靈(Kling)發布1.6版,主要在物理規律真實感、人物表演能力和語義理解水平三個核心維度提升。①對物理世界的精準演繹:在切西紅柿的測試中,可靈1.6版展現出近乎專業廚師的精準操作,無論是刀具與食材的互動,還是切片的力度都非常真實。倒茶、貓咪踩沙發、狗狗奔跑等日常場景中的物理效果也更加真實;②人物表情和動作:從細微的眉頭皺起到優雅的芭蕾舞姿,再到中國古典水下舞蹈,可靈1.6版都能準確捕捉人物細微的情感變化和復雜的肢體動作;③語義理解:更強的場景理解能力,無論是“摘下眼鏡擁抱小鹿”這樣的連續動作,還是“后退舉槍”等復雜場景,都能準確理解并生成符合預期的視頻內容。
Google發布新AI工具Whisk,允許用戶使用圖片作為提示詞生成圖片。可以上傳圖片來指定AI生成圖像的主題、場景和風格,并且可以為這三者分別使用多張圖片。如果你手頭沒有合適的圖片,可以點擊骰子圖標,讓谷歌自動填充一些圖片作為提示。Whisk還為每張生成的圖片提供了文字提示。如果對結果滿意,可以收藏或下載圖像,如果想要進一步優化,可以在文本框中添加更多文字,或直接點擊圖像編輯文字提示。
作者:百度MEUX鏈接:https://www.zcool.com.cn/article/ZMTY1MDUzMg==.html來源:站酷著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。