隨著AI大模型技術逐漸深入到應用層面,手機掃描的功能和體驗迎來了全面升級。日前,阿里智能信息事業(yè)群推出搭載AI大模型技術的手機掃描產品“夸克掃描王App”,集合高清掃描、提取文字、格式轉換、去除手寫筆跡、自拍證件照等20余種功能,更精準、更高效地識別、分析與理解復雜內容,成為用戶提升工作、學習效率的掃描AI助手。
AI大模型技術加持 讓掃描更精準、更高效
近年來,隨著移動辦公、學習需求的爆發(fā),手機掃描市場悄然生變。據夸克掃描王數據顯示,用戶掃描學習相關內容數量長期位居第一;職場人群的掃描內容量過去一年增長三倍。Z世代用戶不僅要求掃得清晰,他們對編輯、分享、存儲乃至創(chuàng)作都有了更加個性化的需求,而傳統的手機掃描已經很難滿足這一變化。
據悉,夸克掃描王App應用了最新AI大模型的技術能力,基于大語言模型的結果優(yōu)化,能夠在復雜場景下模仿人類思維,更精準地識別、分析和提取文字、公式及圖片等內容,從而實現更完美的掃描效果。
記者體驗時發(fā)現,AI大模型在提取文字的過程中發(fā)揮了全新作用。當被掃描文字存在陰影遮擋或破損等情況,夸克掃描王在結合數據庫里的訓練樣本后,可以根據上下文的語義解析,去進行匹配定位,從而掃描出一份清晰、平整、有邏輯的電子文檔。
過去一年,夸克掃描王自研的AI大模型,通過對海量圖文數據的訓練,首次將多模算法引入文字識別領域,讓公式識別、手寫識別的效果大幅度提升,印刷文字識別精度為99.99%,手寫文字識別精度超過98.5%。同時,夸克掃描王將游戲引擎數據模擬方法與半監(jiān)督模型訓練方法引入到文檔掃描的模型開發(fā)中,快速提升文檔矯正、字跡清晰度、背景雜質擦除效果。
通過強大的OCR和版式識別技術,夸克掃描王可以幫助用戶掃描文檔、手賬、單據、屏幕等,完成從圖片到資料的轉化。同時,借助便捷的資產管理功能,用戶可以隨時在本地和云端找到重要掃描文件,根據需求進行二次編輯和分享,成為用戶隨身的掃描AI助手。
多款生產力工具持續(xù)迭代 服務不同類型用戶
“堅持用戶第一,創(chuàng)造和滿足不同類型的信息服務需求,是夸克始終堅持的產品理念??淇藪呙柰魽pp正式上線,是夸克'內容+智能工具'戰(zhàn)略的重要進展。”夸克掃描王產品負責人表示。在掃描、網盤、文檔等垂直領域,夸克持續(xù)為用戶提供專業(yè)、智能的產品技術和功能體驗。
對行業(yè)來說,夸克掃描王通過「AI+掃描」也將促進手機掃描從記錄走向深度編輯、個性化生成等全新領域,繼續(xù)擴大行業(yè)發(fā)展前景??淇藪呙柰醍a品負責人認為,掃描是用戶資產數字化的重要場景,搭載AI大模型的能力后,一方面可以讓被掃描內容呈現出更好的效果,也會讓用戶擁有更加自由的創(chuàng)作空間,進而幫助用戶實現掃描場景下的提質增效。
為了更好的滿足用戶需求,夸克以搜索為核心,打造了智能信息服務的底座,再通過網盤、掃描、文檔等垂直領域的生產力工具,進一步滿足用戶不同領域中的場景化需求。
業(yè)內專家指出,夸克多端一體化的發(fā)展戰(zhàn)略,不僅惠及用戶更好地使用數字資產,同時考驗產品、技術在不同場景上的協同能力??淇藪呙柰醯耐瞥霾粌H給掃描重度用戶提供了專業(yè)工具,也是夸克探索新一代智能信息產品的必由之路。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數學推理能力提升8.6%,通用推理提升8.4%,且無需任何數學題目作為訓練材料。研究發(fā)現游戲中的三種推理模式能成功轉移到數學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數學優(yōu)化方法,在合成數據集上實現37.9%的精度提升,并在真實設備上展現出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現,經過強化學習訓練的視覺語言模型雖然表現出"頓悟時刻"現象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯合提出SparseLoRA技術,通過動態(tài)稀疏性實現大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。