這項(xiàng)由愛爾蘭都柏林大學(xué)國家人工智能中心(CeADAR)的Sebastián Andrés Cajas Ordónez領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)表于2025年,合作機(jī)構(gòu)包括哥倫比亞安蒂奧基亞大學(xué)、意大利都靈大學(xué)和哥倫比亞考卡大學(xué)航空航天公司。這項(xiàng)研究首次系統(tǒng)性地證明了量子計(jì)算機(jī)在機(jī)器學(xué)習(xí)任務(wù)中能夠超越傳統(tǒng)計(jì)算機(jī),關(guān)鍵在于選擇合適的數(shù)據(jù)表示方法。有興趣深入了解的讀者可以通過GitHub訪問完整代碼:https://github.com/sebasmos/QuantumVE。
想象一下,你正在教兩個學(xué)生識別圖片中的數(shù)字和服裝。一個學(xué)生是傳統(tǒng)的計(jì)算機(jī)(就像我們平時用的電腦),另一個學(xué)生是量子計(jì)算機(jī)(一種利用量子物理現(xiàn)象的超級計(jì)算機(jī))。過去,人們一直認(rèn)為量子計(jì)算機(jī)在這類任務(wù)上并沒有明顯優(yōu)勢,甚至可能表現(xiàn)更差。但這項(xiàng)研究發(fā)現(xiàn)了一個令人驚訝的秘密:關(guān)鍵不在于學(xué)生本身的能力,而在于你如何向他們展示信息。
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)使用Vision Transformer(一種模仿人類注意力機(jī)制的AI技術(shù))來預(yù)處理圖像信息時,量子計(jì)算機(jī)突然展現(xiàn)出了驚人的學(xué)習(xí)能力,在MNIST手寫數(shù)字識別任務(wù)上比傳統(tǒng)方法提高了4.42%的準(zhǔn)確率,在Fashion-MNIST服裝識別任務(wù)上更是提高了驚人的8.02%。這聽起來可能不多,但在機(jī)器學(xué)習(xí)領(lǐng)域,即使1%的提升都是非常顯著的成就。
更有趣的是,當(dāng)研究人員使用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來預(yù)處理同樣的圖像時,量子計(jì)算機(jī)的表現(xiàn)反而變差了。這就像給不同的學(xué)生提供不同格式的教材,有些學(xué)生更適合圖表式的解釋,有些學(xué)生更適合文字描述,而量子計(jì)算機(jī)顯然更"偏愛"Vision Transformer的表示方式。
這項(xiàng)研究的突破性在于它是第一個系統(tǒng)性證明量子核優(yōu)勢(量子計(jì)算機(jī)在特定任務(wù)上的優(yōu)勢)嚴(yán)重依賴于嵌入選擇的研究。研究團(tuán)隊(duì)使用了16量子比特的張量網(wǎng)絡(luò)模擬,通過NVIDIA的cuTensorNet技術(shù)實(shí)現(xiàn)了高性能的量子模擬,為實(shí)際的量子機(jī)器學(xué)習(xí)應(yīng)用提供了可行的路徑。
**一、傳統(tǒng)機(jī)器學(xué)習(xí)遇到的困境**
在深入了解這項(xiàng)研究之前,我們需要理解傳統(tǒng)機(jī)器學(xué)習(xí)面臨的挑戰(zhàn)?,F(xiàn)代機(jī)器學(xué)習(xí)就像培訓(xùn)一個超級偵探,需要從海量的線索中找出規(guī)律。但隨著數(shù)據(jù)變得越來越復(fù)雜,這個偵探需要處理的信息量呈指數(shù)級增長,傳統(tǒng)計(jì)算機(jī)開始力不從心。
支持向量機(jī)(SVM)是機(jī)器學(xué)習(xí)中的經(jīng)典算法,就像一個善于畫分界線的專家。它的工作原理是在數(shù)據(jù)中找到一條最優(yōu)的分界線,將不同類別的數(shù)據(jù)分開。比如,它能在一堆貓和狗的照片中畫出一條無形的分界線,準(zhǔn)確地區(qū)分哪些是貓,哪些是狗。但是,當(dāng)數(shù)據(jù)維度變得非常高時,這條分界線變得極其復(fù)雜,傳統(tǒng)計(jì)算機(jī)需要消耗巨大的計(jì)算資源。
量子計(jì)算機(jī)的出現(xiàn)為這個問題提供了新的思路。量子計(jì)算機(jī)利用量子疊加和量子糾纏等奇特的物理現(xiàn)象,能夠同時處理多種可能性。這就像讓偵探同時存在于多個平行宇宙中,在每個宇宙里都嘗試不同的推理路徑,最后將所有結(jié)果綜合起來得出最佳答案。
然而,量子機(jī)器學(xué)習(xí)面臨著巨大的實(shí)際挑戰(zhàn)。當(dāng)前的量子計(jì)算機(jī)容易受到噪聲干擾,就像在嘈雜的環(huán)境中工作的偵探,很容易被干擾而做出錯誤判斷。此外,量子計(jì)算機(jī)的量子比特?cái)?shù)量有限,就像偵探的記憶容量有限,無法同時處理太多信息。
**二、嵌入技術(shù):為量子計(jì)算機(jī)準(zhǔn)備"食材"**
這項(xiàng)研究的核心創(chuàng)新在于發(fā)現(xiàn)了一個關(guān)鍵事實(shí):量子計(jì)算機(jī)的表現(xiàn)很大程度上取決于我們?nèi)绾螢樗鼫?zhǔn)備數(shù)據(jù)。這就像烹飪一樣,即使是最好的廚師,如果食材處理不當(dāng),也很難做出美味的菜肴。
研究團(tuán)隊(duì)使用了兩種不同的"食材處理"方法。第一種是EfficientNet-B3,這是一種卷積神經(jīng)網(wǎng)絡(luò),就像一個傳統(tǒng)的食材切片機(jī),按照固定的模式將圖像切成小塊進(jìn)行處理。這種方法已經(jīng)在傳統(tǒng)機(jī)器學(xué)習(xí)中證明了其有效性,能夠識別圖像中的邊緣、紋理和形狀等特征。
第二種方法是Vision Transformer(ViT),這是一種完全不同的處理方式。如果說CNN像切片機(jī),那么ViT更像一個有著敏銳洞察力的藝術(shù)評論家。它不是機(jī)械地切割圖像,而是學(xué)會了像人類一樣"注意"圖像的不同部分。當(dāng)人類看一張照片時,我們的注意力會自然地在重要的部分之間跳躍,ViT正是模仿了這種注意力機(jī)制。
更具體地說,ViT將圖像分成許多小塊(就像將一幅畫分成許多拼圖塊),然后學(xué)習(xí)這些塊之間的關(guān)系。它能夠理解哪些塊對于識別任務(wù)最重要,哪些塊之間存在關(guān)聯(lián)。這種處理方式產(chǎn)生的數(shù)據(jù)表示包含了豐富的語義信息,就像給量子計(jì)算機(jī)提供了一份詳細(xì)的"菜譜"。
研究團(tuán)隊(duì)還使用了主成分分析(PCA)來進(jìn)一步壓縮這些表示,就像將復(fù)雜的菜譜簡化成關(guān)鍵步驟,既保留了核心信息,又適應(yīng)了量子計(jì)算機(jī)有限的處理能力。他們嘗試了512、768和1536三種不同的維度設(shè)置,以找到準(zhǔn)確性和計(jì)算效率之間的最佳平衡點(diǎn)。
**三、類平衡的數(shù)據(jù)精煉:化繁為簡的藝術(shù)**
由于量子支持向量機(jī)的計(jì)算復(fù)雜度極高,研究團(tuán)隊(duì)采用了一種巧妙的數(shù)據(jù)精煉策略。這就像從一個巨大的圖書館中挑選出最具代表性的書籍,既要保持內(nèi)容的豐富性,又要確保工作量可控。
傳統(tǒng)的MNIST數(shù)據(jù)集包含70,000張手寫數(shù)字圖片,F(xiàn)ashion-MNIST數(shù)據(jù)集也有同樣的規(guī)模。如果直接用量子計(jì)算機(jī)處理這些數(shù)據(jù),計(jì)算復(fù)雜度將是驚人的O(70000?),這在當(dāng)前的技術(shù)條件下幾乎不可行。
研究團(tuán)隊(duì)使用了基于k-means聚類的類平衡數(shù)據(jù)精煉方法。這個過程就像組織一次大型聚會,你需要確保每個群體都有代表參加,同時控制總?cè)藬?shù)在合理范圍內(nèi)。具體來說,對于每個數(shù)字類別(0到9),研究團(tuán)隊(duì)使用k-means算法找到200個最具代表性的樣本,確保每個類別的特征分布都能被很好地保留。
這種方法將總數(shù)據(jù)量從70,000個樣本減少到2,000個樣本(每類200個,共10類),其中1,600個用于訓(xùn)練,400個用于測試。這樣,計(jì)算復(fù)雜度從O(70000?)降低到O(1600?),使得量子模擬變得可行,同時保持了數(shù)據(jù)的代表性和類別平衡。
更重要的是,這種精煉方法是可配置的。根據(jù)可用的計(jì)算資源和量子硬件的限制,可以調(diào)整k值和數(shù)據(jù)集大小,為不同的量子模擬能力提供適應(yīng)性。這種靈活性使得該方法能夠在從資源受限的環(huán)境到高性能量子模擬系統(tǒng)的各種場景下應(yīng)用。
**四、量子核的奧秘:疊加態(tài)中的模式識別**
量子支持向量機(jī)的核心是量子核函數(shù),這是一個聽起來很抽象但實(shí)際上很巧妙的概念。傳統(tǒng)的支持向量機(jī)就像在二維平面上畫線來分離不同類別的數(shù)據(jù)點(diǎn),但當(dāng)數(shù)據(jù)變得復(fù)雜時,這條線可能需要變成復(fù)雜的曲線,甚至需要在更高維度的空間中才能找到合適的分界面。
量子核利用了量子計(jì)算機(jī)的獨(dú)特能力:量子疊加。這就像讓數(shù)據(jù)點(diǎn)同時存在于多個平行世界中,在每個世界里都嘗試不同的分類方式,然后將所有可能性的信息綜合起來。具體來說,量子核通過計(jì)算兩個數(shù)據(jù)點(diǎn)對應(yīng)的量子態(tài)之間的轉(zhuǎn)換概率來衡量它們的相似性。
研究團(tuán)隊(duì)使用的量子電路采用了數(shù)據(jù)重上傳和計(jì)算-反計(jì)算策略。數(shù)據(jù)重上傳意味著同一份數(shù)據(jù)在量子電路中被多次使用,就像讓偵探從多個角度反復(fù)審視同一條線索。計(jì)算-反計(jì)算策略則確保了量子核函數(shù)的正確計(jì)算,就像先正向推理再反向驗(yàn)證,確保結(jié)果的可靠性。
這個量子電路包含16個量子比特,每個量子比特都通過哈達(dá)瑪門初始化到疊加態(tài),然后通過參數(shù)化的旋轉(zhuǎn)門編碼輸入數(shù)據(jù),接著通過CNOT門創(chuàng)建量子比特之間的糾纏,最后再應(yīng)用另一層旋轉(zhuǎn)門。這個過程就像一個復(fù)雜的舞蹈,每個量子比特都在與其他量子比特協(xié)調(diào)配合,共同創(chuàng)造出一個高維的特征空間。
量子優(yōu)勢的關(guān)鍵在于這個特征空間的維度是指數(shù)級的。對于n個量子比特,量子特征空間的維度是2^n,這意味著16個量子比特能夠創(chuàng)造出65,536維的特征空間。這個巨大的特征空間為復(fù)雜模式的識別提供了豐富的可能性,這是傳統(tǒng)計(jì)算機(jī)難以高效達(dá)到的。
**五、張量網(wǎng)絡(luò)模擬:在經(jīng)典計(jì)算機(jī)上實(shí)現(xiàn)量子魔法**
由于真正的量子計(jì)算機(jī)仍然稀少且容易出錯,研究團(tuán)隊(duì)使用了張量網(wǎng)絡(luò)模擬技術(shù)來驗(yàn)證他們的理論。這就像在實(shí)驗(yàn)室中搭建一個精確的模型來測試新的飛機(jī)設(shè)計(jì),雖然不是真正的飛行,但能夠準(zhǔn)確預(yù)測實(shí)際性能。
張量網(wǎng)絡(luò)是一種數(shù)學(xué)工具,能夠有效地表示和操作高維數(shù)據(jù)。對于量子系統(tǒng)來說,張量網(wǎng)絡(luò)可以將復(fù)雜的量子態(tài)表示為許多較小張量的網(wǎng)絡(luò),這樣就能在傳統(tǒng)計(jì)算機(jī)上模擬量子計(jì)算的過程。這種方法的優(yōu)勢在于它能夠利用量子系統(tǒng)的特殊結(jié)構(gòu)來減少計(jì)算復(fù)雜度。
研究團(tuán)隊(duì)使用了NVIDIA的cuTensorNet庫,這是一個專門為張量網(wǎng)絡(luò)計(jì)算優(yōu)化的GPU加速庫。通過將量子電路轉(zhuǎn)換為張量網(wǎng)絡(luò),然后使用自動調(diào)優(yōu)的收縮路徑算法來計(jì)算量子核矩陣,整個過程變得高效可行。這就像將復(fù)雜的機(jī)械裝配過程分解為許多簡單的步驟,每個步驟都經(jīng)過優(yōu)化,最終實(shí)現(xiàn)整體的高效運(yùn)行。
為了進(jìn)一步提高性能,研究團(tuán)隊(duì)對原始實(shí)現(xiàn)進(jìn)行了多項(xiàng)優(yōu)化。他們使用Python的緩存裝飾器來避免重復(fù)計(jì)算三角函數(shù)和指數(shù)函數(shù),預(yù)計(jì)算正弦和余弦值以避免重復(fù)表達(dá)式,使用列表推導(dǎo)式而不是迭代追加來生成操作數(shù)批次,以及預(yù)分配張量網(wǎng)絡(luò)振幅的計(jì)算列表。這些優(yōu)化就像調(diào)試一臺精密機(jī)器,每個小的改進(jìn)都能帶來整體性能的顯著提升。
**六、實(shí)驗(yàn)結(jié)果:Vision Transformer的量子優(yōu)勢**
實(shí)驗(yàn)結(jié)果令人震撼,清晰地展示了嵌入選擇對量子機(jī)器學(xué)習(xí)性能的決定性影響。這就像發(fā)現(xiàn)了一把特殊的鑰匙,只有它才能打開量子優(yōu)勢的大門。
在MNIST手寫數(shù)字識別任務(wù)中,使用Vision Transformer嵌入的量子支持向量機(jī)表現(xiàn)出了顯著優(yōu)勢。具體來說,ViT-B/32-512配置實(shí)現(xiàn)了99.0%的準(zhǔn)確率,相比傳統(tǒng)支持向量機(jī)的94.81%提高了4.42%。ViT-B/16-512配置甚至達(dá)到了99.5%的準(zhǔn)確率,提升了4.25%。更令人印象深刻的是,即使是更大的模型ViT-L/14@336-768也保持了99.3%的高準(zhǔn)確率,比傳統(tǒng)方法提高了0.94%。
在更具挑戰(zhàn)性的Fashion-MNIST服裝識別任務(wù)中,量子優(yōu)勢更加明顯。ViT-B/16-512配置實(shí)現(xiàn)了90.0%的準(zhǔn)確率,相比傳統(tǒng)支持向量機(jī)的83.32%提高了驚人的8.02%。ViT-B/32-512配置也達(dá)到了90.0%的準(zhǔn)確率,提升了6.18%。這些結(jié)果表明,量子計(jì)算機(jī)在處理復(fù)雜視覺模式時具有特殊的優(yōu)勢。
然而,當(dāng)使用傳統(tǒng)的CNN特征(EfficientNet-B3)時,情況完全不同。量子支持向量機(jī)的表現(xiàn)反而比傳統(tǒng)方法更差,在MNIST上降低了2.58%到3.55%,在Fashion-MNIST上降低了3.29%到4.26%。這個鮮明的對比揭示了一個重要事實(shí):量子優(yōu)勢不是自動產(chǎn)生的,而是需要合適的數(shù)據(jù)表示才能實(shí)現(xiàn)。
更有趣的是,當(dāng)使用原始像素?cái)?shù)據(jù)時,量子支持向量機(jī)的表現(xiàn)也顯著下降,在MNIST上降低了6.14%,在Fashion-MNIST上降低了6.71%。這進(jìn)一步證實(shí)了特征表示的重要性,也解釋了為什么之前的許多量子機(jī)器學(xué)習(xí)研究沒有觀察到明顯的量子優(yōu)勢。
**七、交叉驗(yàn)證與穩(wěn)定性分析:確保結(jié)果可靠性**
科學(xué)研究的可信度不僅來自于單次實(shí)驗(yàn)的結(jié)果,更重要的是結(jié)果的一致性和可重復(fù)性。研究團(tuán)隊(duì)通過5折交叉驗(yàn)證來確保他們的發(fā)現(xiàn)是穩(wěn)定和可靠的,這就像讓五個不同的評委獨(dú)立評價同一個表演,只有當(dāng)所有評委的評價都一致時,結(jié)果才是可信的。
交叉驗(yàn)證的結(jié)果顯示了令人鼓舞的一致性。最佳表現(xiàn)的量子模型QSVM with ViT-L/14@336-768在MNIST上實(shí)現(xiàn)了97.6% ± 1.0%的準(zhǔn)確率,在Fashion-MNIST上實(shí)現(xiàn)了84.1% ± 1.9%的準(zhǔn)確率。這些相對較小的標(biāo)準(zhǔn)差表明結(jié)果是穩(wěn)定的,不是偶然現(xiàn)象或數(shù)據(jù)分割的偶然結(jié)果。
更重要的是,所有使用Vision Transformer嵌入的量子模型都顯示出了優(yōu)秀的AUC分?jǐn)?shù),幾乎達(dá)到了99.9%的完美水平。AUC(Area Under the Curve)是衡量分類器性能的重要指標(biāo),99.9%的AUC分?jǐn)?shù)意味著模型幾乎能夠完美地區(qū)分不同類別,這在實(shí)際應(yīng)用中具有重要意義。
小提琴圖可視化進(jìn)一步展示了不同模型的性能分布。使用ViT嵌入的量子模型不僅平均準(zhǔn)確率更高,而且方差更小,這表明它們的性能更加穩(wěn)定可預(yù)測。相比之下,基線模型和使用EfficientNet嵌入的模型顯示出更大的變異性,特別是在更具挑戰(zhàn)性的Fashion-MNIST任務(wù)上。
混淆矩陣分析顯示,最佳量子模型在所有數(shù)字和服裝類別上都表現(xiàn)出色,沒有明顯的偏向性。這種均衡的性能表明量子核確實(shí)捕獲了有意義的特征表示,而不是簡單地偏向某些容易識別的類別。
**八、計(jì)算效率與可擴(kuò)展性:實(shí)用性考量**
雖然量子優(yōu)勢在準(zhǔn)確性方面得到了證實(shí),但計(jì)算效率同樣是實(shí)際應(yīng)用中需要考慮的重要因素。研究團(tuán)隊(duì)詳細(xì)分析了不同配置的計(jì)算成本,為實(shí)際部署提供了重要參考。
大多數(shù)基于ViT的量子配置在大約3,800秒內(nèi)完成訓(xùn)練和評估,峰值內(nèi)存使用量約為43GB。雖然這個計(jì)算時間看起來很長,但考慮到這是在進(jìn)行復(fù)雜的量子模擬,這個性能是可以接受的。更重要的是,這比傳統(tǒng)的量子模擬方法有了顯著改進(jìn),研究團(tuán)隊(duì)的優(yōu)化使運(yùn)行時間從4,492秒減少到3,812秒,節(jié)省了680秒。
在性能與效率的平衡方面,QSVM with ViT-B/16-512提供了最佳的折中方案,在實(shí)現(xiàn)97.3%準(zhǔn)確率的同時,運(yùn)行時間最短,僅為3,763秒。這使得它在資源受限的環(huán)境中具有特殊的價值。
研究團(tuán)隊(duì)實(shí)現(xiàn)的多項(xiàng)優(yōu)化顯著提升了系統(tǒng)性能。通過函數(shù)級緩存避免了重復(fù)的三角函數(shù)計(jì)算,預(yù)計(jì)算的正弦余弦值減少了冗余表達(dá)式,列表推導(dǎo)式替代迭代追加提高了內(nèi)存效率,預(yù)分配張量網(wǎng)絡(luò)振幅計(jì)算減少了垃圾回收壓力。這些看似細(xì)微的改進(jìn)累積起來產(chǎn)生了顯著的性能提升。
更重要的是,該框架具有良好的可擴(kuò)展性。數(shù)據(jù)精煉參數(shù)可以根據(jù)可用的計(jì)算資源進(jìn)行調(diào)整,使得該方法能夠適應(yīng)從資源受限的環(huán)境到高性能量子模擬系統(tǒng)的各種場景。隨著量子硬件的不斷發(fā)展,這種適應(yīng)性將變得越來越重要。
**九、理論解釋:為什么Vision Transformer與量子計(jì)算機(jī)如此般配**
這項(xiàng)研究最引人深思的部分是它提出了一個根本性問題:為什么Vision Transformer嵌入能夠與量子核產(chǎn)生如此強(qiáng)烈的協(xié)同效應(yīng),而CNN嵌入?yún)s不能?雖然研究團(tuán)隊(duì)承認(rèn)完整的理論解釋仍有待進(jìn)一步研究,但他們提出了一些有趣的假設(shè)。
Vision Transformer的核心機(jī)制是自注意力,這種機(jī)制使得模型能夠同時關(guān)注輸入的所有部分,并學(xué)習(xí)它們之間的復(fù)雜關(guān)系。這種全局的、非局部的信息處理方式與量子系統(tǒng)的非局域性特征有著天然的相似性。量子糾纏允許量子比特之間存在即時的、超越空間限制的關(guān)聯(lián),這與自注意力機(jī)制在圖像不同區(qū)域之間建立直接連接的方式非常相似。
相比之下,卷積神經(jīng)網(wǎng)絡(luò)采用的是局部處理方式,通過滑動窗口逐步提取特征。這種層次化、局部化的處理方式雖然在傳統(tǒng)計(jì)算中非常有效,但可能無法充分利用量子系統(tǒng)的全局特性。量子核能夠在指數(shù)級大的特征空間中進(jìn)行全局優(yōu)化,而CNN提取的局部特征可能限制了這種全局優(yōu)化的效果。
另一個可能的解釋與信息編碼的方式有關(guān)。Vision Transformer產(chǎn)生的嵌入包含了豐富的語義信息和長程依賴關(guān)系,這些信息在量子態(tài)的復(fù)雜干涉模式中能夠得到更好的表達(dá)。量子核通過計(jì)算不同量子態(tài)之間的內(nèi)積來衡量相似性,而這種內(nèi)積計(jì)算天然地適合處理高維、稀疏且具有復(fù)雜相關(guān)性的數(shù)據(jù)表示。
此外,Vision Transformer的位置編碼機(jī)制可能也發(fā)揮了重要作用。位置編碼為每個圖像塊添加了位置信息,創(chuàng)建了一種結(jié)構(gòu)化的表示,這種結(jié)構(gòu)可能與量子電路中的糾纏模式產(chǎn)生共振效應(yīng),從而增強(qiáng)了量子核的表達(dá)能力。
**十、實(shí)際應(yīng)用前景:從實(shí)驗(yàn)室走向現(xiàn)實(shí)世界**
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范疇,它為量子機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用開辟了新的道路。在許多對準(zhǔn)確性要求極高的領(lǐng)域,即使幾個百分點(diǎn)的提升也能帶來巨大的價值。
在醫(yī)療診斷領(lǐng)域,高精度的圖像識別能夠挽救生命。醫(yī)學(xué)影像分析,如X光片、CT掃描和MRI圖像的自動診斷,都需要極高的準(zhǔn)確性。8%的準(zhǔn)確率提升可能意味著更多的早期癌癥能夠被及時發(fā)現(xiàn),更多的誤診能夠被避免。研究團(tuán)隊(duì)提到的嵌入感知量子分類器為醫(yī)療AI提供了新的可能性。
在安全關(guān)鍵系統(tǒng)中,如自動駕駛汽車的視覺感知系統(tǒng),任何準(zhǔn)確性的提升都直接關(guān)系到公共安全。量子增強(qiáng)的圖像識別系統(tǒng)可能能夠更好地識別道路標(biāo)志、行人和其他車輛,減少交通事故的發(fā)生。
金融風(fēng)險評估和欺詐檢測是另一個潛在的應(yīng)用領(lǐng)域。雖然這項(xiàng)研究專注于圖像識別,但其核心思想——通過合適的特征表示來釋放量子優(yōu)勢——同樣適用于金融數(shù)據(jù)分析。量子核方法可能能夠識別傳統(tǒng)方法難以發(fā)現(xiàn)的復(fù)雜模式和異常。
更有趣的是,隨著量子硬件的不斷發(fā)展,這種嵌入感知的方法將變得越來越實(shí)用。當(dāng)前的研究使用了16量子比特的模擬,但隨著量子計(jì)算機(jī)量子比特?cái)?shù)量的增加和錯誤率的降低,更大規(guī)模、更復(fù)雜的量子機(jī)器學(xué)習(xí)任務(wù)將成為可能。
研究團(tuán)隊(duì)設(shè)計(jì)的可配置數(shù)據(jù)精煉框架為這種擴(kuò)展提供了良好的基礎(chǔ)。用戶可以根據(jù)可用的量子資源調(diào)整數(shù)據(jù)集大小和精煉參數(shù),實(shí)現(xiàn)從小型概念驗(yàn)證到大規(guī)模生產(chǎn)部署的平滑過渡。
**十一、局限性與未來研究方向:誠實(shí)面對挑戰(zhàn)**
盡管這項(xiàng)研究取得了令人興奮的結(jié)果,研究團(tuán)隊(duì)也誠實(shí)地承認(rèn)了其局限性,并為未來的研究指明了方向。這種科學(xué)誠實(shí)的態(tài)度本身就值得稱贊。
首先,當(dāng)前的評估主要集中在相對簡單的視覺分類基準(zhǔn)測試上,即MNIST和Fashion-MNIST。雖然這些數(shù)據(jù)集在機(jī)器學(xué)習(xí)社區(qū)中被廣泛使用,但它們的復(fù)雜性與真實(shí)世界的應(yīng)用仍有差距。未來需要在更復(fù)雜的數(shù)據(jù)集上驗(yàn)證這些發(fā)現(xiàn),如CIFAR-10、醫(yī)學(xué)影像數(shù)據(jù)或特定領(lǐng)域的應(yīng)用數(shù)據(jù)。
其次,解釋Vision Transformer與量子核之間協(xié)同效應(yīng)的理論基礎(chǔ)仍然不完整。雖然研究團(tuán)隊(duì)提出了一些有趣的假設(shè),但需要更深入的理論分析來完全理解這種現(xiàn)象。這種理論理解對于指導(dǎo)未來的算法設(shè)計(jì)和優(yōu)化至關(guān)重要。
第三,當(dāng)前的實(shí)現(xiàn)依賴于張量網(wǎng)絡(luò)模擬,而不是真正的量子硬件。雖然模擬結(jié)果提供了有價值的洞察,但真實(shí)的量子計(jì)算機(jī)會引入噪聲、退相干和門錯誤等現(xiàn)實(shí)因素。未來需要在實(shí)際的量子設(shè)備上驗(yàn)證這些結(jié)果,并開發(fā)對噪聲魯棒的量子機(jī)器學(xué)習(xí)算法。
計(jì)算成本仍然是一個重要考慮因素。雖然研究團(tuán)隊(duì)的優(yōu)化顯著提升了性能,但3,800秒的訓(xùn)練時間對于許多實(shí)際應(yīng)用來說仍然太長。未來的工作需要進(jìn)一步優(yōu)化算法和實(shí)現(xiàn),或者開發(fā)更高效的量子模擬方法。
研究團(tuán)隊(duì)建議的未來研究方向包括自動化嵌入和核選擇策略的開發(fā),這將消除手動超參數(shù)調(diào)優(yōu)的需要。探索PCA之外的更精妙的降維技術(shù),以更好地保留語義信息。開發(fā)針對增強(qiáng)計(jì)算效率優(yōu)化的量子電路設(shè)計(jì)。將實(shí)證驗(yàn)證擴(kuò)展到醫(yī)學(xué)影像和其他高維領(lǐng)域,以證明更廣泛的實(shí)用性。
**十二、更廣闊的影響:重新思考量子機(jī)器學(xué)習(xí)**
這項(xiàng)研究的影響遠(yuǎn)遠(yuǎn)超出了技術(shù)細(xì)節(jié),它從根本上改變了我們對量子機(jī)器學(xué)習(xí)的理解。傳統(tǒng)的觀點(diǎn)認(rèn)為,量子優(yōu)勢主要來自于量子算法本身的優(yōu)越性。但這項(xiàng)研究表明,量子優(yōu)勢更多地取決于算法與數(shù)據(jù)表示之間的協(xié)同設(shè)計(jì)。
這種觀點(diǎn)的轉(zhuǎn)變具有深遠(yuǎn)的意義。它意味著實(shí)現(xiàn)量子優(yōu)勢不僅僅是量子計(jì)算機(jī)硬件的問題,也不僅僅是量子算法的問題,而是需要整個系統(tǒng)的協(xié)同優(yōu)化。從數(shù)據(jù)預(yù)處理到特征提取,從算法設(shè)計(jì)到硬件實(shí)現(xiàn),每個環(huán)節(jié)都需要考慮與其他環(huán)節(jié)的匹配性。
這種系統(tǒng)性思維對于量子機(jī)器學(xué)習(xí)的未來發(fā)展至關(guān)重要。隨著量子硬件的不斷改進(jìn),我們不應(yīng)該僅僅期待硬件的進(jìn)步自動帶來性能提升,而應(yīng)該同時投入精力來開發(fā)與量子系統(tǒng)特性相匹配的數(shù)據(jù)表示和算法設(shè)計(jì)。
研究還揭示了現(xiàn)代深度學(xué)習(xí)與量子計(jì)算之間意想不到的聯(lián)系。Vision Transformer的成功表明,在深度學(xué)習(xí)中證明有效的注意力機(jī)制和自監(jiān)督學(xué)習(xí)方法可能為量子機(jī)器學(xué)習(xí)提供靈感。這種跨領(lǐng)域的知識遷移可能會催生更多創(chuàng)新的量子機(jī)器學(xué)習(xí)方法。
從更宏觀的角度來看,這項(xiàng)研究支持了一種混合計(jì)算范式,其中經(jīng)典計(jì)算和量子計(jì)算各自發(fā)揮優(yōu)勢。經(jīng)典神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)特征提取和數(shù)據(jù)預(yù)處理,量子計(jì)算機(jī)負(fù)責(zé)核心的機(jī)器學(xué)習(xí)任務(wù)。這種分工可能是在量子硬件完全成熟之前實(shí)現(xiàn)量子優(yōu)勢的最現(xiàn)實(shí)路徑。
歸根結(jié)底,這項(xiàng)由愛爾蘭都柏林大學(xué)團(tuán)隊(duì)領(lǐng)導(dǎo)的研究為我們展示了一個重要事實(shí):量子計(jì)算的未來不在于簡單地復(fù)制經(jīng)典算法,而在于發(fā)現(xiàn)和利用量子系統(tǒng)的獨(dú)特優(yōu)勢。通過將Vision Transformer的注意力機(jī)制與量子核的全局優(yōu)化能力相結(jié)合,研究團(tuán)隊(duì)找到了一種真正發(fā)揮量子優(yōu)勢的方法。
這種發(fā)現(xiàn)提醒我們,科學(xué)突破往往來自于不同領(lǐng)域知識的巧妙結(jié)合。Vision Transformer原本是為了解決計(jì)算機(jī)視覺問題而設(shè)計(jì)的,量子核是為了利用量子計(jì)算優(yōu)勢而開發(fā)的,但當(dāng)它們結(jié)合在一起時,卻產(chǎn)生了意想不到的協(xié)同效應(yīng)。這種跨領(lǐng)域的創(chuàng)新思維將繼續(xù)推動量子機(jī)器學(xué)習(xí)的發(fā)展。
隨著量子硬件的不斷發(fā)展和算法的持續(xù)優(yōu)化,我們有理由期待看到更多類似的突破。這項(xiàng)研究不僅為量子機(jī)器學(xué)習(xí)提供了一個實(shí)用的框架,更重要的是,它為我們指明了一個方向:真正的量子優(yōu)勢來自于對量子系統(tǒng)特性的深度理解和巧妙利用,而不是簡單的硬件升級。這種洞察將繼續(xù)指導(dǎo)我們在量子計(jì)算的征途上前行。
Q&A
Q1:Vision Transformer嵌入為什么能讓量子計(jì)算機(jī)在圖像識別上超越傳統(tǒng)方法?
A:Vision Transformer采用自注意力機(jī)制,能同時關(guān)注圖像的所有部分并學(xué)習(xí)它們之間的復(fù)雜關(guān)系,這種全局的、非局部的信息處理方式與量子系統(tǒng)的非局域性特征天然相似。量子糾纏允許量子比特之間存在即時關(guān)聯(lián),這與自注意力機(jī)制在圖像不同區(qū)域間建立直接連接的方式非常匹配,從而釋放了量子優(yōu)勢。
Q2:為什么使用CNN特征的量子支持向量機(jī)表現(xiàn)反而更差?
A:CNN采用局部處理方式,通過滑動窗口逐步提取特征,這種層次化、局部化的處理方式無法充分利用量子系統(tǒng)的全局特性。量子核能在指數(shù)級大的特征空間中進(jìn)行全局優(yōu)化,而CNN提取的局部特征限制了這種全局優(yōu)化效果,導(dǎo)致量子計(jì)算機(jī)的獨(dú)特優(yōu)勢無法發(fā)揮。
Q3:這項(xiàng)研究對普通人有什么實(shí)際意義?
A:這項(xiàng)研究為醫(yī)療診斷、自動駕駛、金融風(fēng)控等對準(zhǔn)確性要求極高的領(lǐng)域提供了新可能。8%的準(zhǔn)確率提升意味著更多早期癌癥能被及時發(fā)現(xiàn),自動駕駛系統(tǒng)能更好識別道路狀況,金融系統(tǒng)能更準(zhǔn)確識別欺詐行為。隨著量子硬件發(fā)展,這種技術(shù)將逐步走向?qū)嵱没?/p>
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。