想象一下,如果有一臺(tái)機(jī)器能夠識(shí)別我們?nèi)粘I钪杏龅降乃袧h字,包括那些在古籍中才能見(jiàn)到的生僻字,那會(huì)是什么樣的體驗(yàn)?這不再是科幻小說(shuō)中的情節(jié)。華南理工大學(xué)的研究團(tuán)隊(duì)剛剛發(fā)布了一項(xiàng)令人矚目的研究成果,他們創(chuàng)建了目前世界上最大的中文字符識(shí)別數(shù)據(jù)集,名為"MegaHan97K"。這項(xiàng)由張雨怡、石永鑫、張佩蓉、趙伊鑫、楊振華和金連文教授領(lǐng)導(dǎo)的研究發(fā)表于2025年6月的《模式識(shí)別》期刊,有興趣深入了解的讀者可以通過(guò)論文提供的GitHub鏈接訪問(wèn)完整數(shù)據(jù)集。
為了理解這項(xiàng)研究的重要性,我們可以把漢字識(shí)別想象成教會(huì)機(jī)器"讀書(shū)識(shí)字"的過(guò)程。就像小朋友學(xué)認(rèn)字一樣,機(jī)器也需要看到大量的字符樣本才能學(xué)會(huì)準(zhǔn)確識(shí)別。但與拼音文字不同,漢字的數(shù)量龐大且在不斷增長(zhǎng)。最新的中國(guó)國(guó)家標(biāo)準(zhǔn)GB18030-2022包含了87,887個(gè)漢字類別,這比之前的標(biāo)準(zhǔn)增加了數(shù)萬(wàn)個(gè)字符。然而,在這項(xiàng)研究之前,最大的漢字識(shí)別數(shù)據(jù)集只包含16,151個(gè)類別,就像是用小學(xué)課本來(lái)教大學(xué)生一樣,遠(yuǎn)遠(yuǎn)無(wú)法滿足實(shí)際需求。
研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像是要建造一座前所未有的"漢字博物館"。他們不僅要收集近10萬(wàn)個(gè)不同的漢字,還要確保每個(gè)字都有足夠多的樣本供機(jī)器學(xué)習(xí)。更具挑戰(zhàn)性的是,許多生僻字和古字在現(xiàn)實(shí)中極其罕見(jiàn),要找到它們的真實(shí)樣本就像大海撈針一樣困難。
經(jīng)過(guò)兩年多的不懈努力,研究團(tuán)隊(duì)成功構(gòu)建了包含97,455個(gè)漢字類別的超大規(guī)模數(shù)據(jù)集。這個(gè)數(shù)字意味著什么呢?簡(jiǎn)單來(lái)說(shuō),這個(gè)數(shù)據(jù)集包含的漢字類別是之前最大數(shù)據(jù)集的六倍以上,幾乎涵蓋了現(xiàn)有中文標(biāo)準(zhǔn)中的所有字符。整個(gè)數(shù)據(jù)集包含超過(guò)460萬(wàn)個(gè)字符樣本,相當(dāng)于一個(gè)擁有海量藏品的"數(shù)字漢字博物館"。
這個(gè)數(shù)據(jù)集的獨(dú)特之處在于它包含三個(gè)不同類型的子集,就像博物館的三個(gè)不同展廳。第一個(gè)是手寫(xiě)字符展廳,研究團(tuán)隊(duì)邀請(qǐng)了94位志愿者在專門(mén)設(shè)計(jì)的網(wǎng)站上書(shū)寫(xiě)漢字,總共收集了約90萬(wàn)個(gè)手寫(xiě)樣本。第二個(gè)是歷史文獻(xiàn)展廳,他們從M5HisDoc數(shù)據(jù)集和康熙字典網(wǎng)站收集了約40萬(wàn)個(gè)歷史文檔中的字符圖像。第三個(gè)是合成字符展廳,利用先進(jìn)的字體生成模型FontDiffuser創(chuàng)造了超過(guò)330萬(wàn)個(gè)不同風(fēng)格的合成字符。
為了讓這些數(shù)據(jù)更接近真實(shí)應(yīng)用場(chǎng)景,研究團(tuán)隊(duì)還進(jìn)行了精心的后處理。他們給手寫(xiě)字符添加了古代文獻(xiàn)的背景,調(diào)整了筆畫(huà)粗細(xì),甚至故意加入了一些模糊和色彩變化,就像給嶄新的道具做舊處理,讓它們看起來(lái)更像從古代文獻(xiàn)中摳出來(lái)的真實(shí)字符。
在驗(yàn)證這個(gè)數(shù)據(jù)集的有效性時(shí),研究團(tuán)隊(duì)就像是組織了一場(chǎng)"機(jī)器識(shí)字大賽"。他們測(cè)試了多種不同的識(shí)別方法,包括傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)、基于字符結(jié)構(gòu)分解的方法,以及最新的多模態(tài)學(xué)習(xí)方法。結(jié)果顯示,所有方法在使用合成數(shù)據(jù)訓(xùn)練后都獲得了顯著的性能提升,平均準(zhǔn)確率提高了22.43%。這就像是給參賽選手提供了更好的訓(xùn)練材料,他們的表現(xiàn)自然大幅改善。
然而,超大規(guī)模的字符類別也帶來(lái)了前所未有的挑戰(zhàn)。首先是存儲(chǔ)需求的急劇增加,就像要建造一個(gè)更大的博物館需要更多的展示空間一樣。大多數(shù)識(shí)別模型的存儲(chǔ)需求增加了60%以上,這對(duì)于在手機(jī)或平板電腦等設(shè)備上部署這些模型提出了新的要求。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)"相似字符混淆"的現(xiàn)象。在錯(cuò)誤識(shí)別的樣本中,有38.34%的情況是機(jī)器將某個(gè)字符誤認(rèn)為結(jié)構(gòu)相似的其他字符。這就像是人們經(jīng)常會(huì)把"已"和"己"搞混一樣,機(jī)器在面對(duì)形狀相似的字符時(shí)也會(huì)犯類似的錯(cuò)誤。另外,筆畫(huà)復(fù)雜的字符(超過(guò)10個(gè)筆畫(huà))占錯(cuò)誤樣本的74.18%,說(shuō)明復(fù)雜字符的識(shí)別仍然是一個(gè)技術(shù)難題。
在零樣本學(xué)習(xí)實(shí)驗(yàn)中,研究團(tuán)隊(duì)測(cè)試了機(jī)器在完全沒(méi)有見(jiàn)過(guò)某些字符的情況下能否正確識(shí)別它們。這就像是測(cè)試一個(gè)人能否通過(guò)字典中的偏旁部首組合規(guī)律來(lái)猜測(cè)生詞的讀音。結(jié)果顯示,基于CLIP模型的方法表現(xiàn)最佳,達(dá)到了79.04%的準(zhǔn)確率,這意味著機(jī)器已經(jīng)能夠在一定程度上"舉一反三"了。
為了證明這個(gè)數(shù)據(jù)集的實(shí)用價(jià)值,研究團(tuán)隊(duì)還進(jìn)行了交叉驗(yàn)證實(shí)驗(yàn)。他們將MegaHan97K與其他現(xiàn)有數(shù)據(jù)集結(jié)合訓(xùn)練,發(fā)現(xiàn)模型在識(shí)別稀有字符方面的能力顯著提升。這就像是一個(gè)學(xué)生通過(guò)大量閱讀不同類型的書(shū)籍,不僅能認(rèn)識(shí)更多生僻字,還能更好地理解常見(jiàn)字在不同語(yǔ)境中的用法。
這項(xiàng)研究的影響遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)界的范圍。在數(shù)字化古籍保護(hù)方面,這個(gè)數(shù)據(jù)集為文物修復(fù)工作者提供了強(qiáng)大的工具。想象一下,當(dāng)面對(duì)一本因年代久遠(yuǎn)而部分字跡模糊的古代典籍時(shí),研究人員可以利用這個(gè)系統(tǒng)來(lái)識(shí)別和恢復(fù)那些殘缺的字符,就像是給文物修復(fù)工作裝上了"慧眼"。
在現(xiàn)代應(yīng)用場(chǎng)景中,這個(gè)數(shù)據(jù)集也展現(xiàn)出巨大潛力。無(wú)論是掃描古代文獻(xiàn)進(jìn)行數(shù)字化存檔,還是開(kāi)發(fā)更智能的輸入法和翻譯軟件,甚至是幫助外國(guó)人學(xué)習(xí)漢字,這個(gè)涵蓋近10萬(wàn)字符的數(shù)據(jù)集都能發(fā)揮重要作用。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:合成數(shù)據(jù)的質(zhì)量對(duì)模型性能有著決定性影響。當(dāng)他們嘗試為復(fù)雜字符和相似字符生成更多合成樣本時(shí),發(fā)現(xiàn)效果提升有限。這是因?yàn)樽煮w生成模型在處理這些具有挑戰(zhàn)性的字符時(shí),往往會(huì)出現(xiàn)筆畫(huà)錯(cuò)位或細(xì)節(jié)缺失的問(wèn)題。這就像是用復(fù)印機(jī)復(fù)制一幅精細(xì)的工筆畫(huà),雖然大致輪廓相似,但細(xì)節(jié)之處總是差強(qiáng)人意。
在實(shí)際應(yīng)用驗(yàn)證中,研究團(tuán)隊(duì)展示了一個(gè)令人印象深刻的案例。他們測(cè)試了模型在處理受損古代文獻(xiàn)時(shí)的表現(xiàn),發(fā)現(xiàn)經(jīng)過(guò)MegaHan97K訓(xùn)練的模型能夠成功識(shí)別那些在傳統(tǒng)文本識(shí)別中會(huì)被遺漏的稀有字符和異體字。這對(duì)于歷史學(xué)家和文獻(xiàn)研究者來(lái)說(shuō)無(wú)疑是一個(gè)重大突破。
當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,盡管數(shù)據(jù)集已經(jīng)非常龐大,但仍有一些極其罕見(jiàn)的字符變體沒(méi)有被包含在內(nèi),這主要是因?yàn)樗鼈內(nèi)狈?biāo)準(zhǔn)化的計(jì)算機(jī)編碼。其次,手寫(xiě)數(shù)據(jù)的收集是在平板電腦上進(jìn)行的,與傳統(tǒng)紙筆書(shū)寫(xiě)之間存在一定差異,不過(guò)研究表明這種差異對(duì)模型性能的影響有限。最后,由于字符類別數(shù)量龐大,每個(gè)類別的樣本數(shù)量相對(duì)有限,特別是在測(cè)試集中,每個(gè)字符類型只有五個(gè)手寫(xiě)樣本。
展望未來(lái),研究團(tuán)隊(duì)計(jì)劃繼續(xù)擴(kuò)展數(shù)據(jù)集的規(guī)模,特別是增加每個(gè)字符類別的樣本數(shù)量。同時(shí),他們也在探索更先進(jìn)的字符生成技術(shù),希望能夠創(chuàng)造出質(zhì)量更高、更接近真實(shí)手寫(xiě)的合成字符。此外,他們還計(jì)劃將這個(gè)數(shù)據(jù)集與其他語(yǔ)言的文字識(shí)別研究相結(jié)合,探索多語(yǔ)言文字識(shí)別的可能性。
說(shuō)到底,MegaHan97K數(shù)據(jù)集的發(fā)布標(biāo)志著中文字符識(shí)別技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。這不僅僅是一個(gè)技術(shù)上的突破,更是對(duì)中華文化傳承和保護(hù)的重要貢獻(xiàn)。當(dāng)我們能夠用機(jī)器準(zhǔn)確識(shí)別和理解漢字文化中的每一個(gè)符號(hào)時(shí),我們實(shí)際上是在為后代保存和傳遞著一份珍貴的文化遺產(chǎn)。
歸根結(jié)底,這項(xiàng)研究告訴我們,技術(shù)進(jìn)步的意義不僅在于解決當(dāng)下的問(wèn)題,更在于為未來(lái)的文化傳承提供可靠的工具。當(dāng)古老的漢字遇上現(xiàn)代的人工智能,產(chǎn)生的不僅是技術(shù)上的創(chuàng)新,更是文化保護(hù)和傳承方式的革新。對(duì)于那些對(duì)漢字文化和人工智能技術(shù)感興趣的讀者,不妨深入了解這項(xiàng)研究,或許你會(huì)在其中發(fā)現(xiàn)更多令人驚喜的可能性。有興趣的讀者可以通過(guò)GitHub鏈接https://github.com/SCUT-DLVCLab/MegaHan97K訪問(wèn)完整的數(shù)據(jù)集和技術(shù)文檔。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。