想象一下,如果有一臺(tái)機(jī)器能夠識(shí)別我們?nèi)粘I钪杏龅降乃袧h字,包括那些在古籍中才能見到的生僻字,那會(huì)是什么樣的體驗(yàn)?這不再是科幻小說中的情節(jié)。華南理工大學(xué)的研究團(tuán)隊(duì)剛剛發(fā)布了一項(xiàng)令人矚目的研究成果,他們創(chuàng)建了目前世界上最大的中文字符識(shí)別數(shù)據(jù)集,名為"MegaHan97K"。這項(xiàng)由張雨怡、石永鑫、張佩蓉、趙伊鑫、楊振華和金連文教授領(lǐng)導(dǎo)的研究發(fā)表于2025年6月的《模式識(shí)別》期刊,有興趣深入了解的讀者可以通過論文提供的GitHub鏈接訪問完整數(shù)據(jù)集。
為了理解這項(xiàng)研究的重要性,我們可以把漢字識(shí)別想象成教會(huì)機(jī)器"讀書識(shí)字"的過程。就像小朋友學(xué)認(rèn)字一樣,機(jī)器也需要看到大量的字符樣本才能學(xué)會(huì)準(zhǔn)確識(shí)別。但與拼音文字不同,漢字的數(shù)量龐大且在不斷增長。最新的中國國家標(biāo)準(zhǔn)GB18030-2022包含了87,887個(gè)漢字類別,這比之前的標(biāo)準(zhǔn)增加了數(shù)萬個(gè)字符。然而,在這項(xiàng)研究之前,最大的漢字識(shí)別數(shù)據(jù)集只包含16,151個(gè)類別,就像是用小學(xué)課本來教大學(xué)生一樣,遠(yuǎn)遠(yuǎn)無法滿足實(shí)際需求。
研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像是要建造一座前所未有的"漢字博物館"。他們不僅要收集近10萬個(gè)不同的漢字,還要確保每個(gè)字都有足夠多的樣本供機(jī)器學(xué)習(xí)。更具挑戰(zhàn)性的是,許多生僻字和古字在現(xiàn)實(shí)中極其罕見,要找到它們的真實(shí)樣本就像大海撈針一樣困難。
經(jīng)過兩年多的不懈努力,研究團(tuán)隊(duì)成功構(gòu)建了包含97,455個(gè)漢字類別的超大規(guī)模數(shù)據(jù)集。這個(gè)數(shù)字意味著什么呢?簡單來說,這個(gè)數(shù)據(jù)集包含的漢字類別是之前最大數(shù)據(jù)集的六倍以上,幾乎涵蓋了現(xiàn)有中文標(biāo)準(zhǔn)中的所有字符。整個(gè)數(shù)據(jù)集包含超過460萬個(gè)字符樣本,相當(dāng)于一個(gè)擁有海量藏品的"數(shù)字漢字博物館"。
這個(gè)數(shù)據(jù)集的獨(dú)特之處在于它包含三個(gè)不同類型的子集,就像博物館的三個(gè)不同展廳。第一個(gè)是手寫字符展廳,研究團(tuán)隊(duì)邀請了94位志愿者在專門設(shè)計(jì)的網(wǎng)站上書寫漢字,總共收集了約90萬個(gè)手寫樣本。第二個(gè)是歷史文獻(xiàn)展廳,他們從M5HisDoc數(shù)據(jù)集和康熙字典網(wǎng)站收集了約40萬個(gè)歷史文檔中的字符圖像。第三個(gè)是合成字符展廳,利用先進(jìn)的字體生成模型FontDiffuser創(chuàng)造了超過330萬個(gè)不同風(fēng)格的合成字符。
為了讓這些數(shù)據(jù)更接近真實(shí)應(yīng)用場景,研究團(tuán)隊(duì)還進(jìn)行了精心的后處理。他們給手寫字符添加了古代文獻(xiàn)的背景,調(diào)整了筆畫粗細(xì),甚至故意加入了一些模糊和色彩變化,就像給嶄新的道具做舊處理,讓它們看起來更像從古代文獻(xiàn)中摳出來的真實(shí)字符。
在驗(yàn)證這個(gè)數(shù)據(jù)集的有效性時(shí),研究團(tuán)隊(duì)就像是組織了一場"機(jī)器識(shí)字大賽"。他們測試了多種不同的識(shí)別方法,包括傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)、基于字符結(jié)構(gòu)分解的方法,以及最新的多模態(tài)學(xué)習(xí)方法。結(jié)果顯示,所有方法在使用合成數(shù)據(jù)訓(xùn)練后都獲得了顯著的性能提升,平均準(zhǔn)確率提高了22.43%。這就像是給參賽選手提供了更好的訓(xùn)練材料,他們的表現(xiàn)自然大幅改善。
然而,超大規(guī)模的字符類別也帶來了前所未有的挑戰(zhàn)。首先是存儲(chǔ)需求的急劇增加,就像要建造一個(gè)更大的博物館需要更多的展示空間一樣。大多數(shù)識(shí)別模型的存儲(chǔ)需求增加了60%以上,這對于在手機(jī)或平板電腦等設(shè)備上部署這些模型提出了新的要求。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)"相似字符混淆"的現(xiàn)象。在錯(cuò)誤識(shí)別的樣本中,有38.34%的情況是機(jī)器將某個(gè)字符誤認(rèn)為結(jié)構(gòu)相似的其他字符。這就像是人們經(jīng)常會(huì)把"已"和"己"搞混一樣,機(jī)器在面對形狀相似的字符時(shí)也會(huì)犯類似的錯(cuò)誤。另外,筆畫復(fù)雜的字符(超過10個(gè)筆畫)占錯(cuò)誤樣本的74.18%,說明復(fù)雜字符的識(shí)別仍然是一個(gè)技術(shù)難題。
在零樣本學(xué)習(xí)實(shí)驗(yàn)中,研究團(tuán)隊(duì)測試了機(jī)器在完全沒有見過某些字符的情況下能否正確識(shí)別它們。這就像是測試一個(gè)人能否通過字典中的偏旁部首組合規(guī)律來猜測生詞的讀音。結(jié)果顯示,基于CLIP模型的方法表現(xiàn)最佳,達(dá)到了79.04%的準(zhǔn)確率,這意味著機(jī)器已經(jīng)能夠在一定程度上"舉一反三"了。
為了證明這個(gè)數(shù)據(jù)集的實(shí)用價(jià)值,研究團(tuán)隊(duì)還進(jìn)行了交叉驗(yàn)證實(shí)驗(yàn)。他們將MegaHan97K與其他現(xiàn)有數(shù)據(jù)集結(jié)合訓(xùn)練,發(fā)現(xiàn)模型在識(shí)別稀有字符方面的能力顯著提升。這就像是一個(gè)學(xué)生通過大量閱讀不同類型的書籍,不僅能認(rèn)識(shí)更多生僻字,還能更好地理解常見字在不同語境中的用法。
這項(xiàng)研究的影響遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)界的范圍。在數(shù)字化古籍保護(hù)方面,這個(gè)數(shù)據(jù)集為文物修復(fù)工作者提供了強(qiáng)大的工具。想象一下,當(dāng)面對一本因年代久遠(yuǎn)而部分字跡模糊的古代典籍時(shí),研究人員可以利用這個(gè)系統(tǒng)來識(shí)別和恢復(fù)那些殘缺的字符,就像是給文物修復(fù)工作裝上了"慧眼"。
在現(xiàn)代應(yīng)用場景中,這個(gè)數(shù)據(jù)集也展現(xiàn)出巨大潛力。無論是掃描古代文獻(xiàn)進(jìn)行數(shù)字化存檔,還是開發(fā)更智能的輸入法和翻譯軟件,甚至是幫助外國人學(xué)習(xí)漢字,這個(gè)涵蓋近10萬字符的數(shù)據(jù)集都能發(fā)揮重要作用。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:合成數(shù)據(jù)的質(zhì)量對模型性能有著決定性影響。當(dāng)他們嘗試為復(fù)雜字符和相似字符生成更多合成樣本時(shí),發(fā)現(xiàn)效果提升有限。這是因?yàn)樽煮w生成模型在處理這些具有挑戰(zhàn)性的字符時(shí),往往會(huì)出現(xiàn)筆畫錯(cuò)位或細(xì)節(jié)缺失的問題。這就像是用復(fù)印機(jī)復(fù)制一幅精細(xì)的工筆畫,雖然大致輪廓相似,但細(xì)節(jié)之處總是差強(qiáng)人意。
在實(shí)際應(yīng)用驗(yàn)證中,研究團(tuán)隊(duì)展示了一個(gè)令人印象深刻的案例。他們測試了模型在處理受損古代文獻(xiàn)時(shí)的表現(xiàn),發(fā)現(xiàn)經(jīng)過MegaHan97K訓(xùn)練的模型能夠成功識(shí)別那些在傳統(tǒng)文本識(shí)別中會(huì)被遺漏的稀有字符和異體字。這對于歷史學(xué)家和文獻(xiàn)研究者來說無疑是一個(gè)重大突破。
當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,盡管數(shù)據(jù)集已經(jīng)非常龐大,但仍有一些極其罕見的字符變體沒有被包含在內(nèi),這主要是因?yàn)樗鼈內(nèi)狈?biāo)準(zhǔn)化的計(jì)算機(jī)編碼。其次,手寫數(shù)據(jù)的收集是在平板電腦上進(jìn)行的,與傳統(tǒng)紙筆書寫之間存在一定差異,不過研究表明這種差異對模型性能的影響有限。最后,由于字符類別數(shù)量龐大,每個(gè)類別的樣本數(shù)量相對有限,特別是在測試集中,每個(gè)字符類型只有五個(gè)手寫樣本。
展望未來,研究團(tuán)隊(duì)計(jì)劃繼續(xù)擴(kuò)展數(shù)據(jù)集的規(guī)模,特別是增加每個(gè)字符類別的樣本數(shù)量。同時(shí),他們也在探索更先進(jìn)的字符生成技術(shù),希望能夠創(chuàng)造出質(zhì)量更高、更接近真實(shí)手寫的合成字符。此外,他們還計(jì)劃將這個(gè)數(shù)據(jù)集與其他語言的文字識(shí)別研究相結(jié)合,探索多語言文字識(shí)別的可能性。
說到底,MegaHan97K數(shù)據(jù)集的發(fā)布標(biāo)志著中文字符識(shí)別技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。這不僅僅是一個(gè)技術(shù)上的突破,更是對中華文化傳承和保護(hù)的重要貢獻(xiàn)。當(dāng)我們能夠用機(jī)器準(zhǔn)確識(shí)別和理解漢字文化中的每一個(gè)符號時(shí),我們實(shí)際上是在為后代保存和傳遞著一份珍貴的文化遺產(chǎn)。
歸根結(jié)底,這項(xiàng)研究告訴我們,技術(shù)進(jìn)步的意義不僅在于解決當(dāng)下的問題,更在于為未來的文化傳承提供可靠的工具。當(dāng)古老的漢字遇上現(xiàn)代的人工智能,產(chǎn)生的不僅是技術(shù)上的創(chuàng)新,更是文化保護(hù)和傳承方式的革新。對于那些對漢字文化和人工智能技術(shù)感興趣的讀者,不妨深入了解這項(xiàng)研究,或許你會(huì)在其中發(fā)現(xiàn)更多令人驚喜的可能性。有興趣的讀者可以通過GitHub鏈接https://github.com/SCUT-DLVCLab/MegaHan97K訪問完整的數(shù)據(jù)集和技術(shù)文檔。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。