av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<var id="rpwdw"><thead id="rpwdw"><pre id="rpwdw"></pre></thead></var>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

華南理工大學(xué)研究團(tuán)隊(duì)打造史上最大中文字符識(shí)別數(shù)據(jù)集，9萬多個(gè)漢字讓機(jī)器"慧眼識(shí)字"

中文字符識(shí)別深度學(xué)習(xí)大規(guī)模數(shù)據(jù)集

華南理工大學(xué)研究團(tuán)隊(duì)打造史上最大中文字符識(shí)別數(shù)據(jù)集，9萬多個(gè)漢字讓機(jī)器"慧眼識(shí)字"

作者：科技行者

2025-06-12 09:54

分享至：

華南理工大學(xué)研究團(tuán)隊(duì)構(gòu)建了迄今最大的中文字符識(shí)別數(shù)據(jù)集MegaHan97K，包含97,455個(gè)漢字類別和超過460萬個(gè)樣本，是此前最大數(shù)據(jù)集的六倍。該數(shù)據(jù)集首次完全支持最新的GB18030-2022中文標(biāo)準(zhǔn)，通過手寫、歷史文獻(xiàn)和合成三個(gè)子集有效解決了長尾分布問題。實(shí)驗(yàn)表明，使用該數(shù)據(jù)集訓(xùn)練的模型性能顯著提升，為古籍?dāng)?shù)字化保護(hù)和現(xiàn)代中文處理應(yīng)用提供了強(qiáng)大技術(shù)支撐。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-12 09:54 ? 科技行者

想象一下，如果有一臺(tái)機(jī)器能夠識(shí)別我們?nèi)粘Ｉ钪杏龅降乃袧h字，包括那些在古籍中才能見到的生僻字，那會(huì)是什么樣的體驗(yàn)？這不再是科幻小說中的情節(jié)。華南理工大學(xué)的研究團(tuán)隊(duì)剛剛發(fā)布了一項(xiàng)令人矚目的研究成果，他們創(chuàng)建了目前世界上最大的中文字符識(shí)別數(shù)據(jù)集，名為"MegaHan97K"。這項(xiàng)由張雨怡、石永鑫、張佩蓉、趙伊鑫、楊振華和金連文教授領(lǐng)導(dǎo)的研究發(fā)表于2025年6月的《模式識(shí)別》期刊，有興趣深入了解的讀者可以通過論文提供的GitHub鏈接訪問完整數(shù)據(jù)集。

為了理解這項(xiàng)研究的重要性，我們可以把漢字識(shí)別想象成教會(huì)機(jī)器"讀書識(shí)字"的過程。就像小朋友學(xué)認(rèn)字一樣，機(jī)器也需要看到大量的字符樣本才能學(xué)會(huì)準(zhǔn)確識(shí)別。但與拼音文字不同，漢字的數(shù)量龐大且在不斷增長。最新的中國國家標(biāo)準(zhǔn)GB18030-2022包含了87,887個(gè)漢字類別，這比之前的標(biāo)準(zhǔn)增加了數(shù)萬個(gè)字符。然而，在這項(xiàng)研究之前，最大的漢字識(shí)別數(shù)據(jù)集只包含16,151個(gè)類別，就像是用小學(xué)課本來教大學(xué)生一樣，遠(yuǎn)遠(yuǎn)無法滿足實(shí)際需求。

研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像是要建造一座前所未有的"漢字博物館"。他們不僅要收集近10萬個(gè)不同的漢字，還要確保每個(gè)字都有足夠多的樣本供機(jī)器學(xué)習(xí)。更具挑戰(zhàn)性的是，許多生僻字和古字在現(xiàn)實(shí)中極其罕見，要找到它們的真實(shí)樣本就像大海撈針一樣困難。

經(jīng)過兩年多的不懈努力，研究團(tuán)隊(duì)成功構(gòu)建了包含97,455個(gè)漢字類別的超大規(guī)模數(shù)據(jù)集。這個(gè)數(shù)字意味著什么呢？簡單來說，這個(gè)數(shù)據(jù)集包含的漢字類別是之前最大數(shù)據(jù)集的六倍以上，幾乎涵蓋了現(xiàn)有中文標(biāo)準(zhǔn)中的所有字符。整個(gè)數(shù)據(jù)集包含超過460萬個(gè)字符樣本，相當(dāng)于一個(gè)擁有海量藏品的"數(shù)字漢字博物館"。

這個(gè)數(shù)據(jù)集的獨(dú)特之處在于它包含三個(gè)不同類型的子集，就像博物館的三個(gè)不同展廳。第一個(gè)是手寫字符展廳，研究團(tuán)隊(duì)邀請了94位志愿者在專門設(shè)計(jì)的網(wǎng)站上書寫漢字，總共收集了約90萬個(gè)手寫樣本。第二個(gè)是歷史文獻(xiàn)展廳，他們從M5HisDoc數(shù)據(jù)集和康熙字典網(wǎng)站收集了約40萬個(gè)歷史文檔中的字符圖像。第三個(gè)是合成字符展廳，利用先進(jìn)的字體生成模型FontDiffuser創(chuàng)造了超過330萬個(gè)不同風(fēng)格的合成字符。

為了讓這些數(shù)據(jù)更接近真實(shí)應(yīng)用場景，研究團(tuán)隊(duì)還進(jìn)行了精心的后處理。他們給手寫字符添加了古代文獻(xiàn)的背景，調(diào)整了筆畫粗細(xì)，甚至故意加入了一些模糊和色彩變化，就像給嶄新的道具做舊處理，讓它們看起來更像從古代文獻(xiàn)中摳出來的真實(shí)字符。

在驗(yàn)證這個(gè)數(shù)據(jù)集的有效性時(shí)，研究團(tuán)隊(duì)就像是組織了一場"機(jī)器識(shí)字大賽"。他們測試了多種不同的識(shí)別方法，包括傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)、基于字符結(jié)構(gòu)分解的方法，以及最新的多模態(tài)學(xué)習(xí)方法。結(jié)果顯示，所有方法在使用合成數(shù)據(jù)訓(xùn)練后都獲得了顯著的性能提升，平均準(zhǔn)確率提高了22.43%。這就像是給參賽選手提供了更好的訓(xùn)練材料，他們的表現(xiàn)自然大幅改善。

然而，超大規(guī)模的字符類別也帶來了前所未有的挑戰(zhàn)。首先是存儲(chǔ)需求的急劇增加，就像要建造一個(gè)更大的博物館需要更多的展示空間一樣。大多數(shù)識(shí)別模型的存儲(chǔ)需求增加了60%以上，這對于在手機(jī)或平板電腦等設(shè)備上部署這些模型提出了新的要求。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)"相似字符混淆"的現(xiàn)象。在錯(cuò)誤識(shí)別的樣本中，有38.34%的情況是機(jī)器將某個(gè)字符誤認(rèn)為結(jié)構(gòu)相似的其他字符。這就像是人們經(jīng)常會(huì)把"已"和"己"搞混一樣，機(jī)器在面對形狀相似的字符時(shí)也會(huì)犯類似的錯(cuò)誤。另外，筆畫復(fù)雜的字符（超過10個(gè)筆畫）占錯(cuò)誤樣本的74.18%，說明復(fù)雜字符的識(shí)別仍然是一個(gè)技術(shù)難題。

在零樣本學(xué)習(xí)實(shí)驗(yàn)中，研究團(tuán)隊(duì)測試了機(jī)器在完全沒有見過某些字符的情況下能否正確識(shí)別它們。這就像是測試一個(gè)人能否通過字典中的偏旁部首組合規(guī)律來猜測生詞的讀音。結(jié)果顯示，基于CLIP模型的方法表現(xiàn)最佳，達(dá)到了79.04%的準(zhǔn)確率，這意味著機(jī)器已經(jīng)能夠在一定程度上"舉一反三"了。

為了證明這個(gè)數(shù)據(jù)集的實(shí)用價(jià)值，研究團(tuán)隊(duì)還進(jìn)行了交叉驗(yàn)證實(shí)驗(yàn)。他們將MegaHan97K與其他現(xiàn)有數(shù)據(jù)集結(jié)合訓(xùn)練，發(fā)現(xiàn)模型在識(shí)別稀有字符方面的能力顯著提升。這就像是一個(gè)學(xué)生通過大量閱讀不同類型的書籍，不僅能認(rèn)識(shí)更多生僻字，還能更好地理解常見字在不同語境中的用法。

這項(xiàng)研究的影響遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)界的范圍。在數(shù)字化古籍保護(hù)方面，這個(gè)數(shù)據(jù)集為文物修復(fù)工作者提供了強(qiáng)大的工具。想象一下，當(dāng)面對一本因年代久遠(yuǎn)而部分字跡模糊的古代典籍時(shí)，研究人員可以利用這個(gè)系統(tǒng)來識(shí)別和恢復(fù)那些殘缺的字符，就像是給文物修復(fù)工作裝上了"慧眼"。

在現(xiàn)代應(yīng)用場景中，這個(gè)數(shù)據(jù)集也展現(xiàn)出巨大潛力。無論是掃描古代文獻(xiàn)進(jìn)行數(shù)字化存檔，還是開發(fā)更智能的輸入法和翻譯軟件，甚至是幫助外國人學(xué)習(xí)漢字，這個(gè)涵蓋近10萬字符的數(shù)據(jù)集都能發(fā)揮重要作用。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：合成數(shù)據(jù)的質(zhì)量對模型性能有著決定性影響。當(dāng)他們嘗試為復(fù)雜字符和相似字符生成更多合成樣本時(shí)，發(fā)現(xiàn)效果提升有限。這是因?yàn)樽煮w生成模型在處理這些具有挑戰(zhàn)性的字符時(shí)，往往會(huì)出現(xiàn)筆畫錯(cuò)位或細(xì)節(jié)缺失的問題。這就像是用復(fù)印機(jī)復(fù)制一幅精細(xì)的工筆畫，雖然大致輪廓相似，但細(xì)節(jié)之處總是差強(qiáng)人意。

在實(shí)際應(yīng)用驗(yàn)證中，研究團(tuán)隊(duì)展示了一個(gè)令人印象深刻的案例。他們測試了模型在處理受損古代文獻(xiàn)時(shí)的表現(xiàn)，發(fā)現(xiàn)經(jīng)過MegaHan97K訓(xùn)練的模型能夠成功識(shí)別那些在傳統(tǒng)文本識(shí)別中會(huì)被遺漏的稀有字符和異體字。這對于歷史學(xué)家和文獻(xiàn)研究者來說無疑是一個(gè)重大突破。

當(dāng)然，這項(xiàng)研究也存在一些局限性。首先，盡管數(shù)據(jù)集已經(jīng)非常龐大，但仍有一些極其罕見的字符變體沒有被包含在內(nèi)，這主要是因?yàn)樗鼈內(nèi)狈?biāo)準(zhǔn)化的計(jì)算機(jī)編碼。其次，手寫數(shù)據(jù)的收集是在平板電腦上進(jìn)行的，與傳統(tǒng)紙筆書寫之間存在一定差異，不過研究表明這種差異對模型性能的影響有限。最后，由于字符類別數(shù)量龐大，每個(gè)類別的樣本數(shù)量相對有限，特別是在測試集中，每個(gè)字符類型只有五個(gè)手寫樣本。

展望未來，研究團(tuán)隊(duì)計(jì)劃繼續(xù)擴(kuò)展數(shù)據(jù)集的規(guī)模，特別是增加每個(gè)字符類別的樣本數(shù)量。同時(shí)，他們也在探索更先進(jìn)的字符生成技術(shù)，希望能夠創(chuàng)造出質(zhì)量更高、更接近真實(shí)手寫的合成字符。此外，他們還計(jì)劃將這個(gè)數(shù)據(jù)集與其他語言的文字識(shí)別研究相結(jié)合，探索多語言文字識(shí)別的可能性。

說到底，MegaHan97K數(shù)據(jù)集的發(fā)布標(biāo)志著中文字符識(shí)別技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。這不僅僅是一個(gè)技術(shù)上的突破，更是對中華文化傳承和保護(hù)的重要貢獻(xiàn)。當(dāng)我們能夠用機(jī)器準(zhǔn)確識(shí)別和理解漢字文化中的每一個(gè)符號時(shí)，我們實(shí)際上是在為后代保存和傳遞著一份珍貴的文化遺產(chǎn)。

歸根結(jié)底，這項(xiàng)研究告訴我們，技術(shù)進(jìn)步的意義不僅在于解決當(dāng)下的問題，更在于為未來的文化傳承提供可靠的工具。當(dāng)古老的漢字遇上現(xiàn)代的人工智能，產(chǎn)生的不僅是技術(shù)上的創(chuàng)新，更是文化保護(hù)和傳承方式的革新。對于那些對漢字文化和人工智能技術(shù)感興趣的讀者，不妨深入了解這項(xiàng)研究，或許你會(huì)在其中發(fā)現(xiàn)更多令人驚喜的可能性。有興趣的讀者可以通過GitHub鏈接https://github.com/SCUT-DLVCLab/MegaHan97K訪問完整的數(shù)據(jù)集和技術(shù)文檔。

中文字符識(shí)別深度學(xué)習(xí)大規(guī)模數(shù)據(jù)集

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn