- 配置指南,Rez無限配置要求是什么
- 下載指南,如何下載和安裝節(jié)奏探索
- 獲取熱門寵物的簡單指南,魔獸世界布瑞爾小雞怎么獲得
- 即時戰(zhàn)略游戲內(nèi)部互動指南,鐵銹戰(zhàn)爭隊內(nèi)聊天方法
- **優(yōu)化游戲體驗的小貼士**,拳皇14黑屏解決方法及原因
- 即時戰(zhàn)略游戲揭秘,紅警2磁暴線圈有什么用-磁暴線圈作用
- 攻略指南,魔獸世界風(fēng)暴在即完成不了怎么辦
- 探索游戲秘籍,英雄傳說閃之軌跡PC版怎么進(jìn)入調(diào)試地圖
- 輕松下載指南,《戀愛成雙》游戲下載地址
- 策略揭秘,紅警2防空炮有什么用-防空炮作用
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
在加州大學(xué)圣地亞哥分校計算機(jī)科學(xué)與工程系博士生候選人陳丹露的分享中,復(fù)旦大學(xué)的必修課程《15世紀(jì)以前的世界》迎來了第29次拓展講座。本次講座以"人工智能與歷史研究的碰撞——AI如何解讀古代文獻(xiàn)"為主題,深入探討了人工智能在歷史學(xué)科中的應(yīng)用。陳丹露目前就讀于復(fù)旦大學(xué),研究方向包括自然語言處理、機(jī)器學(xué)習(xí)和數(shù)字人文。
當(dāng)前,數(shù)字人文的實踐主要包括建立電子數(shù)據(jù)庫、分析文本、繪制歷史地圖以及進(jìn)行網(wǎng)絡(luò)分析等。然而,這些應(yīng)用通常將計算機(jī)技術(shù)視為輔助工具,尚未實現(xiàn)與人工智能等前沿技術(shù)的深度融合。
為了幫助聽眾更好地理解講座內(nèi)容,陳丹露通過生動的例子進(jìn)行了說明。例如,她以《紅樓夢》的文本分析為例,將120回文本拆分為120個樣本輸入,采用k聚類分析方法進(jìn)行處理,最終得到了點狀聚類結(jié)果。結(jié)果顯示,前80回與后40回(除第67回外)在特征空間中存在顯著差異,從而支持了"前80回與后40回作者不同"的結(jié)論。
處理歷史文獻(xiàn)的第一步通常是將紙質(zhì)文字轉(zhuǎn)化為電子化文本,這一過程稱為光學(xué)字符識別(OCR)。雖然OCR技術(shù)在將紙質(zhì)文獻(xiàn)轉(zhuǎn)化為電子文本方面發(fā)揮了重要作用,但在處理歷史文獻(xiàn)時仍面臨諸多挑戰(zhàn)。由于歷史文獻(xiàn)的字體、排版和紙張質(zhì)量差異,OCR的識別準(zhǔn)確率可能較低,通常需要人工校正。例如,在對古代文獻(xiàn)進(jìn)行OCR識別時,最理想的情況下,也約有5%的字符無法正確識別。為了提高準(zhǔn)確率,研究人員需要先提取文本,再對每個字符進(jìn)行分類,識別出字符的多種可能性,并進(jìn)行人工校對。
陳丹露主持的EEBO-verse項目嘗試突破傳統(tǒng)OCR方法的限制。該項目從早期現(xiàn)代西方文獻(xiàn)中篩選具有韻律的詞句和詩歌,通過將圖片直接作為機(jī)器學(xué)習(xí)模型的輸入,篩選出可能包含詩歌的頁面,然后結(jié)合人工校對和文字識別軟件進(jìn)行精校。這種方法利用了圖片的特殊版式特征,無需關(guān)注文本內(nèi)容,極大地提升了工作效率,為計算機(jī)與歷史文獻(xiàn)研究的結(jié)合提供了新思路。
然而,上述例子主要停留在利用機(jī)器建立數(shù)據(jù)庫和統(tǒng)計文本層面,尚未突破"搜索與索引"的界限。機(jī)器學(xué)習(xí)模型通常需要大量的樣本進(jìn)行訓(xùn)練,但在歷史研究領(lǐng)域,尤其是古代文獻(xiàn)領(lǐng)域,樣本數(shù)量往往有限,難以滿足機(jī)器學(xué)習(xí)的條件。同時,古代文字作為視覺信息存在,無法直接編碼為機(jī)器學(xué)習(xí)模型處理的數(shù)據(jù)。因此,如何將古代文本轉(zhuǎn)化為可處理的形式成為一大挑戰(zhàn)。
歷史研究材料樣本不足和分布不均也構(gòu)成難題。例如,當(dāng)使用機(jī)器學(xué)習(xí)模型對楔形文字泥板進(jìn)行斷代時,如果數(shù)據(jù)集來源于單一博物館(如大英博物館或耶魯博物館),模型的表現(xiàn)可能較為理想。但如果將模型應(yīng)用于其他博物館(如開羅博物館)的泥板時,錯誤率可能會高達(dá)80%。這是因為不同博物館的拍照環(huán)境、光線、色調(diào)和參數(shù)差異巨大,導(dǎo)致數(shù)據(jù)分布不一致。相比之下,識別貓狗等常見場景更容易成功,因為這些數(shù)據(jù)集規(guī)模足夠大,能夠覆蓋各種場景和變化。然而,網(wǎng)絡(luò)上關(guān)于楔形文字泥板的資源有限且分散,難以形成大規(guī)模、統(tǒng)一標(biāo)注的數(shù)據(jù)集,這使得機(jī)器學(xué)習(xí)模型的訓(xùn)練和應(yīng)用面臨巨大挑戰(zhàn)。
總結(jié)而言,人工智能在應(yīng)用于歷史研究時面臨三大核心問題:首先,歷史研究中的許多問題難以轉(zhuǎn)化為機(jī)器學(xué)習(xí)能夠理解的形式;其次,古代文字本身難以被機(jī)器學(xué)習(xí)模型直接識別,需要復(fù)雜的預(yù)處理和標(biāo)注;最后,古代文獻(xiàn)的數(shù)據(jù)資源稀缺,且訓(xùn)練集和測試集之間存在顯著的數(shù)據(jù)分布偏移。這些問題導(dǎo)致目前的研究大多停留在將紙質(zhì)文獻(xiàn)數(shù)字化為電子數(shù)據(jù)庫的階段,難以深入到更復(fù)雜的歷史問題的分析和解決中。
接下來,陳丹露通過多個案例展示了人工智能在古代文獻(xiàn)研究中的深入應(yīng)用。
重建古希臘銘文:DeepMind Ithaca
DeepMind開發(fā)的人工智能模型Ithaca旨在通過訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)來修復(fù)古代銘文的缺失部分,并推斷其地理來源和年代。該模型模擬破損銘文的狀態(tài),通過隨機(jī)移除未損壞字符(如20%)來模擬實際損壞情況,并將這些字符作為模型的輸出進(jìn)行訓(xùn)練。這種方法的優(yōu)勢在于避免了專業(yè)人員補全可能引入的主觀錯誤,確保模型能夠基于更可靠的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)。實驗結(jié)果顯示,Ithaca單獨使用時的預(yù)測精度顯著高于接受過希臘文專業(yè)訓(xùn)練的研究生。
人工智能技術(shù)在古希臘銘文修復(fù)中的應(yīng)用
該研究論文題為《利用深度神經(jīng)網(wǎng)絡(luò)恢復(fù)與鑒定古代文本》,發(fā)表在《自然》雜志上。
甲骨文修復(fù):OBI-Bench項目
由于現(xiàn)有甲骨文修復(fù)技術(shù)尚無成熟的數(shù)字化表達(dá)方式,將其轉(zhuǎn)化為機(jī)器可處理的形式面臨諸多挑戰(zhàn)。OBI-Bench項目通過將甲骨文修復(fù)問題轉(zhuǎn)化為字符相似度檢索問題,旨在完成甲骨文的識別、修復(fù)、分類、檢索和破譯等五大任務(wù)。具體而言,該方法將甲骨文的圖像作為輸入,通過模型檢索與目標(biāo)字符相似的其他字符,從而輔助修復(fù)工作。這種方法的優(yōu)勢在于無需對甲骨文進(jìn)行復(fù)雜的數(shù)字化編碼,直接利用圖像進(jìn)行處理,顯著降低了技術(shù)門檻,同時也為甲骨文研究提供了新的技術(shù)路徑。
圖片來自"甲骨文AI協(xié)作平臺"
龐貝古城庫赫蘭尼姆遺址非侵入式閱讀:Vesuvius Challenge
龐貝古城附近庫赫蘭尼姆遺址的考古發(fā)掘揭示了一座古代圖書館,藏有因火山噴發(fā)而碳化的珍貴古籍。這些古籍的修復(fù)難度極大,傳統(tǒng)開本方法可能造成不可逆的損壞。Vesuvius Challenge項目采用非侵入式方法,通過三維掃描技術(shù)獲取古籍的成像數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)技術(shù)實現(xiàn)文字識別。主要步驟包括:采用CT技術(shù)進(jìn)行成像,將每一頁虛擬展平,進(jìn)行墨跡檢測和識別,最后由專家對機(jī)器識別結(jié)果進(jìn)行驗證。盡管該方法處理的數(shù)據(jù)量龐大(例如單卷軸掃描后數(shù)據(jù)量可達(dá)3.41TB,其中99%為噪聲數(shù)據(jù)),但研究團(tuán)隊通過人工識別墨跡并不斷優(yōu)化模型,最終在2023年成功識別出一部失傳的哲學(xué)著作。然而,該模型的泛化能力有限,無法直接將單卷軸的識別效果應(yīng)用于其他卷軸。
左圖展示了Vesuvius Challenge獲勝者利用機(jī)器學(xué)習(xí)技術(shù)解讀的古籍,右圖對比了傳統(tǒng)開本方式的古籍狀態(tài)。
在碳化古卷上發(fā)現(xiàn)的字母ΠΟΡΦΥΡΑΣ即為古文的紫色(Porphyras)。
莎士比亞第四對開本的印刷者識別:Print and Probability
莎士比亞的第四對開本存在許多錯漏,因此研究者對尋找其印刷者表現(xiàn)出極大興趣,但當(dāng)時出版商通常采用匿名出版的習(xí)慣,這使得識別其印刷者的工作變得困難。通過機(jī)器學(xué)習(xí)技術(shù),研究人員可以利用活字印刷的特性來解決這一問題。具體而言,同一出版社印刷的字符在形狀(帶有破損)上應(yīng)該是相同的,因此可以通過尋找具有相似破損形狀的字符來確定兩本書是否由同一出版社印刷。來自加州大學(xué)圣地亞哥分校(UC San Diego)和卡內(nèi)基梅隆大學(xué)的跨學(xué)科合作團(tuán)隊將這一問題拆解成幾個機(jī)器學(xué)習(xí)模型能處理的子任務(wù),用AI首次回答了這一歷史懸案。首先,Ocular無監(jiān)督字符識別系統(tǒng)能夠提取一頁英文打印書籍中的所有字符并進(jìn)行分類,篩選出具有破損的字符,并通過訓(xùn)練小的神經(jīng)網(wǎng)絡(luò)來判斷字符是否有破損。隨后,通過標(biāo)注100-200個肉眼判斷為相似的字符樣本,訓(xùn)練一個網(wǎng)絡(luò)來識別這些字符的相似性。最終,通過匹配已知出版者的作品中的字符,可以確定未署名版本的印刷者。
通過這些案例,陳丹露向我們展示了人工智能在古代文獻(xiàn)研究中的多樣化應(yīng)用,從古希臘銘文的補全到甲骨文的綴合,從赫庫蘭尼姆卷軸的非侵入式破譯到莎士比亞對開本的印刷者識別,這些研究為歷史研究提供了新的視角和方法。
在講座的互動環(huán)節(jié)中,場上的聽眾提出了多個問題,陳丹露也結(jié)合實際研究經(jīng)驗進(jìn)行了詳細(xì)解答。
提問:
從大量古代文獻(xiàn)中篩選韻文的工作,是否更接近圖像識別任務(wù)而非語言分析任務(wù)?是否需要人工預(yù)先標(biāo)注數(shù)據(jù)?是否有比較有效的模型?
回答:
確實如此,篩選韻文的工作更接近圖像識別任務(wù)。圖像本質(zhì)上是矩陣,而文字需要轉(zhuǎn)化為機(jī)器能夠理解的連續(xù)形式,這增加了處理的復(fù)雜性。例如,在一百萬本書中,大約只有20%的文本經(jīng)過了人工標(biāo)注。在這種情況下,通常會將其中5%的數(shù)據(jù)用作測試集,95%用作訓(xùn)練集。從實際效果來看,基于圖像的方法往往比傳統(tǒng)的文字識別或特征提取方法表現(xiàn)更好。
建筑師手稿的OCR手寫體識別非常困難,目前的思路是人工標(biāo)注后再進(jìn)行機(jī)器識別,這是否正確?對于小樣本學(xué)習(xí)領(lǐng)域,您怎么看?在處理手稿時,除了中文和英文,還有繪制的相關(guān)圖紙,這種情況下是否更應(yīng)該采用圖像處理的思路?
對于手寫體識別和小樣本學(xué)習(xí),人工標(biāo)注是非常關(guān)鍵的一步。實際上,只需要標(biāo)注一小部分?jǐn)?shù)據(jù),例如5%,就足以讓模型識別出95%的內(nèi)容。小樣本學(xué)習(xí)在近年來得到了廣泛應(yīng)用,尤其在歷史文獻(xiàn)研究中,這種方法貫穿了項目的整個流程。對于包含多種語言和圖紙的手稿,圖像處理的方法(或者說多模態(tài)的特征輸入)確實更為適用。通過將手稿中的文字和圖紙視為圖像,可以利用圖像處理技術(shù)進(jìn)行特征提取和分析,從而更好地處理這些復(fù)雜的內(nèi)容。
在處理大量文本并截取韻文時,如果中文世界中并沒有整頁或半頁的版式體現(xiàn),是否還能采用類似的方法?在《紅樓夢》這一例子中,使用的聚類分析方法是否可以手工微調(diào)這些庫的參數(shù)以獲得更好的結(jié)果?
當(dāng)中文文獻(xiàn)中沒有明顯的整頁或半頁版式時,直接應(yīng)用類似的方法確實會面臨困難。不過,韻文的例子是為了說明,除了文字內(nèi)容本身,還可以關(guān)注版式等非文字的特征。而關(guān)于《紅樓夢》的例子,在實際操作中,原文可能進(jìn)行了字級別的篩選。雖然聚類分析主要依賴于第三方庫,但每一步的分析過程都是可以觀察和調(diào)整的。例如,可以選擇不同的參數(shù)來優(yōu)化聚類結(jié)果,使其更符合研究需求,比如情感色彩等特征。當(dāng)然,需要注意的是,選擇參數(shù)時應(yīng)盡量避免僅選擇那些能夠明確得出預(yù)期結(jié)果的參數(shù),否則可能會導(dǎo)致結(jié)果的偏差,從而陷入循環(huán)論證的謬誤。
關(guān)于銘文補充的例子,是否因為模型是在一個集中的數(shù)據(jù)集里訓(xùn)練,所以結(jié)果會比較準(zhǔn)確?是否存在循環(huán)驗證的情況?人類的詞語組合能力是否比機(jī)器更強(qiáng),從而導(dǎo)致機(jī)器的錯誤率更高?現(xiàn)在所有模型都是基于大數(shù)據(jù)量訓(xùn)練的,但對于中世紀(jì)手稿這類數(shù)據(jù)量不足且風(fēng)格迥異的情況,該如何解決?
我認(rèn)為,人類在銘文補充任務(wù)中的錯誤率59.6%可能有些偏高,因為這個數(shù)字是讓兩個做古典學(xué)的學(xué)生測出來的。但個人認(rèn)為這并非完全是因為人類的詞語組合能力更強(qiáng)而導(dǎo)致人類可以補全得更多。大多數(shù)情況下,錯誤率較高是因為銘文缺損過多,導(dǎo)致無法準(zhǔn)確補充。其次,機(jī)器給出的并非單一結(jié)果,而是多種可能性的概率分布,這為歷史學(xué)家提供了更多參考。最后,人和AI模型不應(yīng)該是一種競爭關(guān)系,而是人與機(jī)器可以相互補充:機(jī)器可以進(jìn)行初步篩選,尤其是在那些懂的人不多的語言中,由人類專家進(jìn)行最終確認(rèn)可能會更有效。對于小樣本問題,例如中世紀(jì)手稿,可以采用一些現(xiàn)有工具或方法。例如,像Ocular是一個專門用于處理小樣本和字符集較少的語言的工具。此外,也可以通過人工添加一些限制條件來優(yōu)化模型的訓(xùn)練過程。
甲骨文和其他古文字的字?jǐn)?shù)有限且相對規(guī)范,但竹簡文字的部件可以隨意拼貼組合,存在無數(shù)種可能性。在這種情況下,我們該如何識別?
可以嘗試讓模型生成關(guān)于這些部件的解讀,將分類問題轉(zhuǎn)化為描述性問題。這種方法可能有助于解決竹簡文字的識別問題。有些文字的分類并非固定組合,目前只有中文的簡帛存在類似問題,楔形文字其實也比較類似,但還是沒有竹簡字復(fù)雜。這是一個非常有趣且具有挑戰(zhàn)性的問題,值得進(jìn)一步研究。
我試用了Ithaca,特意挑選了一些包含地名和時間信息的銘文讓它判斷,但模型在判斷字符權(quán)重時會忽略一些重要名詞。這是不是意味著我們需要再訓(xùn)練一個大模型來輔助它,還是有其他方法可以讓一個模型同時實現(xiàn)字符推斷和結(jié)合歷史信息校正推斷?
Ithaca在訓(xùn)練的時候特意去除日期和地點這種能泄露年代的信息,并主要從純文風(fēng)角度去推斷銘文所屬的年代和地點,因此會忽略一些人類專家可能會注意到的權(quán)重,例如地名、人名等信息。解決辦法是針對具體需求重新進(jìn)行相關(guān)訓(xùn)練。由于數(shù)據(jù)量通常不會太大,因此不需要重新接入一個大模型??梢酝ㄟ^調(diào)整訓(xùn)練數(shù)據(jù)和目標(biāo),讓模型更好地結(jié)合歷史信息進(jìn)行推斷。
作為純文科體系的學(xué)生,如果想結(jié)合數(shù)字技術(shù)與人文研究,需要做哪些準(zhǔn)備?
我個人的建議是,作為本科生,可以暫時把數(shù)字技術(shù)當(dāng)作一個“黑箱”,現(xiàn)在的GPT大模型已經(jīng)將輸入和輸出簡化到了極致,所以暫時不需要深入了解其內(nèi)部工作機(jī)制,而是要清楚它能做到什么,不能做到什么。網(wǎng)上有許多關(guān)于數(shù)字技術(shù)與人文社科結(jié)合的學(xué)習(xí)資源,雖然可能僅限于了解如何對問題進(jìn)行建模,但在學(xué)習(xí)專業(yè)課程時,可以思考某個問題為什么可以或不可以被數(shù)字技術(shù)建模。不要過于焦慮,如果對交叉領(lǐng)域感興趣,可以主動去學(xué)習(xí)更多的AI相關(guān)的數(shù)理課程,譬如說線性代數(shù)和機(jī)器學(xué)習(xí)基礎(chǔ)。更重要地是,要學(xué)會如何表述一個問題,思考如何將一個人文歷史問題轉(zhuǎn)化為可操作的分析問題,明確輸入和輸出,或者如何利用數(shù)字工具輔助研究,這是非數(shù)理技術(shù)專業(yè)的學(xué)者需要培養(yǎng)的重要能力。
主講人正在主講的學(xué)術(shù)報告廳
雙刀和弓箭操作,雙刀弓箭如何騎乘魔物!荒野雙刀弓箭騎乘魔物方法解析 掌握浮出水面大魚的快速操作,怪物獵人:冰原水下魚壓制方法 Revolutionary Design,標(biāo)題改寫后:“長城哈弗梟龍MAX發(fā)布,搭載Hi4電四驅(qū)系統(tǒng)” 追獵弓史詩武器,《鈴蘭之劍》追獵弓武器解析 意外裁減曾投票給特朗普的聯(lián)邦雇員被解雇,“支持者投票給特朗普,現(xiàn)在被解雇” 武器裝填技巧集中武器搭配,怪物獵人荒野:強(qiáng)擊瓶斬斧配裝指南 輕松捕捉,怪物獵人荒野:暴君蚱蜢收集方法 【傳說級武器墜飾】,《鈴蘭之劍為這和平的世界》墜飾長戟武器解析概覽 50級票務(wù),《夢幻西游》躍凌云看戲副本攻略 《星際戰(zhàn)甲》丑甲的特點分享