【新智元导读】2000年前碳化的古卷轴,成功被AI破译了近5%的内容。三人天才团队拿下70万美元大奖,谷歌华人工程师一人拿下并列亚军。
2000年前碳化的古卷轴,如今成功被AI破译!背后三人团队还拿下70万美元大奖!
AI在考古领域的重大进步,甚至登上了今天Nature的头版。
要说这件事的起源,还得追溯到公元79年一次火山爆发, 直接将一座珍藏古老的纸莎草卷轴——Herculaneum Papyri的图书馆埋葬。
而这些卷轴,直到18世纪才被挖出,却早已成为炭焦的木块。由于太过脆弱,根本无法轻易展开。
今天,正式获奖的作品,展示了超过15栏的数百个单词,相当于整个卷轴的5%的内容。
值得一提的是,三人拔得头筹的团队中,有一位年仅21岁计算机天才少年Luke Farritor,成功用AI从图像裂缝中破译内容。
当时,他还在SpaceX暑期实习,偶然发现这场挑战赛的英雄贴。
另外,这场AI破译卷轴的大赛还有3个团队获得亚军,包括一位谷歌华人工程师单独获5万美元大奖。
从破译文字转录后可以读出,古代哲学家对「如何享受生活」「快乐」的探讨与争辩,还揭示了人们对音乐和冒险的沉思。
这一壮举为AI完整破译其余古卷铺平了道路,研究人员表示,这可能会对我们对古代世界的理解产生革命性的影响。
谷歌DeepMind的首席执行官:我迫不及待地想阅读这些被认为已经失传的古籍!
2000年后,我们终于可以阅读卷轴了!
下图3D还原了,岩浆吞噬图书馆的情境。
这些卷轴在公元79年维苏威火山的爆发中被碳化
直到18世纪,这些卷轴被挖掘出来。
目前,有800多卷被保存在意大利那不勒斯的一个图书馆中。
一位艺术家对珍藏卷轴图书馆的渲染
然而,这些碳化的卷轴无法在不损害的情况下展开。
一份卷轴不同的拍摄视角,看得出已经完全碳化,像一个木头块。
当任何人尝试展开卷轴,结果就是支离破碎。
那么,问题来了,我们该如何阅读这些卷轴?
2023年3月15日,Nat Friedman、Daniel Gross和Brent Seales发起了Vesuvius Challenge,就是为了解决这一世纪难题。
这场挑战赛,要求参赛者在卷轴的4平方厘米区域内,至少找到10个字母。
最诱人的是,挑战赛为成功破译者提供超100万美元的奖金。
来自法国科学院的卷轴在牛津附近的Diamond Light Source粒子加速器进行了成像,然后公布了这些卷轴的高分辨率CT扫描图像。
以艺术化的方式构建3D卷轴
古卷是如何展开的?
大体说,虚拟展开卷轴分三个步骤进行:
-扫描:利用X射线断层扫描技术对卷轴或碎片进行3D扫描。
-分割:在3D扫描图像中追踪卷曲的纸莎草层,随后将其展开或铺平。
-墨迹检测:借助机器学习模型,识别铺平后段落中的墨迹区域。
这些卷轴是在位于英格兰牛津附近的Diamond Light Source(一种粒子加速器)扫描的。
该机器可以产生的高强度平行X射线束,使得成像快速、准确且分辨率高。通过断层重建算法,X射线图片被转化为3D体素体积,形成一系列的切片图像。
接下来,需要在3D空间中识别出单独的纸莎草纸张,这一步骤主要依赖于一个名为Volume Cartographer的工具。
Seth Parker在Diamond Light Source粒子加速器扫描卷轴
如下动画向我们展示了在Volume Cartographer中如何进行手动和自动分割操作。
最终步骤是,墨迹检测。
对于完整卷轴的大规模扫描,墨迹检测一直是个挑战,直到最近挑战赛发起团队在两个方向上取得了突破:
- 裂纹模式
去年夏天,Casey Handmer在检查平铺后的表面体积时,发现了一种奇特的裂纹模式,这些裂纹似乎组成了文字。
Casey因这一发现赢得了首个墨迹奖,并与社区共享了他的发现,随后引发了一系列的研究活动。
- Kaggle竞赛
与此同时,数百支团队在Kaggle竞赛中努力构建出最佳的机器学习模型,目标是检测那些在几百年前卷轴物理解卷过程中脱落的碎片上的墨迹。
与之前不同的是,他们利用了这些碎片照片上的真实数据进行训练,而不是标记尚未发现的裂纹。
虽然这些努力产生了一些优秀的模型,但它们在分割团队处理的平铺图像上似乎并不奏效。
直到谷歌华人工程师Youssef Nader应用了领域适应技术,这一技术最终帮他赢得了第一字母奖的亚军。
在得到训练数据后,全球众多参与者通过计算机视觉、机器学习不懈努力,不到一年时间,立刻攻克破解古卷阅读这一难题。
10个月的时间,他们取得了成功。
终于,在经过275年漫长的时间中,我们有能力阅读这些卷轴:
下图是PHerc.Paris.4(法国科学院)的部分文本,2000年来首次被人阅读。大约95%的卷轴内容仍待揭晓。
卷轴字体被揭晓那刻,就会发现,被两千年的泥土和灰烬封存的祖先思维再次展现在世人面前!
那么,都有谁拿下了这次的大奖?
三人团队,斩获70万美元大奖
在众多参赛作品中,有一份作品非常突出。
评审结果公布,三人团队获得了Vesuvius Challenge70万美元大奖,他们分别是Youssef Nader、Luke Farritor和Julian Schilliger。
这三位成员的名头可不小,而且是这场挑战赛中最重要的贡献者。
值得一提是,21岁的Luke Farritor是一名计算机学生,曾在SpaceX实习,是史上第一位从赫库兰尼姆卷轴读出整个单词ΠΟΡΦΥΡΑϹ(意为紫色)的人,并赢得了首字母奖的第一名。
就连他的个人主页,字体都有种年代久远的感觉。
柏林自由大学的博士生Youssef Nader在去年10月就读出了几列文本,并赢得了第二名的首字母奖。他的成果特别清晰易读,自然成为了团队的lead。
还有Julian Schilliger,是来自苏黎世联邦理工学院(ETH Zürich)机器人学学生,因其在Volume Cartographer上的卓越工作而赢得了三个分割工具奖,让我们能够看到如今的纸莎草区域3D映射。
为了拿下最终的大奖,三人组建了一个强大的团队,并向评审提交了一份,如今被评为最易读的作品。
提交的文件中,包含了三种不同的模型架构的结果,互相印证。其中基于TimeSformer的模型输出了最佳图像。
为了防止过拟合和数据幻读,他们采取了多种措施,包括采用多架构结果、研究不同的输入/输出窗口大小、应用标签平滑和多样化的验证方法。
这个墨水检测代码已经在GitHub上开源。
获奖者的主提交图片(TimeSformer64x64)
除了卓越的墨迹检测能力,这份作品还展示了迄今为止,我们见过的最强大的自动分割技术。
便是由Julian开发的ThaumatoAnakalyptor(大致意为「奇迹揭示者」)能够从多个卷轴中生成大量纸莎草片段。
对已知区域的重新分割验证了之前的墨迹发现,全新的分割则揭示了如卷轴最外层包裹等其他地方的文字。
来自自动分段的输出。顶行与提交图像重叠,底行有新的分段。
谷歌华人工程师拿下亚军
此外,除了第一名拿下大奖,Vesuvius Challenge还评出了三个并列的亚军,将各自获得50,000美元奖金。
这些团队在墨迹标记和采样的细节处理上各有创新。
谷歌华人工程师Shao-Qian Mah
技术细节是对UNETR++模型进行了定制调整。这是一种基于变压器的 UNET 衍生工具,在医学成像中用作3D特征提取器,对深度层进行最大池化处理,然后使用基于Segformer B-5的最终特征提取器。
另外,还有2个团队共同获得亚军。
团队二:Elian Rafael Dal Prá, Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, João Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, 和Odemir Martinez Bruno。
团队三:Louis Schlessinger和Arefeh Sherafati。
5%的卷轴,写了什么?
到目前为止,研究团队已经成功展开,并阅读了第一卷卷轴的约5%,并对露出的文字进行了初步转录。
初步的阅读提供了这篇哲学文本的一瞥,根据学者的解读:
Philodemus,作为伊壁鸠鲁学派的一员,被认为是别墅中的常驻哲学家,在那里发现卷轴的小图书馆里工作。
初步、粗略的转录草稿如下:
在卷轴的后面:
在文本的结尾部分,作者对他的对手进行了尖锐的批评,他们「在定义快乐的问题上,无论是从总体上还是具体上,都无话可说」。
最后,卷轴以这样的话结束:
学者们或许会将其称之为一篇哲学论文。
但对我们而言,是如此地熟悉,古轴的第一篇竟是讲述「如何享受生活」的两千年前的文章。
在结尾段落里,Philodemus是否在批评斯多葛学派,声称斯多葛主义是一个不完整的哲学。因为它「对于快乐一无所知」?
他似乎在讨论的问题——生活的快乐以及什么让生活变得有价值——仍然是我们今天思考的话题。
图片识别准确度如何?
人人皆知,机器学习模型通常会产生「幻觉」,即输出与其训练数据相似、但实际上是虚构的文本或图片。
同样,参赛者可能通过自己编造图像来作弊,例如将图像嵌入到模型权重中。
那么,如何确保这件事不会发生?这里有几种验证方法:
- 技术复现
Vesuvius Challenge技术审查团队亲手复现了获奖作品,确保完全理解了代码的每个细节,并独立运行代码时,得到了与原作品相似的图像。
- 多次提交相同区域的图片
你可能注意到,所有提交的图片都展示了卷轴的同一区域。Vesuvius Challenge向所有参赛者提供了分割团队用CT扫描创建的3D映射的纸莎草片段。
- 小范围的输入/输出
墨迹检测模型并不是基于希腊字母、光学字符识别(OCR)或语言模型。它们是独立地识别CT扫描中的微小墨点,这些墨点聚集起来后才形成了文字。因此,图片中显示的文本并非机器学习模型虚构出来的,而是直接基于CT扫描中的实际数据。
模型采用了较小的数据处理窗口:在一些情况下,它的输出结果甚至仅限于两种状态:「有墨迹」和「无墨迹」,这极大地降低了模型错误地生成类似字母形状的可能性
下一步是破译一部完整的作品。
Nat Friedman宣布了下一轮2024年Vesuvius Challenge奖,目标是在年底前阅读85%的卷轴。
与此同时,他表示,仅仅是走到这一步就「感觉像是一个奇迹,我不敢相信它竟成功了」。
参考资料:
https://scrollprize.org/grandprize
https://www.nature.com/articles/d41586-024-00346-8