打造“千里眼”的非结构光场智能成像技术-（南京）软件科技有限公司

动态行业资讯

动态

打造“千里眼”的非结构光场智能成像技术

发布时间：2025-03-28 09:30:12 阅读量: 459

打造“千里眼”的(de)非(fēi)结(jié)构(gòu)光场智能成像技术

对于很多摄影圈资深人士来说，Lytro这个名字既如雷贯耳，又显得分外陌生。这曾是一家生产新型光场成像设备的初创企业，从2006年成立伊始，Lytro凭借其惊艳的产品和多项专利，一时间成(chéng)为(wèi)资(zī)本(běn)市场炙手可热的宠儿。但如今，除了部分摄影爱好者手中的珍藏品，我们已经难觅Lytro的踪迹了。

由清华大学(xué)、凌(líng)云(yún)光(guāng)技(jì)术(shù)股(gǔ)份(fèn)有(yǒu)限(xiàn)公(gōng)司(sī)等(děng)多(duō)家(jiā)单(dān)位(wèi)共(gòng)同(tóng)完(wán)成(chéng)的(de)科(kē)研(yán)项(xiàng)目(mù)“非(fēi)结(jié)构(gòu)光(guāng)场(chǎng)智(zhì)能(néng)成(chéng)像(xiàng)关键技(jì)术(shù)与(yǔ)装(zhuāng)备(bèi)”荣(róng)获(huò)2021年(nián)度北京市科学技术奖技术发明一等奖。该项科研成果将光场成像技术的发展推向了一个全新的高度。那么光场成像是否会在新技术的加持下焕发新生呢?

光场：既要“看得清”,又要“看得全”

说起“光场成像”,就要从那个生僻的物理概念——“光场”说起。在物理学领域里，“场”是一个被广泛应用的概念，我们耳熟能详的有“电场”“磁场”“引力场”等。对于这一抽象的物理学术语，我们可以简单地理解为物理量在时间和空间中的分布状态。从物理学的视角看去，光可不只是诗人在黑暗中寻找的圣物，而是可以用严谨的数学模型表达的物理概念。

早在200多年前，电磁学之父法拉第就在他的一篇演讲中提出，光应该像磁场一样，被理解为一个“场”,这算是光场理论的起源。此后，麦克斯韦提出了将电、磁、光统归为电磁场现场的麦克斯韦方程组，为光场理论的发展打下了重要基础。1936年，物理学家亚历山大·格尔顺(AlexanderGershun)在他的论文中正式提出了“光场”这一概念，并首次对光场进行建模。不过一直到20世纪末，人类才在光场理论上取得了实质性突破，1991年麻省理工学院教授爱德华·阿德尔森(E.H.Adelson)

等学者，提出了全光函数，为光场理论建立了一套清晰的数学模型。阿德尔森用一个7维函数，将光线在空间中的分布简洁明了地表达出来。在阿德尔森的理论中，全光函数将物体所发出或反射的光解析成7个维度的信息：光的空间位置(用空间坐标系x,y,z表达),光线入射角度(用球坐标系的角度值θ,Φ表达),波长(用λ表达)和时间(用t表达)。全光函数的提出，将人类看得见却摸不着的光，完整地拆解开来呈现在人类面前。既然光线本身包含了这些维度的信息，那么如果我们在空间内遍布数量众多的观察光线的位置，那么由此记录下这个空间内光线的动态分布状态，就可以被理解为“光场”。

全光函数的提出推动了“光场理论”的发展与完善，也为科学家指明了研究方向——光场成像技术。我们知道，传统的数码相机是由光学镜头、影像传感器和影像处理器三大核心(xīn)部(bù)件(jiàn)组成的，自然界三维场景发出、反射或散射的光线，被单镜头捕捉并聚焦，经由影像传感器转换为数字信号，最后交给影像处理器变(biàn)成(chéng)二(èr)维(wéi)图(tú)像(xiàng)。清(qīng)华(huá)大(dà)学(xué)方(fāng)璐(lù)教(jiào)授(shòu)介(jiè)绍(shào)道(dào)：“毕(bì)竟(jìng)光(guāng)是(shì)一(yī)个(gè)高(gāo)维(wéi)的(de)信(xìn)号，普通成像设备无法将光场内这些高维信号全部、高速并实时地转换成一个电子信号。”传统成像设备只能记录光场中的光亮信息，对光的方向等信息束手无策，导致深度信息的丢失，且能获取的总信息量受到影像处理器像素数量的限制。因此，“‘看得清’和‘看得全’这对矛盾一直困扰着人们。举个大家(jiā)日(rì)常(cháng)拍(pāi)照(zhào)上(shàng)的(de)例(lì)子(zi)，广(guǎng)角(jiǎo)镜(jìng)头(tóu)可(kě)以(yǐ)把(bǎ)照(zhào)片(piàn)拍(pāi)得(de)很(hěn)宽(kuān)很(hěn)大(dà)，分(fēn)辨(biàn)率(lǜ)却(què)不(bù)甚(shén)精(jīng)确(què)。而(ér)长(zhǎng)焦(jiāo)镜(jìng)头(tóu)可(kě)以(yǐ)拍(pāi)得(de)很(hěn)远(yuǎn)很(hěn)清(qīng)晰(xī)，却只能覆盖一片很小的区域。”方璐说。

光场成像的前世今生

近年来，光场采集感知重建理论及技术的进步为我们指出了另外一条思路：如果我们将全光函数中所有的参数都捕捉到，成像(xiàng)效(xiào)果(guǒ)不(bù)就能做到既看得全也看得清吗?答案是肯定的。不过，全光函数包含了光线多达7个维度的信息，显然还是过于复杂了，而且并不是所有维度的信息在拍摄时都用得着。于是安德尔森的后继者们将该函数做了简化，波长λ被简化为记录红、绿、蓝三原色，时间t被简化为记录不同帧，这样函数就被简化为只包含位置(x,y,z)与光线入射角度(0,Φ)5个维度信息。此后又被进一步降到了4维：即通过记录一条光线穿过两个平行平面的坐标(分别用u,v和x,y两个坐标系表示),就能得到光线的位置与方向信息。如果将这个双平面模型套用在普通成像系统的结构上，那么其中u-v平面就是主镜头中心所在平面，x-y平面是影像传感器所在平面，这样通过采集光线穿过两个平(píng)面(miàn)时(shí)所(suǒ)产(chǎn)生(shēng)的(de)4个(gè)维(wéi)度(dù)信(xìn)息(xi)，理(lǐ)论(lùn)上就能兼顾到“看得全、看得清”的效果。问题在于，要借助什么样高科技的神器才完成这样的采集工作呢?“要兼顾既看得全又看得清，就意味着依靠单个镜头(tóu)和(hé)单(dān)个(gè)影(yǐng)像(xiàng)传(chuán)感(gǎn)器(qì)的(de)系(xì)统(tǒng)根(gēn)本(běn)无(wú)能(néng)为(wèi)力(lì)。这(zhè)时(shí)人(rén)们(men)就(jiù)想(xiǎng)到(dào)：能(néng)否(fǒu)把(bǎ)多(duō)个(gè)相(xiāng)机(jī)放(fàng)在(zài)一(yī)起(qǐ)形(xíng)成(chéng)阵(zhèn)列(liè)，通过‘量变引起质变’的思路来实现?”方璐介绍道。初代光场成像技术的解决方案是在影像传感器前，用数量众多的单镜头组成阵列，形成类似于昆虫复眼的结构，对u-v和x-y平面的信息进行采集，然后通过数字调焦的形式进行图像还原。这样就形成了“先拍照，后对焦”的特点，省去了传统成像设备同时对焦和拍照导致拍摄不清晰的麻烦。

2006年，美国斯坦福大学的马克·勒沃伊(MarcLevoy)团队根据这一思路研制出了阵列式光场成像系统，这个身形巨大的装置通过不同位置的相机同时曝光进行光场信息采集，从而迈出了光场成像技术落地的第一步。2012年，美国杜克大学的戴维·布雷迪(DavidBrady)团队在顶级学术期刊《自然》上发表了世界上首款亿像素级阵列式光场成像系统，像素分辨率达到当年数码相机的30多倍，能捕捉到几倍于人眼感知能力的细节。但体积和重量的限制导致这些阵列成像设备只能止步于实验室。此外，在这种技术里，“每个相机采用同样的尺度，并且位置和姿态固定，只有一种拍摄模式，依赖事先标定的参数进行重建，系统的鲁棒性和扩展性都受限。”方璐介绍道，“如果有相机在成像过程中受到扰动，整个阵列系统的工作都会受到影响，需要进行重新标定。”

欲穷千里目，智能技术来相助

方璐带领团队另辟蹊径，提出了非结构光场阵列感知技术。不同于之前，非结构光场阵列感知技术的特征是“层内非结构”和“层间异构”:层内非结构突破了结构固化的制约，使得阵列系统具有场景自适应成像的能力；层间异构克服了尺度单一的瓶颈，使得阵列系统的感知尺度和维度可扩展。非结构光场阵列感知技术不再依赖复杂的硬件设计和烦琐的系统标定，而是借助人工智能，通过阵列结构自适应感知、跨尺度映射融合等技术，直接利用多尺度图像内容进行计算重建，同样的硬件资源条件下，大幅提升了系统的成像效率与鲁棒性。这一系列环环相扣的技术创新，大大降低了光场阵列系统的复杂程度，节约了硬件带来的高昂成本，让计算摄像和人工智能技术有了更多施展空间，突破了传统光学成像的瓶颈。

当然，这种全新的技术，是让几十个不一样的成像设备整合在一起工作，这背后算法部分的技术难度是可想而知的。“毕竟软件和算法的成本与迭代周期是远小于硬件系统的，我们把硬件制作的难度降低，让更多的工作留给算法去做，让智能成像成为可能，这种‘非结构光场感知’新范式使得光场成像真正实现了‘鲁棒性’。”方璐介绍道。

在人工智能技术的加持下，除了鲁棒(bàng)性(xìng)，非(fēi)结(jié)构(gòu)光(guāng)场(chǎng)智(zhì)能(néng)感(gǎn)知(zhī)技(jì)术(shù)同(tóng)时(shí)实(shí)现(xiàn)了(le)另(lìng)一(yī)大(dà)优(yōu)势(shì)，即(jí)可(kě)扩(kuò)展(zhǎn)性(xìng)：这(zhè)种(zhǒng)非(fēi)结(jié)构(gòu)光(guāng)场(chǎng)阵(zhèn)列(liè)系(xì)统(tǒng)可(kě)以(yǐ)灵(líng)活(huó)地(de)调(diào)整(zhěng)阵(zhèn)列(liè)的(de)数(shù)量(liàng)和(hé)组(zǔ)合(hé)方(fāng)式(shì)，以(yǐ)适(shì)应不同的应用场景需求。对此，方璐指出：“要知道，鲁棒性和可扩展性这两大优势，对于技术的应用意义重大。在这两项优势加持下，这一新技术才有可能应用到未来多个不同领域中。”从工业检测到公共安全，再到智慧城市，光场成像在B端的应用前景十分广阔。方璐认为，目前的非结构光场成像技术，并不是给摄影爱好者去品鉴的，而是供智能无人系统进行识别分析之用的。那么在这种应用场景下，追求高分辨率就并不是唯一的目标。她进一步指出：“对此，我们也在研究‘感算一体’的成像技术，将计算移到前端，在成像的同时就计算出目标物体的特征和位置，这就省去了传统光场成像对图片压缩(suō)和解压，以及后续的目标特征提取与识别等烦琐步骤，这节约的资源与功耗是巨大的。”

非结构光场智能成像技术所面临的另外一个问题就是数据。因为现阶段人工智能算法开发迭代对于数据集的依赖是非常大的。方璐对此说道：“但目前国际上常用的视觉数据集大多是少场景、少对象、关系简单，可能就只有一只猫、一条狗、一辆车这样的信息。这就难以呈现复杂真实的场景，难以支撑面向大场景多对象复杂对象的新一代人工智能理论和算法的研究。”在这样的数据集里进行训练的人工智能算法，一旦放在类似“万人跑马拉松”这样的壮观场景中，可能就力不从心了。因此，方璐带领团队构建了PANDA数据平台(全称GigaPixel-levelHuman-centricVideoDataset),具有大场景(平方千米级别范围)、高分辨(十亿像素级，支持百米对象识别)、多对象复杂关系(万级对象，尺度变化超百倍，遮挡关系复杂，交互行为丰富)的特点，填补了大场景下高密度群体对象(xiàng)数(shù)据(jù)平(píng)台(tái)的(de)空(kōng)白(bái)，为(wèi)探(tàn)索(suǒ)人(rén)工(gōng)智(zhì)能(néng)新(xīn)理(lǐ)论(lùn)和(hé)新(xīn)方(fāng)法(fǎ)提(tí)供(gōng)了不可或缺的(de)数(shù)据(jù)基(jī)础(chǔ)。

立(lì)足(zú)于(yú)人(rén)工(gōng)智(zhì)能(néng)技(jì)术(shù)，非(fēi)结(jié)构(gòu)光(guāng)场(chǎng)智(zhì)能(néng)成(chéng)像(xiàng)技(jì)术(shù)为(wèi)未(wèi)来(lái)的(de)光(guāng)场(chǎng)成(chéng)像(xiàng)技(jì)术(shù)指(zhǐ)明(míng)了(le)一(yī)条全新的赛道。谈到该技术的应用前景，方璐充满信心：“首先，我们会将技术从现在的宏观场景向微观场景普及，在未来会进一步向天文远观场景扩展，这背后的研发思路是一脉相承的。其次，人工智能算法还有待于进一步突破和推进：未来的成像目标是将性能做到极致，实现光速感知计算，这对于人工智能算法的要求是越来越高的。”