更新时间:2023-12-10 14:42
多模态认知计算(Multi-Modal Cognitive Computing)是专门研究机器怎样模拟人类“联觉”(Synaesthesia),以实现多模态输入的高效感知与综合理解。多模态认知计算模拟人类联觉,以信容理论为指导,分析不同感知通道的联系,对特定场景和环境进行时空以及语义维度上的高效感知和综合理解。
多模态认知计算模拟人类“联觉”(Synaesthesia),探索图像、视频、文本、语音等多模态输入的高效感知与综合理解手段,是人工智能领域的重要研究内容,在认知科学的启发下,结合“信容”(Information Capacity)概念,提高机器的信息提取能力。
多模态认知计算的研究开始于21世纪初。为构建模拟人类认知模式的智能系统,李学龙于2003年将“认知计算”(Cognitive Computing)的概念引入信息科学领域,并开设了“认知计算”课程。2008年,以“联觉”(Synaesthesia)为关键词正式发表研究工作“Visual Music and Musical Vision”。同年,经过各级审批,IEEE SMC的认知计算技术委员会终于正式获批成立,李学龙担任创始主席。该技术委员会从成立伊始,就明确了“认知计算”的目标。
随着人工智能第三次发展高潮的影响逐渐深化,多模态认知计算迎来了新的发展机遇,成为航空航天、智能制造、医疗健康等重大领域共同关注的研究课题。2008年,国家自然科学基金委员会设立的重大研究计划“视听觉信息的认知计算”,实施以来取得了丰硕成果。2017年,国务院印发了《新一代人工智能发展规划》,明确提出“建立大规模类脑智能计算的新模型和脑启发的认知计算模型”,研究“以自然语言理解和图像图形为核心的认知计算理论和方法”。当前,多模态认知计算研究已从学术牵引转化为需求牵引,在图像、视频、文本、语音等海量多模态数据和强大算力的支撑下,国内外各大知名企业与研究机构纷纷加入此项研究中。随着多模态数据的海量爆发和算力的快速迭代,多模态认知计算已成为各行业共同关注的研究热点,在临地安防中发挥着重要作用。
西北工业大学李学龙教授于2020年获腾讯“科学探索奖”,获奖理由为“肯定他将联觉引入信息领域的视听觉分析,支持他在多模态认知计算方向深入探索”。
人类具备多感官整合能力。当多种感官通道刺激同时发生,人类的注意力不会被分散。当同一事件引起多种感官的同步刺激时, 不同感官通道共享注意力, 人类可以感知更多信息。因此,多模态认知计算假设来自同一事件的不同模态数据共享注意力。假设事件空间为感知模态、空间、时间上的张量,为第个模态的信息量矩阵,事件注意力矩阵,且所有事件的注意力总和为1,则机器从事件空间中提取的最大信息量为。与信容(Information Capacity,单位数据量的信息提供能力)对应,机器的认知能力定义为从单位数据中获取最大信息量的能力。
因此,可从三方面提升机器认知能力,实现多模态认知计算:(1)优化,使机器获得更大信息量;(2)增大,利用对于给定任务信息量更大的数据;(3)减小,利用尽可能少的数据实现信息量的最大化。
多模态认知计算在“临地安防”(Vicinagearth Security)中有广阔的应用前景。在临地安防的实际应用中,通常需要处理来自光学、声学等不同传感器的大量多模态数据。以智能巡检为例,需要对无人机采集的音频与不同波段的图像进行综合研判,发现场景中存在的隐患。
区别于传统的人工智能研究,多模态认知计算的特点有三层:
(1)强调多模态信息的综合利用。多模态相比于单一模态能够提供更大的信息量;
(2)明确认知计算的重要性。通过设计认知启发的学习算法,探究多模态输入的联合分析方法;
(3)注重从数据中提取信息的能力。从单位数据量中提取更多信息,则代表机器具备更强的认知能力。
多模态认知计算以“信容”(Information Capacity,信息量与数据量的比值,即单位数据量的信息提供能力)理论为依据,将机器的认知能力描述为从单位数据获取最大信息量的能力。以提升机器认知能力为核心,多模态认知计算划分为三个基本任务:
(1) 多模态关联
通过挖掘不同子模态事件在空间、事件、语义层面的内在一致性,将子模态事件映射到统一的信息空间、实现多模态的对齐、感知与检索识别。 通过多模态关联,可以挖掘不同模态间的对应关系、以进一步提升认知能力。典型任务有视音理解(Audiovisual Learning)、跨膜态检索(Cross-Modal Retrieval)等。
(2) 跨模态生成
将信息以模态为载体进行传输,利用不同模态的差异性,对已知信息进行跨模态的合成与转换。在跨模态合成中,利用更加直观,易于理解的模态对信息进行丰富和补充,增大信息量。在跨模态转换中,寻找更加简洁的表达形式,在保留信息的同时,减小数据量,以此提升信息获取能力。典型任务有视频摘要(Video Summarization)、语音识别(Speech Recognition)等。
(3) 多模态协同
利用不同模态间的关联与互补,探究高效、合理的模态间联合机制,优化注意力系数。通过学习以图像、视频、文本、语音为代表的多模态数据的一致性表达,实现信息的融合与增强以提升在指定任务上的性能。典型任务有多模态融合(Multi-Modal Fusion)、联合学习(Joint Learning)等。