多模态认知计算 - 知识百科

多模态认知计算

更新时间：2023-12-10 14:42

多模态认知计算（Multi-Modal Cognitive Computing）是专门研究机器怎样模拟人类“联觉”（Synaesthesia），以实现多模态输入的高效感知与综合理解。多模态认知计算模拟人类联觉，以信容理论为指导，分析不同感知通道的联系，对特定场景和环境进行时空以及语义维度上的高效感知和综合理解。

定义

多模态认知计算模拟人类“联觉”（Synaesthesia），探索图像、视频、文本、语音等多模态输入的高效感知与综合理解手段，是人工智能领域的重要研究内容，在认知科学的启发下，结合“信容”（Information Capacity）概念，提高机器的信息提取能力。

发展历程

多模态认知计算的研究开始于21世纪初。为构建模拟人类认知模式的智能系统，李学龙于2003年将“认知计算”（Cognitive Computing）的概念引入信息科学领域，并开设了“认知计算”课程。2008年，以“联觉”（Synaesthesia）为关键词正式发表研究工作“Visual Music and Musical Vision”。同年，经过各级审批，IEEE SMC的认知计算技术委员会终于正式获批成立，李学龙担任创始主席。该技术委员会从成立伊始，就明确了“认知计算”的目标。

随着人工智能第三次发展高潮的影响逐渐深化，多模态认知计算迎来了新的发展机遇，成为航空航天、智能制造、医疗健康等重大领域共同关注的研究课题。2008年，国家自然科学基金委员会设立的重大研究计划“视听觉信息的认知计算”，实施以来取得了丰硕成果。2017年，国务院印发了《新一代人工智能发展规划》，明确提出“建立大规模类脑智能计算的新模型和脑启发的认知计算模型”，研究“以自然语言理解和图像图形为核心的认知计算理论和方法”。当前，多模态认知计算研究已从学术牵引转化为需求牵引，在图像、视频、文本、语音等海量多模态数据和强大算力的支撑下，国内外各大知名企业与研究机构纷纷加入此项研究中。随着多模态数据的海量爆发和算力的快速迭代，多模态认知计算已成为各行业共同关注的研究热点，在临地安防中发挥着重要作用。

西北工业大学李学龙教授于2020年获腾讯“科学探索奖”，获奖理由为“肯定他将联觉引入信息领域的视听觉分析，支持他在多模态认知计算方向深入探索”。

原理

人类具备多感官整合能力。当多种感官通道刺激同时发生，人类的注意力不会被分散。当同一事件引起多种感官的同步刺激时, 不同感官通道共享注意力, 人类可以感知更多信息。因此，多模态认知计算假设来自同一事件的不同模态数据共享注意力。假设事件空间为感知模态、空间、时间上的张量，为第个模态的信息量矩阵，事件注意力矩阵，且所有事件的注意力总和为1，则机器从事件空间中提取的最大信息量为。与信容（Information Capacity，单位数据量的信息提供能力）对应，机器的认知能力定义为从单位数据中获取最大信息量的能力。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}