摘要:智能机器人在复杂环境下的作业能力一直是机器人应用领域的前沿问题。指称表达是人类表达指定对象的定位的常用方式。因此,这种方法经常用于机器人交互中,但单视觉模态不足以满足现实世界中的所有任务。因此,本文构建了一种基于视觉和听觉融合的机器人感知操作系统。该系统采用深度学习算法模型实现机器人的视觉感知和听觉感知,捕捉自然语言操作指令和场景信息用于机器人的视觉定位。为此,收集了12类声音信号数据进行音频识别。实验结果表明,集成在UR机器人上的系统具有良好的视觉定位和音频预测能力,最终实现了基于指令的视听操作任务,并验证了视听数据的表达能力优于单模态数据。
机器人正在逐渐走进人类的生活。为了有效地帮助人类,机器人必须尽可能地学习人类的所有能力,包括利用视觉感知来观察世界,理解人类自然语言指令,甚至通过听觉、触觉等获取多种功能。模态信息感知物理世界来执行更复杂的任务。随着人工智能技术的不断发展,在视觉识别[1-2]、自然语言系统[3-4]、三维场景建模[5-6]、操作抓取和运动规划[7-8]等方面取得了巨大的进步,使得各种先进的计算模型能够部署在机器人上,帮助机器人变得更加智能,从而高效稳定地协助人类完成更加复杂和困难的任务。例如,最先进的带有嵌入指令表达的机器人导航任务(REVERIE)[9],该系统一起学习视觉、语言和机器人行为,以帮助机器人探索环境以找到目标物体。这是一项非常具有挑战性的任务,因为它不仅需要对特定对象进行定位,还需要对对象及其位置关系进行高级语义理解,以帮助区分正确的对象和不相关的参考对象。在此基础上,文献[10]开发了混合控制机器人系统,赋予机器人更复杂的操作能力。系统可以根据自然语言操作指令拾取和放置目标物体。针对模糊的操作指令或任务场景,文献[11]设计了部分可观察马尔可夫模型(POMDP)来观察历史操作记录,以帮助机器人消除模糊目标。为了促进人类与机器人之间更有效、直观的交互,文献[12]设计了一种无限制的自然语言交互架构,无需辅助信息的支持即可实现自然语言消歧和查询。
然而,仅仅依靠视觉信息并不足以支持机器人完成所有类型的任务。对于真实的物理世界,机器人需要配备不同类型的传感器来获取更多的模态信息,如听觉信息[13-15]、触觉信息[16-17]、雷达信息[18-19]以及多模态信息。 -传感器融合信息。 [20-21]。为了提高机器人的自主导航和探索能力,文献[22]在捕获视觉信息的基础上,结合音频感官信息并将其嵌入到机器人的路径规划器中,以提高机器人的导航精度。文献[23]通过为实际机器人配备听觉传感器并操作目标物体来收集听觉数据,实现了对视觉上无法区分的目标的辨别。在此基础上,文献[24-25]增加了触觉传感器,采集不同材料的电压值信息作为触觉感知,构建了触觉和听觉一体化的机器人分类系统,极大地提高了机器人的工作能力。
上述研究虽然取得了很大进展,但缺乏部分与人类互动的能力。如何让机器人接收人类操作指令并利用多模态信息共同决策操作行为仍然是一个很大的挑战。为了使配备多传感器的机器人系统能够适应更加复杂的作业环境,本文利用视觉传感器和听觉传感器构建了具有视听融合指代表达的机器人自主操作系统。该系统可以接收人类自然语言操作指令,理解指令中的高级语义信息,基于视觉目标定位目标,并基于听觉信息进一步识别目标类别。在真实的物理环境中,系统能够在设计的实验下稳定运行。主要贡献如下:
1)本文提出了一种新的视听操作任务,利用视觉信息和音频信息来解读指示表情的操作指令。
2)基于构建的数据集,本文实现了机器人的视觉定位和音频识别,完成目标操作任务。
3)本文将实验系统应用到实际机器人中并进行实验验证。实验结果表明,这种多模态数据可以显着提高机器人的运行效率。
01 机器人视听系统
本文使用UR机械臂作为机器人平台,构建了一个用于视听融合的具体操作系统。整个系统架构如图1所示。
图1 本文实验系统架构
机器人的任务目标是基于复杂的自然语言指令完成操作任务,基于视觉信息定位任务目标,并利用音频信息识别目标物体。当机器人收到给定的自然语言指令时,例如“拿起装有胶囊的瓶子并将其放入左侧的盒子中”。这就需要机器人通过捕捉视觉信息来定位场景中的瓶子和盒子,并理解具有位置关系的语句来找到左边的盒子。对于视觉上相同的瓶子,机器人选择不同的操作行为,收集瓶子晃动的声音信息,进行区分,最终找到带有胶囊的目标瓶子。整个系统要求机器人正确理解给定的指令,并结合指令表达定位目标,实现相应的操作。
该系统的架构主要分为三个模块,即视觉语言感知模块、音频感知模块和机器人操作模块。首先,将文本指令和视觉信息输入到视觉语言模块中,以定位可能的目标对象。当视觉信息不足以判断目标物体的类别时,机器人的操作模块会产生不同的动作来摇动目标。声音传感器记录声音信息。音频感知模块对其进行分析,识别指令涉及的目标物体,并完成相应的操作任务。
02 机器人视听模型
针对不同的感知模块,利用深度学习算法设计相应的网络来构建整个系统。本文的模型分为指令表达模型、音频分类模型和机器人操作模型。
2.1 指示性表达模型
与基本的目标检测不同,本文利用操作指令中涉及的对象引用关系来匹配视觉信息,并利用高层语义关系来定位目标对象。
对于给定的图像I,任务目标是定位图像I中的子区域,该子区域对应于操作指令中的语义信息。对于操作指令,每个单词首先被编码成一个one-hot向量,然后使用循环神经网络提取其编码的文本特征。
对于图像部分,使用在ImageNET上预训练的卷积神经网络来提取其图像特征,并使用YOLO来提取图像内的候选目标。对于完整的操作说明,分为三个部分,即主题描述、职位描述和关系描述。对于不同的句子部分,利用语言注意机制网络提取其对应的权重,并将其与图像特征进行匹配。
本文的指令表达模型如图2所示。图像编码部分使用Darknet53和特征金字塔网络提取原始图像I不同尺度的特征。
图2 指示性表达模型
在指令编码部分,使用one-hot编码将操作指令转换为one-hot代码形式:
将编码后的词向量按正向和反向顺序送入双向GRU网络,得到对应文本的特征:
将提取的文本特征连接起来以获得上下文语义特征向量。使用上采样过程将文本特征映射到与图像特征相同的维度进行融合:
式中: 为激活函数, 为对应的参数矩阵, 为点积。利用多模态融合特征对目标检测器生成的候选区域进行匹配,得到候选区域:
其中:sum为对应的学习参数,sum为对应的偏差系数,为矩阵乘法。最终目标区域选择两者之间得分最高的区域作为最终预测位置。该区域由组合向量表示,分别表示预测帧的坐标和大小。
2.2 音频分类模型
针对机器人的听觉感知部分,本文设计了音频分类模型,对采集到的声音信号进行预测和分类。为了将结构化声音输入到模型中,需要提取声音信号中独特的梅尔频率倒谱系数(MFCC)特征。首先对时域信号进行预加重,滤波器系数=0.97滤除低频噪声并保留高频分量的信息:
然后将处理后的特征分割成N帧,利用汉明窗提取局部稳定信号:
对分割后的信号进行短时傅里叶变换和梅尔滤波,以获得对数频率尺度的特征。为了减少特征之间的线性相关性,取低频系数进行离散余弦变换:
式中:M为梅尔滤波器个数; L 是顺序。最后对变换后的特征进行归一化,以提高音频信号的信噪比,最终得到可以输入到模型中的MFCC特征。
音频分类模型的主要网络结构如图3所示,提取不同机械臂运动产生的音频信号,并与MFCC特征拼接。为了保证声音信号的连续性,采用双向GRU作为主要特征处理网络。同样,在双向GRU网络中加入残差边缘结构,缓解梯度爆炸问题,保证整个音频分类模型的准确性。作为分类模型,添加了全连接层和softmax函数作为最终分类结果的预测。
图3 音频分类模型
2.3 机器人运行模型
机器人的运行模型主要控制机器人手臂各轴的旋转,以产生机器人的各种行为。每种行为如图4所示。具体命名方法为:Pick、Place、Roll、Shake 1(Yaw)、Shake 2(Pitch)、Shake 3(Shake)。它们包括机器人在操作单个物体时的拾取和放置行为,以及通过操纵相应机械臂端(x,y,z)轴的不同旋转角度而获得的相应摇动动作。因此,在设计的控制任务中,将机器人的操作动作空间规划为{Pick、Roll、Yaw、Pitch、Shake、Place}。对于本文来说,抓取目标统一设置为单一类别,因此设置固定的旋转角度以获得最佳抓取姿势。根据不同的任务要求,机器人选择相应的动作来完成操作命令。
图4 机械臂行为
当机器人收到特定的控制指令时,通过视觉分析获得可控目标点,并执行相应的控制行为。机械臂的具体流程图如图5所示。以当前场景状态为初始状态,通过顺序决策依次执行动作空间中的各个动作,并判断任务是否完成。当执行最后一个放置动作时,当前动作结束。操纵模型的行为。其中,任务操作坐标和目标任务坐标由视觉感知模块提供,即通过指令表达模型生成机械臂可操作的目标位置;对于操作任务的完成状态,需要获取容器中正确的目标物品,音频感知模块可以对采集到的音频信号进行分类。一旦操作指令涉及的目标对象被正确分类,则将下一状态设置为放置状态。否则,放回原处,重新操作下一个目标对象。
图5 机器人作业流程
03 实验
3.1 实验平台
本实验采用UR5机械臂和五指灵巧手作为整个实验平台的抓取设备。灵巧手采用5指设计,连杆传动,具有6个自由度,可以保证瓶子的固定抓取。视觉上,Kinect相机用于捕获RGB图像和深度图像,听觉上,RODE麦克风固定在机械臂末端下方,用于收集和接收摇动瓶子的声音信号。这样可以缩短声源和采集设备之间的距离,更容易捕捉声音特征。整个实验数据的分析是在NVIDIA 2070的PC上进行的,整个实验平台如图6所示。
图6 数据差异分析
3.2 数据集收集
3.2.1 操作指令设计
本文设计的操作指令从机器人动作方面主要分为两类,即{抓取、释放};对于物体之间的位置关系,由{左、右、中、前、后}组成;对于物体的位置来说,对于其本身的属性来说,主要选择颜色属性,包括{绿,蓝,红}。根据对象类别、属性、位置关系模板交叉组合生成操作指令,满足实际操作需求。例如“拿起中间的瓶子,放入绿色的碗中”、“拿起装有山楂的瓶子,放入左边的碗中”。机器人通过这些操作指令完成人类分配的操作任务。
3.2.2 交互式听觉数据采集
根据各类中药材的不同特点,本实验选取了12种常见药材,如图7所示,包括胶囊、酒类、红枣、片剂、生山楂、丸剂、决明子、生牡蛎、蜡丸、蝉蜕。颗粒和空瓶。为了获得数据的多样性,选取了1/4、1/2、2/3瓶含量的数据。通过结合机械臂的运动特性,选择4种不同的动作{Roll、Yaw、Pitch、Shake}对每种类型的物品进行20次采样。每个声音信号均以44.1 kHz 采样。根据机械臂的运动时长,将单个目标类型的音频时长设置为6000ms。总共收集了960 组数据作为声音数据集。
图7 硬件架构
针对不同类型的声音数据,选取代表性项目的声音信号绘制时域图和声谱图进行比较。如图8所示,在四个机器人的动作下,山楂和药丸的声音有相当大的差异。对于相似的声音信号,转换成声谱图后,在不同区域也表现出明暗差异,这为后处理时送入循环神经网络进行分类提供了有效保证。
图8 数据集类型
3.2.3 预处理交互式听觉数据
在实际采集声音数据的过程中,机械臂在执行四种动作时,其运动时长和自身的运动噪声都有所不同。这些噪声与运动的幅度、速度、加速度有关,会影响采集的声音数据和实验结果。某些效果,以减少非目标物体声音的影响。本文采用噪声抑制流程,如图9(a)所示。音频信号未超过阈值的区域被标记为黄色区域。这部分区域将被淘汰,绿地用于训练。通过使用信号包络设置阈值,如图9(b)所示,可以有效提供目标分类精度。
图9 信号区域选择
3.3 实验设置及评价指标
实验场景按照设计的操作指令和目标物体之间的关系布置。根据视觉和听觉识别的难度,场景操作任务分为三类:第一类场景探索物体的不同位置关系。诸如“找到胶囊并将其放在左侧“碗中”等指令;第二类场景探索物体的属性关系,具有“找到所有装有胶囊的瓶子,并将其放入绿色碗中”等指令”;第三类探索物体的类别关系,其指令为“找到装着胶囊的瓶子,放在苹果旁边的碗里”。实验的目的是根据给定的操作指令,整个机器人系统能够理解指令,定位具有指示关系的物体,利用听觉系统对目标进行分类和预测,并成功放置完成最终实验。本文定义了一种离线实验机制,设置场景状态{bottle1,bottle2 、bottle3、bowl1、bowl2},机械臂的状态{Pick、Roll、Yaw、Pick、Shake、Place},并通过设置的顺序执行机械臂的动作,如{move Bottle1》pick Bottle1》check Bottle1 》place Bowl1},结合视听感知模型,依次更新目标状态池{bottle1:Tablet》bowl1:left},完成操作任务。根据实验任务,定义了三类实验指标:
目标识别准确率(TRA):是否检测到正确操作的目标物体
音频识别准确度(ARA):指令中的目标物体是否被正确识别
总体任务成功率(OTSR):指令中位置关系的检测是否完成。
通过设计上述三个精度指标来验证本文视听系统的可行性。
04 实验结果
4.1 目视检查结果
本文选取了一些在指定场景下进行检测的操作说明。对于颜色、形状、尺寸相同的瓶子,本文选择使用听觉感知来识别类别。对于碗类,利用视觉指示表达来定位目标物体。操作指令主要包括目标的位置关系、颜色属性关系以及与其他目标的方位关系。准确率保持在70%以上,绘制了对应的可视化结果,如图10所示。在三类测试场景中,红框为对应操作指令的正确结果,蓝框为音频-本文在实际机器人系统下的视觉模型。检查结果。
图10 目视检查结果
4.2 听觉分类结果
为了使整个机器人听力系统有效工作,需要验证每个音频类别的准确性。根据本文采集的12类音频数据,在设计的循环神经网络模型上计算分类结果,得到最终的模型分类混淆矩阵,如图11所示。
图11 所有类别的混淆矩阵计算
从图11的结果可以看出,不同药材的准确率是不同的。对于声音信号明显的片剂、蜡丸,在我们设计的分类模型下,准确率保持在90%以上;而对于牡蛎和空瓶来说,由于这两类瓶子中的物体与瓶臂碰撞的声音较小,环境噪声较多,因此预测的实验结果的准确性相对较低,但仍然保持了超过70%。因此,本文设计的音频识别模型可以识别和预测不同类别的材料。
4.3 总体任务结果
对于整个系统的运行任务,本文根据4.2节设计的评价指标进行验证。对于每个实验场景,根据物体的类别、属性关系、方位关系进行测试,分别测试目标准确率和音频识别准确率。当两者均成功识别后,计算总体任务成功率,结果如表1所示。
表1 总体实验结果
根据实验结果分析,由于三类测试场景整体都比较干净清晰,对于关系的直观指示来说,目标准确度结果都比较高。根据不同的指令要求,音频识别的准确率有所不同,因此整个任务的整体成功率也有所不同。在第一类操作指令下,仅定位单一类别的目标,无需检索所有候选目标。因此,与第二类操作指令相比,音频识别的准确率更高。对于第三类探索性指令,随着物体种类的增多和场景复杂程度的增加,整体视觉识别率相对下降,而操作任务简单,因此整体音频识别率相对上升。
为了进一步验证本文机器人视听操作系统的实用性,在相同的场景和指令下,设计了如图12所示的非听觉检测模块。选择项目的方法遵循统一的规则采样完成操作任务。由于实验的目的是验证整个系统,而抓取任务并不是研究的重点,因此当机械臂的五指灵巧手抓取失败时,将目标物体放在手掌上,以保证实验顺利进行。在对比实验中,本文选择同一场景进行测试并计算OTSR指数。视听框架的准确率可以达到45.4%,而视听框架的准确率只有24.7%。可以发现,结合多模态数据,机器人感知目标更加准确,能够有效提高任务成功率。
图12 多模态系统实验对比流程
05 结论
为了给机器人提供更复杂的操作能力,本文构建了一个可以接收自然语言指令并具有视觉和听觉多模态融合的机器人操作系统。视觉感知模块可以分析指令中的指令关系并定位目标物体,听觉感知模块可以预测目标物体类别。对于每个感知模块,在构建的多模态数据集中进行实验验证。结果表明,本文的实验系统在接收多模态数据时比单一模态具有更强的性能能力。但目前本文设计的操作说明和场景比较单一。在未来的工作中,我们将继续增加目标物品的类型,设计更加复杂、模糊的场景和操作指令,构建端到端的机器人行为框架。
审稿人:李茜