首页 > 技术知识 > 正文

热插拔即带电插拔,在虚拟化场景下,热插拔就是在虚拟机运行过程中对磁盘网卡等设备进行动态调整。

常见的热插拔机制有 ACPI 机制的热插拔,PCIe-Native 机制的热插拔。ACPI 机制的热插拔依赖 ACPI 表,在 ACPI 表中会存放设备热插拔相关的信息。PCIe-Native 机制的热插拔是 PCI 规范中定义的,设备一般是热插到 Root Port 设备上,Root Port 设备可以认为是一个虚拟的桥设备,对应一个插槽。Root Port 设备本身不支持热插拔,因此需要在启动虚拟机前提前配置。

目前,StratoVirt 标准机型中实现了基于 PCIe-Native 机制的热插拔。支持热插拔的设备包括磁盘、网卡、PCI 直通设备。

热插拔的整体流程如下:

基于PCIe-Native机制的热插拔-热插 pci 设备

对于热插主要分为两步:

用户通过 QMP 下发 device_add 命令,StratoVirt 收到命令后会进行设备的实例化,然后插入到对应的 Root Port 设备上。 Root Port 设备更新相关的寄存器配置,然后发送中断通知虚拟机内驱动处理。

对于热拔也可以分为两步:

用户通过 QMP 下发 device_del 命令,StratoVirt 收到命令后,更新 Root Port 中的寄存器,然后发送中断通知虚拟机内驱动处理。 虚拟机内驱动处理后会回写寄存器,触发 StratoVirt 侧销毁相应设备。

具体实现

在 StratoVirt 的 pci/src/hotplug.rs 文件中定义了热插拔特性,其中 plug 函数对应热插操作,用于热插设备。unplug_request 函数对应热拔操作,用于发起热拔设备请求,这里只是通知虚拟机内驱动去处理热拔请求,还未移除设备,可以理解为是一个异步请求。当虚拟机内驱动处理完成后,写寄存器触发设备下线后,会回调 unplug 函数用于销毁设备。

复制pub trait HotplugOps: Send {复制 /// Plug device, usually called when hot plug device in device_add.复制 fn plug(&mut self, dev: &Arc 复制 /// Unplug device request, usually called when hot unplug device in device_del.复制 /// Only send unplug request to the guest OS, without actually removing the device.复制 fn unplug_request(&mut self, dev: &Arc 复制 /// Remove the device.复制 fn unplug(&mut self, dev: &Arc复制}

热插实现

StratoVirt 里通过给 RootPort 实现了 HotplugOps 特性,使得 PCI 设备能够热插到 Root Port 设备上。

设备热插的主要实现逻辑在 plug 函数里。首先获取了设备的 devfn 号,也就是 Device 号和 Function 号,目前热插只支持 Device 号和 Function 号都为 0 的设备。因此这里做了判断。

然后会在 RootPort 设备的 PCI 配置空间中的 PCI Express Capability(PCI 配置空间和 PCI Express Capability 寄存器定义可以参考 PCI 规范)中设置 Slot 状态寄存器和 Link 状态寄存器,然后通过 hotplug_event_notify 函数发送中断通知虚拟机。这里热插设备主要是通过 Attention Button Pressed(对应 PCI_EXP_HP_EV_ABP)事件触发的。

这里简单介绍下不同标记位的含义。

符号 描述 PCI_EXP_SLTSTA Slot Status Register 表示 Slot 状态寄存器,不同的位表示 Slot 不同的状态 PCI_EXP_SLTSTA_PDS Presence Detect State 表示 Slot 上设备的在位状态,置 1 表示在位 PCI_EXP_HP_EV_PDC Presence Detect Changed 表示 Slot 上设备在位状态是否发生变化 PCI_EXP_HP_EV_ABP Attention Button Pressed 表示 Attention 按钮被按下,该按钮用于触发热插拔操作 PCI_EXP_LNKSTA Link Status Register 表示 Link 状态的寄存器 PCI_EXP_LNKSTA_DLLLA Data Link Layer Link Active 表示数据链路控制和管理状态,置 1 表示处于 Active 状态 复制impl HotplugOps for RootPort {复制 fn plug(&mut self, dev: &Arc复制 let devfn = dev复制 .lock()复制 .unwrap()复制 .devfn()复制 .chain_err(|| “Failed to get devfn”)?;复制 // Only if devfn is equal to 0, hot plugging is supported.复制 if devfn == 0 {复制 let offset = self.config.ext_cap_offset;复制 le_write_set_value_u16(复制 &mut self.config.config,复制 (offset + PCI_EXP_SLTSTA) as usize,复制 PCI_EXP_SLTSTA_PDS | PCI_EXP_HP_EV_PDC | PCI_EXP_HP_EV_ABP,复制 )?;复制 le_write_set_value_u16(复制 &mut self.config.config,复制 (offset + PCI_EXP_LNKSTA) as usize,复制 PCI_EXP_LNKSTA_NLW | PCI_EXP_LNKSTA_DLLLA,复制 )?;复制 self.hotplug_event_notify();复制 }复制 Ok(())复制 }复制}

在 hotplug_event_notify 函数中会调用 MSIX 中断的 notify 函数发送中断到虚拟机内,虚拟机内 pciehp 驱动收到中断后会处理相关的热插请求。

复制fn hotplug_event_notify(&mut self) {复制 if let Some(msix) = self.config.msix.as_mut() {复制 msix.lock()复制 .unwrap()复制 .notify(0, self.dev_id.load(Ordering::Acquire));复制 } else {复制 error!(“Failed to send interrupt: msix does not exist”);复制 }复制}

热拔实现

对于设备热拔请求的逻辑主要在 unplug_request 函数,该函数负责更新寄存器,并且通过调用 hotplug_event_notify 函数发送中断通知虚拟机内驱动处理设备热拔请求。

unplug_request 函数里主要是清零了 Link 状态寄存器中的 PCI_EXP_LNKSTA_DLLLA 标记位,并且在 Slot 状态寄存器中的设置了 PCI_EXP_HP_EV_ABP 标记位。从这里也可以发现,其实无论是热插请求还是热拔请求,都是通过 Attention Button Pressed(对应 PCI_EXP_HP_EV_ABP)事件触发的,虚拟机内驱动会根据设备的在位状态来判断是热插请求还是热拔请求。

复制impl HotplugOps for RootPort {复制 fn unplug_request(&mut self, dev: &Arc复制 let devfn = dev复制 .lock()复制 .unwrap()复制 .devfn()复制 .chain_err(|| “Failed to get devfn”)?;复制 if devfn != 0 {复制 return self.unplug(dev);复制 } 复制 let offset = self.config.ext_cap_offset;复制 le_write_clear_value_u16(复制 &mut self.config.config,复制 (offset + PCI_EXP_LNKSTA) as usize,复制 PCI_EXP_LNKSTA_DLLLA,复制 )?; 复制 let mut slot_status = PCI_EXP_HP_EV_ABP;复制 if let Some(&true) = FAST_UNPLUG_FEATURE.get() {复制 slot_status |= PCI_EXP_HP_EV_PDC;复制 }复制 le_write_set_value_u16(复制 &mut self.config.config,复制 (offset + PCI_EXP_SLTSTA) as usize,复制 slot_status,复制 )?;复制 self.hotplug_event_notify();复制 Ok(())复制 }复制}

对于热拔设备,StratoVirt 侧在更新寄存器发送中断通知虚拟机内驱动后,实际上还没有真正的移除设备,而是等到虚拟机内驱动处理后回写寄存器通知 StratoVirt 侧下线设备后,才会真正销毁设备。

虚拟机内驱动写 Root Port 寄存器会调用到 write_config 函数,在 write_config 函数里会调用 do_unplug 函数来处理热拔设备相关的逻辑。

复制 fn write_config(&mut self, offset: usize, data: &[u8]) {复制 复制 self.do_unplug(offset, end, old_ctl);复制 }

do_unplug 函数里首先保证了写入的寄存器是 Slot Control 寄存器,否则直接返回,不做处理。然后判断在设备当前在位的情况下,写入的寄存器标记位为 PCI_EXP_SLTCTL_PWR_IND_OFF 和 PCI_EXP_SLTCTL_PCC 时,并且这两个标记位发生了变化,也就是写入之前的没有这两个标记位,上述条件都满足时,会调用 remove_devices 函数开始真正销毁设备。

符号 描述 PCI_EXP_SLTCTL_PCC Power Controller Control 表示电源管理状态,置 1 表示上电状态 PCI_EXP_SLTCTL_PWR_IND_OFF Power Indicator off 表示是否允许移除设备,置 1 表示设备允许被移除 复制fn do_unplug(&mut self, offset: usize, end: usize, old_ctl: u16) {复制 let cap_offset = self.config.ext_cap_offset;复制 // Only care the write config about slot control复制 if !ranges_overlap(复制 offset,复制 end,复制 (cap_offset + PCI_EXP_SLTCTL) as usize,复制 (cap_offset + PCI_EXP_SLTCTL + 2) as usize,复制 ) {复制 return;复制 } 复制 let status =复制 le_read_u16(&self.config.config, (cap_offset + PCI_EXP_SLTSTA) as usize).unwrap();复制 let val = le_read_u16(&self.config.config, offset).unwrap();复制 // Only unplug device when the slot is on复制 // Dont unplug when slot is off for guest OS overwrite the off status before slot on.复制 if (status & PCI_EXP_SLTSTA_PDS != 0)复制 && (val as u16 & PCI_EXP_SLTCTL_PCC == PCI_EXP_SLTCTL_PCC)复制 && (val as u16 & PCI_EXP_SLTCTL_PWR_IND_OFF == PCI_EXP_SLTCTL_PWR_IND_OFF)复制 && (old_ctl & PCI_EXP_SLTCTL_PCC != PCI_EXP_SLTCTL_PCC复制 || old_ctl & PCI_EXP_SLTCTL_PWR_IND_OFF != PCI_EXP_SLTCTL_PWR_IND_OFF)复制 {复制 self.remove_devices(); 复制 if let Err(e) = self.update_register_status() {复制 error!(“{}”, e.display_chain());复制 error!(“Failed to update register status”);复制 }复制 } 复制 self.hotplug_command_completed();复制 self.hotplug_event_notify();复制}

在调用 remove_devices 函数移除设备之后,调用 update_register_status 函数更新寄存器的状态,主要是清理了 Link 状态和设备在位状态,并且设置了 Presence Detect Changed(对应 PCI_EXP_HP_EV_PDC)标记位表示设备在位状态发生了变化。

复制/// Update register when the guest OS trigger the removal of the device.复制fn update_register_status(&mut self) -> Result<()> {复制 let cap_offset = self.config.ext_cap_offset;复制 le_write_clear_value_u16(复制 &mut self.config.config,复制 (cap_offset + PCI_EXP_SLTSTA) as usize,复制 PCI_EXP_SLTSTA_PDS,复制 )?;复制 le_write_clear_value_u16(复制 &mut self.config.config,复制 (cap_offset + PCI_EXP_LNKSTA) as usize,复制 PCI_EXP_LNKSTA_DLLLA,复制 )?;复制 le_write_set_value_u16(复制 &mut self.config.config,复制 (cap_offset + PCI_EXP_SLTSTA) as usize,复制 PCI_EXP_SLTSTA_PDC,复制 )?;复制 Ok(())复制}

在更新完寄存器后,在 hotplug_command_completed 还会设置 Command Completed(对应 PCI_EXP_HP_EV_CCI)表示命令处理完成,最后再发送中断通知虚拟机内驱动。至此,整个设备热拔流程就结束了。

复制fn hotplug_command_completed(&mut self) {复制 if let Err(e) = le_write_set_value_u16(复制 &mut self.config.config,复制 (self.config.ext_cap_offset + PCI_EXP_SLTSTA) as usize,复制 PCI_EXP_HP_EV_CCI,复制 ) {复制 error!(“{}”, e.display_chain());复制 error!(“Failed to write command completed”);复制 }复制} 符号 描述 PCI_EXP_HP_EV_CCI Command Completed 表示命令处理完成,可以处理下一条命令

总结

PCIe Native 机制的热插拔主要是通过 Root Port 设备上的寄存器来表示不同状态,通过中断来通知虚拟机,从而实现了设备的热插拔。

审核编辑:汤梓红

猜你喜欢