如何解析Linux/Unix系统中主机HBA无法发现LUN路径显示错误及LUN相关错误

146次阅读

共计 6242 个字符，预计需要花费 16 分钟才能阅读完成。

行业资讯
服务器
如何解析 Linux/Unix 系统中主机 HBA 无法发现 LUN 路径显示错误及 LUN 相关错误

如何解析 Linux/Unix 系统中主机 HBA 无法发现 LUN 路径显示错误及 LUN 相关错误，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

Linux/Unix 系统几个常见的 SCSI 故障如：主机 HBA 无法发现 LUN，路径显示错误，同一个 LUN 显示重复的 LUN ID，故障切换问题，重新扫描磁盘问题等，并列出相关解决方法。问题 1: 如何通过 iSCSI 在 Linux 动态发现新 LUNs？平台：RedHat Linux, SuSE Linux 问题描述：无法动态发现新磁盘设备根本原因：iSCSI…

Linux/Unix 系统几个常见的 SCSI 故障如：主机 HBA 无法发现 LUN，路径显示错误，同一个 LUN 显示重复的 LUN ID，故障切换问题，重新扫描磁盘问题等，并列出相关解决方法。

问题 1: 如何通过 iSCSI 在 Linux 动态发现新 LUNs？

平台：Red Hat Linux, SuSE Linux

问题描述：无法动态发现新磁盘设备

根本原因：

iSCSI 驱动可在 Ethernet 上动态发现目标存储系统，然而，它无法动态发现存储系统上的 LUN。Linux 操作系统的 SCSI 中间层负责发现 LUN。因此，通过 Fibre Channel，用户必须重新扫描 SCSI 总线以发现新添加 LUN，用户可通过重启服务器或重新加载 iSCSI 模块实现上述操作。

解决方法：

root 权限使用以下命令在 RHEL 3, RHEL4, SLES 8, SLES 9, Asianux 1.0, and Asianux 2.0 上重新加载 iSCSI 驱动：

# /etc/init.d/iscsi restart

在 RHEL5 和 SLES 10 上作为 root 使用以下命令：

RHEL5：

# /etc/init.d/iscsid restart

SLES 10：

# /etc/init.d/open-iscsi restart

或

# /sbin/iscsiadm -m session –R

问题 2:Linux 是否需要 LUN 0？

平台：Linux

问题描述：

1. /proc/scsi/scsi 每条路径只包含一个 DGC LUN Z。

2. /proc/scsi/qla2?00/[0-9] 显示除了 LUN 0 以外的所有 LUN，星号标记显示没有 SCSI 注册。

3. Emulex HBA 已在 FA 注册但 /proc/scsi/scsi 中没有 device entry。

根本原因：

Linux 2.4.x 内核对 LUN 0 使用 SCSI INQUIRY 命令以确定系统连接到何种类型的磁盘设备。如果没有 LUN 0，QLogic 和 Emulex 驱动将会返回错误而不是发 INQUIRY 命令给磁盘设备，因此，Linux 系统将无法自动扫描磁盘设备。须手动激活 LUN。

解决方法：

可通过以下方法解决此问题：

1. 映射一个 Gatekeeper 给 LUN 0。Linux 2.4 受到最大 SCSI 磁盘设备数量的限制，因此可能需要手动指定 HLU。

2. 手动扫描 LUN。用户须小心规划扫描时间。

3. 为 Linux SCSI 驱动打补丁（不推荐）。

详情请见 Primus Solution emc115253。

问题 3：Linux 主机 Emulex HBA 无法看见磁盘设备

平台：Linux Kernel 2.4

问题描述：

1. 主机在存储端注册并登记后无法看到任何磁盘设备。

2. 所有 lpfc 驱动实例文件（例如：/proc/scsi/lpfc/*）无法看见存储 WWN。

解决方法：

按照以下步骤进行操作：

1. 通过如下命令检查哪些模块依赖于 lpfc：

lsmod | grep lpfc
lpfc 243664 0 [lpfcdfc]

命令输出地黑体部分是正在使用 lpfc 的模块。在 lpfcdfc 被删除之前，lpfc 将无法删除。

2. 使用 rmmod 命令删除相关模块，命令格式如下：

rmmod lpfcdfc

当该命令执行成功，通过 lsmod 命令验证该模块已被删除。

3. 使用以下命令删除 lpfc 模块：

rmmod lpfc

4. 使用以下命令重新加载 lpfc 模块：

modprobe lpfc

5. 模块成功加载之后，将会初始化 PLOGI 及存储端口信息，将会在驱动实例文件中看到。

同时也会自动扫描磁盘设备，如果没有，运行命令 echo – – – /proc/scsi/scsi 扫描磁盘设备。

问题 4：powermt display dev=all Device(s) not found

平台：HP-UX, IBM AIX, Red Hat Linux, UNIX

软件：PowerPath 5.0

问题描述：使用命令 powermt display dev=all 无法查看新加 SCSI 磁盘设备

解决方法：在 emcgrab 日志 powermt display options 文件检查 PowerPath 阵列状态是否设置为“managed”，或在主机运行命令 powermt display options。

如果指定阵列设置为“unmanaged”，则输入以下命令：

powermt manage >

powermt display dev=all

powermt save。

问题 5：Linux 主机在 proc/scsi/scsi 中发现重复 LUN ID

平台：Red Hat Linux 5.3

产品：Symmetirx DMX-4，VMAX 系列

问题描述：

一个磁盘设备呈现给 2 个 HBA，每个 HBA 上通过 2 个不同 LUN ID 显示 2 个实例。主机应当在各 HBA 上看到相同的实例（LUN 16 而非 16 和 17），而不是两个不同的 LUN ID。

Host: scsi5 Channel: 00 Id: 02 Lun: 16

Vendor: EMC Model: SYMMETRIX Rev: 5772

Type: Direct-Access ANSI SCSI revision: 02

Host: scsi5 Channel: 00 Id: 02 Lun: 17

Vendor: EMC Model: SYMMETRIX Rev: 5772

Type: Direct-Access ANSI SCSI revision: 02

Host: scsi3 Channel: 00 Id: 02 Lun: 16

Vendor: EMC Model: SYMMETRIX Rev: 5772

Type: Direct-Access ANSI SCSI revision: 02

Host: scsi3 Channel: 00 Id: 02 Lun: 17

Vendor: EMC Model: SYMMETRIX Rev: 5772

Type: Direct-Access ANSI SCSI revision: 02

解决方法：

查看是否 SPC 2 和 SCSI 3 标记缺失。重新添加标记会解决此问题，主机必须重启以使更改生效。在 HBA 级别设置标记，例如：symmask -sid 308 -dir 8C -p 0 -wwn 10000000c99338ca set hba_flags on SPC2,SC3 –enable。

当磁盘设备设置了 SPC 2 和 SCSI 3 之后，proc/scsi/scsi 将会返回正确地 LUN ID。

问题 6：Linux 操作系统能否不重新加载 Linux 驱动而重新扫描磁盘设备？

平台：Red Hat Linux，SuSE Linux Enterprise Server(SLES)，QLogic，

问题描述：新 LUN 添加到存储阵列之后，无法通过操作系统的 QLogic HBA 驱动看到该设备。重启或重新加载驱动会造成生产中断。

解决方法：

按照以下步骤，强制驱动重新扫描目标设备，允许添加新磁盘设备。该步骤触发驱动初始化 LUN 发现进程。扫描顺序：首先驱动层（qla2300/qla2200 等），之后 Linux SCSI 中间层（即 OS 扫描）。

1. 1. 通过命令行强制扫描，输入以下命令：

# echo scsi-qlascan /proc/scsi/ driver_name / adapter_ID

driver_name 是 qla2100, qla2200, qla2300（2.4 内核驱动）或 qla2xxx（2.6 内核驱动）adapter_ID 是 HBA 实例编号。

2. 2. 执行步骤 1 之后，通过以下命令强制 SCSI 中间层执行扫描并为新加磁盘设备添加 device table entry。

# echo scsi add-single-device 0 1 2 3 /proc/scsi/scsi

0 1 2 3 是“主机通道 LUN”。

问题 7：Red Hat Linux 收到 SCSI 错误返回值 0x20000

平台：Red Hat Enterprise Linux 4 U2 及以上版本，QLogic，PowerPath

问题描述：

1. 1. Red Hat Linux 收到 SCSI 错误返回值 0x20000。

2. 2. kernel: SCSI error : 1 0 7 206 return code = 0x20000
kernel: end_request: I/O error, dev sdik, sector 4069594

根本原因：

当一个端口被禁止，拔出，或重置光纤通道交换机通常会导致一个 RSCN（Registered State Change Notification）事件，所有仍连接在交换机上的 HBA 都会看到该 RSCN 事件。在没有预警的情况下，多路径软件（PowerPath, DMP, MPIO）将会无法判断。

注意：返回值 0x20000 表示 DID_BUS_BUSY。并非所有 0x20000 错误都是由 RSCN 事件引起。Fabric 或阵列故障也可能导致该错误。用户不应假设 RSCN 一定是导致该错误发生的原因。

解决方法：

要正确地解释 RSCN 事件，须在 modprobe.conf 文件中添加一个内核选项。须重启以使更改生效。

1. 1. 编辑 /etc/modprobe.conf 并添加以下一行内容：

options qla2xxx ql2xprocessrscn=1

2. 2. 保存文件。

3. 3. 重新编译 initrd。

mkinitrd -f /boot/initrd-`uname -r`.img `uname -r`

4. 重启系统以使更改生效。

问题 8：Linux 主机在 /proc/scsi/scsi 中只能看到一条路径连接存储

平台：SLES 9，SLES 10，QLogic 8.01.06.01，PowerPath 5.0.1

问题描述：

1. SuSE Linux 在 /proc/scsi/scsi 中只看到一条路径连接存储。

2. PowerPath 只显示一条路径连接到 emcpower 设备。

3. 即使配置了 4 条路径，/proc/scsi/scsi 也只显示一条路径连接到磁盘设备

Attached devices:
Host: scsi0 Channel: 00 Id: 00 Lun: 00
Vendor: DGC Model: RAID 5 Rev: 0324

Type: Direct-Access ANSI SCSI revision: 04

powermt display dev=all displays only one path to the emcpower device:

Pseudo name=emcpowera
CLARiiON ID=CK200072300649 [SG_LINUXTST01]
Logical device ID=60060160128C1D00D8D768A3915BDC11 [fiscuat2 DATA]
state=alive; policy=BasicFailover; priority=0; queued-IOs=0
Owner: default=SP B, current=SP B
==============================================================================
—————- Host ————— – Stor – — I/O Path – — Stats —
### HW Path I/O Paths Interf. Mode State Q-IOs Errors
==============================================================================
0 qla2xxx sda SP B0 active alive 0 0

根本原因：

如果用户阻止 PowerPath 显示交换机上连接 HBA0 的端口，路径将会故障切换。PowerPath 显示 LUN 并没有被另一个 HBA 通过另一个 SP 访问。（LUN 将会 trespass）。信息显示如下：

Jan 29 16:01:07 linuxtst01 kernel: qla2400 0000:08:00.0: LOOP DOWN detected (2).
Jan 29 16:01:18 linuxtst01 kernel: qla2x00: FAILOVER device 0 from 5006016039a028a8 – 5006016839a028a8 – LUN 00, reason=0x2
Jan 29 16:01:18 linuxtst01 kernel: qla2x00: FROM HBA 0 to HBA 0
Jan 29 16:01:19 linuxtst01 cmafcad[6362]: Host controller 129 status change.Status is now Loop Degraded.
Jan 29 16:01:21 linuxtst01 kernel: qla2x00: FAILOVER device 0 from 5006016839a028a8 – 5006016a39a028a8 – LUN 00, reason=0x2
Jan 29 16:01:21 linuxtst01 kernel: qla2x00: FROM HBA 0 to HBA 0
Jan 29 16:01:23 linuxtst01 kernel: qla2400 0000:08:00.0: Scheduling rescan for new luns…
Jan 29 16:01:23 linuxtst01 kernel: qla2400 0000:08:00.1: Scheduling rescan for new luns…
Jan 29 16:01:24 linuxtst01 kernel: qla2x00: FAILOVER device 0 from 5006016a39a028a8 – 5006016939a028a8 – LUN 00, reason=0x2
Jan 29 16:01:24 linuxtst01 kernel: qla2x00: FROM HBA 0 to HBA 1

很明显 PowerPath 没有进行故障切换，但 QLogic 本机的故障切换被激活了。

检查 /etc/modprobe.conf (RHEL 主机) 或 /etc/modprob.conf.local (SuSE 主机) 的 ql2xfailover 参数。

解决方法：

更改 ql2xfailover 参数值为 0 以禁止本机故障切换。在 /etc/modprobe.conf 中添加 options qla2xxx ql2xfailover=0 ConfigRequired=0，重新编译 initrd 并重启。重启之后，确认 cat /sys/module/qla2xxx/parameters/ql2xfailover 返回 0。

看完上述内容，你们掌握如何解析 Linux/Unix 系统中主机 HBA 无法发现 LUN 路径显示错误及 LUN 相关错误的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注丸趣 TV 行业资讯频道，感谢各位的阅读！

正文完