我们在管理维护网络的过程中经常会遇到数据包丢失的现象。使用 Ping 命令进行连通性测试,则会发现 Ping 包延时远远超过正常值,甚至无法到达,同时还伴随着网络服务应用障碍,如打开网站速度很慢,严重时甚至打不开网页,在线浏览视频或者召开视频会议时话音断断续续、图像马塞克、断线等。
所谓网络丢包是我们在使用 ping 命令(检测某个系统能否正常运行)对目的站进行询问时,数据包由于各种原因在信道中丢失的现象。Ping 命令使用了 ICMP 回送请求与回送回答报文。ICMP 回送请求报文是主机或路由器向一个特定的目的主机发出的询问,收到此报文的机器必须给源主机发送 ICMP 回送回答报文。这种询问报文用来测试目的站是否可到达以及了解其状态。需要指出的是,ping 命令是直接使用网络层 ICMP 协议的一个例子,它没有通过运输层的 UDP 或 TCP 协议。
网络丢包是网络中常见的故障之一,它会引起网速降低甚至造成网络中断,本文就在日常的网络管理工作中常见的几种丢包故障现象进行了分析和探讨并提出了处理方法。
发生网络故障在所难免,但是如何快速隔离和排除故障是网络管理人员应该具备的基本素质。以下列举几种常见的网络丢包故障现象及处理方法。
故障一:网络数据包发送时通时断,丢包严重
故障现象:
通常故障发生时,该方向网络出现震荡性中断。使用 Ping 命令测试,发现在一段时间内数据包发送延时比正常值略高,间隔一小段时间数据包又全部丢失,丢包率超过 60%,丢包曲线成规则状,网络服务基本不可用。
故障分析:
在局域网中引起网络发生振荡性时断时通,一般可能是由于互连的交换机中的某两个交换机间出现了环路,或者某个交换机的两个端口直接相连。这样就会造成局域网的生成树协议构建失败,不断重复检查并试图构建新的生成树网络,从而导致网络振荡性通断,同时伴随着交换机间不断重复地发送广播包,就会形成“广播风暴”,使交换机负担过重,网络传输通道严重被堵塞,无法正常的处理通信数据。环路虽然可能出现在某个接入交换机上,但会影响整个以三层交换机为核心的局域网的稳定运行。
故障处理:
当发现网络数据包发送时通时断,丢包严重,特别是整个单位或整个楼层出现振荡性中断现象时,则可以判定应该是该单位的某个交换机上出现了环路所致。作为网络管理人员应首先查看各接入交换机的指示灯闪烁状态,通常出现环路状况会指示灯会急速闪烁,次数每秒 4 次以上,所环交换机更为突出。逐个拨出交换机级联接入网线,同时实时监控交换机状态,在拨下某端口网线后,交换机指示灯恢复正常状态,再进一步查找,会发现该连接线的末端有线路形成环路,清理该网线后,网络恢复畅通。
故障二:网络数据包发送超时现象严重,时有不规则丢包
故障现象:
网络突然出现严重堵塞,日常办公程序不能正常运行,打开网页速度缓慢,有时会因超时而中断。未发现网络设备有任何问题,该网络中有几台计算机在入网后速度明显变慢,在禁用网卡或者中断网络后恢复正常。
故障分析:
首先,在一台用户终端上 ping 网关测试,结果可以 ping 通网关,但是数据包发送超时现象严重,丢包率 30%左右,丢包不规律。
其次,登陆用户交换机,运行 arp -a 命令,发现网关 IP 和网关 MAC 地址指向正确。通过上面的测试基本排除网络设置错误以及 ARP 欺骗,丢包表现了一定的随机性而没有连续性和振荡性的通断,基本排除网络环路问题,初步判断这种现象可能是病毒攻击等引起的。为此,需要进一步获取 ARP 信息、网络中传输的原始数据包等信息。
再次,部署抓包分析。在该交换机上配置镜像端口,并将维护终端接到此端口上,启动网络协议分析工具(sniffer)捕获分析网络的数据通信,约 10 分钟后停止。在网络分析系统主界面左边的节点浏览器中发现,网络中可能存在伪造 IP 地址攻击或自动扫描攻击。选择连接视图,发现在 10 分钟内,网络中共发起了 12000 多个连接,且状态大多都是客户端请求同步。据此,断定网络中存在自动扫描攻击。
最后,详细查看连接信息,发现这些连接大多都是由同一主机发起,选中任意一个连接,选择数据包视图,查看传输数据的原始解码信息,发现这台计算机正在主动对网络中其它主机的 TCP 445 端口进行扫描攻击,可能是主机感染病毒程序,或者有人正使用扫描软件。通过分析图表视图,进一步确定主机肯定存在自动扫描攻击。
故障处理:找到问题根源后,对主机进行隔离,经过一段时间的测试,网络丢包现象有所缓解,但没有从根本上解决问题。于是再次启动网络协议分析系统捕获并分析,又发现了 1 台相似情况的主机。据此基本可以断定两台主机都是感染了病毒,且该病毒会主动扫描网络中其他主机是否打开 TCP 445 端口,如果某主机打开该端口,就攻击并感染这台主机。如此循环,即引发了上述的网络故障。立即对新发现感染病毒的两台主机进行物理隔离,网络通信立刻恢复正常,再对该终端进行杀毒处理。
故障三:网络数据包发生严重延时现象,下载、浏览等服务不能正常使用
故障现象:局域网内部日常数据共享正常,但是出局浏览外网和下载数据时速度明显降低,使用 Ping 命令发现到某个方向网络时延特别大,甚至有少量丢包现象。
故障分析:一般通过 telnet 远程登陆到该方向的交换机,以华为系列交换机为例,输入下列命令:
#Display cpu 查看交换机 CPU 利用率,
#Display memory 查看内存利用率,
发现两者都非常高,再通过输入命令
#Display interface 端口号,检查各端口下的数据流。
对其数据流进行抓包分析,发现多线程指向某网站电影栏目,为避免影响整个网络的畅通,对所接入交换机进行处理。
量,发现其中的两个端口数据流量特别大,远高于
正常使用的网络流量。对其数据流进行抓包分析,发现多线程指向某网站电影栏目,为避免影响整个网络的畅通,对所接入交换机进行处理。
故障处理:进入该端口配置界面下,输入 Shutdown 命令,强制关闭该端口使其断网,联系该终端使用人员,令其终止下载进程后,再恢复其网络。
故障四、 端口无法连接网络
现象:将电脑、电话、无线接入点或打印机插入墙壁上的网络插孔,而网络连接不正常。交换机端口的连接指示灯和网卡的连接指示灯都不亮。
原因:若没有修复墙壁插孔上的网络连接,则时常会发生掉线或无法连接的问题。在许多企业中,只有那些经常使用的连接才被修复。当移动了办公室或会议室后,有时会发现那些不常使用的网络插孔并没有被测试过,或是那些无法连接的插孔可能是由于登记错误导致的。此外,交换机端口可能被强制关闭。
解决办法:检查和确认交换机端口是否已被激活,且网络连接已被修复过。当任何设备被移动到办公室时,请务必对新的网络连接进行测试,确保他们能够正常工作。就 IP 电话而言,也有可能是电话的电源供应不足。
故障五、无法获取到 IP 地址
现象:网络瘫痪或出现故障而不能正常运行。操作系统可能会提示客户端当前无法从 DHCP 服务器获取到 IP 地址。检查网卡的状态后,发现没有分配 IP 地址。
原因:没有收到来自 DHCP 服务器分配的 IP 地址。DHCP 服务器的 IP 地址耗尽、服务器的服务瘫痪了、终端设备可能被配置为使用静态 IP 地址而不是通过 DHCP 分配、终端设备的 DHCP 请求从来没有到达服务器端,这些都可能导致客户端无法获取到 IP 地址。
尤其是如果一个新的设备配置一个虚拟局域网(VLAN),没有建立与服务器的服务请求连接时,设备肯定不能获取到 IP 地址。即将一个新设备配置到一个 VLAN 时,若没有将 DHCP 请求中继到 DHCP 服务器,就会导致请求不能发送到 DHCP 服务器端。
解决办法:关键问题是多少用户出现了同样的问题,一个用户还是多个用户?如果只有一个用户受到影响,那么请确认该客户端的网络设置是否配置为使用动态主机配置协议(DHCP)。
下一步,检查交换机的端口被划分到哪个 VLAN,检查属于该 VLAN 的其他设备能否获取到 IP 地址。如果他们也不能获取到 IP 地址,问题原因可能是路由器没有将 DHCP 请求转发到 DHCP 服务器。如果多个子网内的许多设备都出现了这个问题,那么可能是 DHCP 服务器出现了问题,即服务器的 DHCP 服务可能没有运行,或者它的 IP 地址已经耗尽。问题 3 – 无法连接到应用服务器
现象:当用户试图打开一个应用程序时,系统可能会提示无法连接到该应用程序服务器。当使用电子邮件应用或客户关系管理(CRM)应用时可能会出现这种问题。反映到服务台的常见投诉是网络瘫痪了,而这可能并不是真正的原因。
原因:许多原因都可能导致客户端无法连接到应用服务器。关键是需要询问用户这个问题是经常发生,还是断断续续发生?如果用户终端已获取了一个正确的 IP 地址,那么可能是用户和服务器间的路由有问题。这种情况下,可以通过一个简单的 ping 测试来验证。如果连接时断时续,则可能是由于服务器太繁忙,而不能及时响应客户端的请求所导致的。
解决办法:如果使用 ping 测试后发现路由没有问题,那么请检查服务器的负载和资源。检查服务器是否正忙于执行一个诸如备份的任务?如果不是这样的话,请检查客户端和服务器之间的网络负荷,且侧重关注广域网连接(如果有的话)。
通常,客户端和服务器之间的网络利用率过高也可能导致客户端能连接到应用服务器。最好的办法是使用一个 SNMP 工具来监测这些链路上的网络使用率。另外,寻找所有交换机和路由器上的以太网错误,这些错误可能导致客户端与服务器间的数据包丢失。
故障六、客户端不能连接无线网络
症状: 客户端能够检测到无线接入点,但是不能接入无线网络。
原因:安全认证、无线信道干扰和信号盲区可能会导致这个问题。由于无线信号是不可见的,如果没有专业无线工具的帮助,就很难追踪到这些问题。
解决办法:使用一个无线监测工具测量受影响地区的信号强度,如果可能的话,进行实地勘察,找出该地区的恶意接入点或不明接入点。可能是由于无线信道重叠而产生干扰信号,从而影响了接入无线网络的用户感知。
检查周围其他接入点产生的干扰信号,或者其他干扰设备(如微波炉、无绳电话)产 生的噪声。监控客户端试图进行关联连接的接入点,密切关注连接失败出在哪个步骤——关联、认证还是授权。
故障七、双工方式不匹配
现象:网络能够连接,而双工方式不匹配,会导致网络性能很差。这种情况下,交换机和网卡的链路指示灯都是亮着的。而网络性能却受到很大的影响,吞吐量会下降到 100Kbps 或者更低水平。
原因:网络连接的一侧设备工作在全双工(能够同时发送和接收数据)模式下,而另一侧的设备工作在半双工(在同一时刻只能执行发送或接收)模式。全双工侧的设备不需要等待即可不断发送数据,不论对方能否收到数据它都会发送。
半双工侧设备在发送前必须等待,直到它不接收数据才能开始发送。这意味着全双工侧设备有可能会中断半双工方的数据传输,造成半双工侧中止传输。如果传输被中止,将需要重传这个数据帧。这将大大减少半双工侧设备所能使用的带宽。
解决办法:一般情况下,若网络两侧设备的双工方式不相互匹配,采取的常用办法就是把网络连接的一侧设备(通常是交换机)强制配置为全双工,而让另一侧设备(例如个人电脑)配置为自适应网络链路状态。
理想的情况是:自适应功能能够确认对方的全双工设置,并与这个链路设置相匹配。然而事实却未必如此。被强制设置为全双工模式的设备不再发送正确的信号。而网络另一侧的设备恰恰需要这些信号来确定链路的速度和双工方式,以及自适应对方链路设置。
因此,在这种情况下,需要自适应链路的设备不得不去猜测链路的双工方式。在不能确认双工方式的情况下,自适应功能将默认链路状态为半双工方式。这就是大多情况下,网络发生双工方式不匹配的主要原因。为了解决这个问题,需要将网络上所有的连接都设置为自适应——除非你确实有别的原因。在这些事件中,如交换机间的连接,一定要将两侧设备设置为全双工。
故障八、电缆故障
现象:客户的电脑终端能够连接到网络,网络性能却很差。电脑终端可能根本无法连接网络。
原因:在当今网络,千兆链路连接到桌面系统是常见的。千兆链路需要四对电缆,所以任何性能低于 5 类线的电缆都不能支撑千兆连接。对于比较老旧的建筑物,必须考虑到这个问题。另外,任何数量的电缆如果退捻(通常靠近 RJ- 45 端口或接线板)可能会导致信号的损失。这将导致交换机端口或网卡出现帧检测序列错误(FCS)。
解决办法:当出现由于电缆问题造成的网络故障时,大多数情况下,都需要更换电缆。如果是由于电缆无捻导致的,那么重新加捻电缆一般能够解决这个问题。当需要承载如千兆链路或以太网供电的新技术时,必须使用 5 类电缆或者更好的电缆。