Discussion:
S: SUN 501-4882 E3000 CPU Board
Add Reply
Marco Lorig
2020-05-19 13:04:12 UTC
Antworten
Permalink
Hallo zusammen,

nachdem ich nun beide NVRAMs getauscht habe macht mir ein CPU Board
einen Strich durch die Rechnung.

Der RAM wird bei der Diagnose noch erkannt, allerdings keine CPUs (?):

3,0>Displaying PROM Versions
3,0>Slot 1 IO Type 4 FCODE 1.8.30 2002/10/25 14:02 iPOST 3.4.30
2002/10/25 3
3,0>Slot 3 CPU/Memory OBP 3.2.30 2002/10/25 14:03 POST 3.9.30
2002/10/25 4
3,0>Slot 5 Memory OBP 3.2.30 2002/10/25 14:03 POST 3.9.30
2002/10/25 4
3,0>Slot 7 CPU/Memory OBP 3.2.30 2002/10/25 14:03 POST 3.9.30
2002/10/25 4

Wenn das Board gesteckt ist, erscheint im POS folgende Meldung:
3,0> ************* Board Alignment Problem, SYNC Timeout


Hat jemand noch ein Board übrig? Ich gehe mal davon aus, dass die CPUs
noch funktionieren.

Oder alternativ eine Idee, wie man das Board wieder zum Leben erweckt?

Gruß Marco
Dennis Grevenstein
2020-05-19 13:44:51 UTC
Antworten
Permalink
Post by Marco Lorig
Oder alternativ eine Idee, wie man das Board wieder zum Leben erweckt?
Sowas offensichtliches bei der Fehlersuche wie Board in anderen slot
stecken hast Du vermutlich schon probiert? Denn wenn es ein Problem
mit den Kontakten ist, könnte das ja auch an der backplane liegen.

gruss,
Dennis
--
"I've seen things you people wouldn't believe. Attack ships on fire off the
shoulder of Orion. I watched C-beams glitter in the dark near the Tannhäuser
gate. All those moments will be lost in time, like tears in rain."
Marco Lorig
2020-05-19 14:26:37 UTC
Antworten
Permalink
Post by Dennis Grevenstein
Sowas offensichtliches bei der Fehlersuche wie Board in anderen slot
stecken hast Du vermutlich schon probiert? Denn wenn es ein Problem
mit den Kontakten ist, könnte das ja auch an der backplane liegen.
Jup, der Fehler wandert mit. Wenn ich das Board alleine anfahre, bleibt
der POS bei

5,0>Board 5 FireHose Devices Test

hängen.

Die CPUs werden auch nicht warm (im Vergleich zu den anderen Boards).

Gruß Marco
Marco Lorig
2020-05-29 13:07:57 UTC
Antworten
Permalink
Post by Marco Lorig
Jup, der Fehler wandert mit. Wenn ich das Board alleine anfahre, bleibt
der POS bei
5,0>Board 5 FireHose Devices Test
hängen.
Die CPUs werden auch nicht warm (im Vergleich zu den anderen Boards).
Neustecken der Einzelteile brachte auch keine Veränderung. Dann bleibt
es leider bei einer 4-WAY SMP Maschine.

Gruß Marco
Sebastian Barthel
2020-06-05 17:28:13 UTC
Antworten
Permalink
Post by Marco Lorig
Post by Marco Lorig
Jup, der Fehler wandert mit. Wenn ich das Board alleine anfahre, bleibt
der POS bei
5,0>Board 5 FireHose Devices Test
hängen.
Die CPUs werden auch nicht warm (im Vergleich zu den anderen Boards).
Neustecken der Einzelteile brachte auch keine Veränderung. Dann bleibt
es leider bei einer 4-WAY SMP Maschine.
Nachdem Du schreibst, daß die CPUs nicht erkannt werden und v.a. auch
nicht warm werden, sollte man evtl. mal schauen, ob die überhaupt mit
Spannung versogt werden. Nachdem diese Boards am Backplane seitigen Ende
ja jede Menge Voltage-Regulation machen, kann man da evtl. auch was
finden, was einfach mal nur defekt ist. Da das RAM ja läuft kann man sich
vermutlich auf eine "Seite" der Kühltürmchen konzentrieren.
Irgendwie klingt es ja alles bißchen, als sei da eine
Hauptversorgungsleitung ausgefallen - und zwar eine, die fürs RAM nicht
benötigt wird. In einem PC würde man da jetzt streng auf 12V Leitung
tippen - bei SUNs kann das auch anders organisiert sein.
Möglicherweise gibt es da ja sogar einfach wechselbare Teile drauf, die
quasi schon fürs Wechseln vorgesehen sind - so ala Voltage-Regulatory-
Modules (VRM), wobei ich mich zumindest an kleine steckbare Boards da
nicht erinnern kann.
Evtl. einfach mal mit einem Voltmeter die großen oder beschrifteten
Punkte durchmessen.

Manche CPU Module benötigen zudem eine jeweils bestimmte minimale OpenBoot
Version. Die soltle also auf dem Board zu den CPUs passen.

Viele Grüße,
SBn
Michael Bäuerle
2020-06-06 08:53:20 UTC
Antworten
Permalink
Post by Sebastian Barthel
Post by Marco Lorig
Post by Marco Lorig
Jup, der Fehler wandert mit. Wenn ich das Board alleine anfahre, bleibt
der POS bei
5,0>Board 5 FireHose Devices Test
hängen.
Die CPUs werden auch nicht warm (im Vergleich zu den anderen Boards).
Neustecken der Einzelteile brachte auch keine Veränderung. Dann bleibt
es leider bei einer 4-WAY SMP Maschine.
Nachdem Du schreibst, daß die CPUs nicht erkannt werden und v.a. auch
nicht warm werden, sollte man evtl. mal schauen, ob die überhaupt mit
Spannung versogt werden. Nachdem diese Boards am Backplane seitigen Ende
ja jede Menge Voltage-Regulation machen, kann man da evtl. auch was
finden, was einfach mal nur defekt ist. [...]
Möglicherweise gibt es da ja sogar einfach wechselbare Teile drauf, die
quasi schon fürs Wechseln vorgesehen sind - so ala Voltage-Regulatory-
Modules (VRM), wobei ich mich zumindest an kleine steckbare Boards da
nicht erinnern kann.
Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
Die lassen sich mit vertretbarem Aufwand wechseln.
Hanno Foest
2020-06-06 10:05:24 UTC
Antworten
Permalink
Post by Michael Bäuerle
Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
Die lassen sich mit vertretbarem Aufwand wechseln.
Dicke Elkos bei SUN? Kommt das echt vor?

Hanno
--
The modern conservative is engaged in one of man's oldest exercises in
moral philosophy; that is, the search for a superior moral justification
for selfishness.
- John Kenneth Galbraith
Gerrit Heitsch
2020-06-06 10:28:38 UTC
Antworten
Permalink
Post by Hanno Foest
Post by Michael Bäuerle
Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
Die lassen sich mit vertretbarem Aufwand wechseln.
Dicke Elkos bei SUN? Kommt das echt vor?
Bei den Enterprise-Systemen habe ich noch keine gesehen, da wurde
Markenware wie Rubycon verbaut. In der U5 und U10 Workstation hingegen
kam es vor.

Gerrit
Sebastian Barthel
2020-06-06 10:54:47 UTC
Antworten
Permalink
Post by Gerrit Heitsch
Post by Hanno Foest
Post by Michael Bäuerle
Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
Die lassen sich mit vertretbarem Aufwand wechseln.
Dicke Elkos bei SUN? Kommt das echt vor?
Bei den Enterprise-Systemen habe ich noch keine gesehen, da wurde
Markenware wie Rubycon verbaut. In der U5 und U10 Workstation hingegen
kam es vor.
Auch diese Art Markenware geht kaputt.
Ich habe einen Laptop von Zenith, da war das komplette Gerät nicht mehr
startbar, komplett dunkel, kein Einschaltpeep, nix. Ursache war einzig
ein Elektrolytkondensator von Rubycon, der völlig unauffällig von oben
aussah. Er war aber nach unten, zur Platine hin ausgelaufen, bzw.
geöffnet und dann teilverdunstet. Ausgewechselt. Gerät läuft wieder.
Man sollte sich also auf den Anschein nicht und auf den Begriff
Markenware schon gar nicht blind verlassen.

Ich habe mal nachgesehen: Auf den Enterprise CPU/Memory Board sind im
hinteren Bereich, zwischen den CPU Plätzen und der Rundlüfterriege,
jeweils 2 solcher Miniboard verbaut, die schon sehr nach VRMs aussehen.
Allerdings kann man die tatsächlich nicht ohne Löten wechseln, was ein
wenig seltsam ist. Mein Tip wäre ja jetzt, daß eines - und dann
vermutlich das zur CPU Seite liegende, für die CPUs zuständig ist, das
andere für die RAMs. Evtl. sind auch beide für die CPUs, dann würde man
aber evtl. erwarten dürfen, daß wenigstens eine CPU gefunden wird.
Zumindest sollte man dort mal schauen. Man die potentiell auch komplett
wechseln, evtl. reicht aber auch dort einen Transistor zu tauschen o.ä.
Für Komplettwechsel muß man a.) natürlich einen Ersatz dahaben und b.)
sollte man das vermutlich nicht mit dem Hobbylötkolben machen.
Gerrit Heitsch
2020-06-06 10:59:00 UTC
Antworten
Permalink
Post by Sebastian Barthel
Post by Gerrit Heitsch
Post by Hanno Foest
Post by Michael Bäuerle
Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
Die lassen sich mit vertretbarem Aufwand wechseln.
Dicke Elkos bei SUN? Kommt das echt vor?
Bei den Enterprise-Systemen habe ich noch keine gesehen, da wurde
Markenware wie Rubycon verbaut. In der U5 und U10 Workstation hingegen
kam es vor.
Auch diese Art Markenware geht kaputt.
Bei SUN aber ziemlich selten. Die Hardware war nicht nur teuer sondern
auch gut.

Gerrit
Michael Bäuerle
2020-06-06 11:34:01 UTC
Antworten
Permalink
Post by Gerrit Heitsch
Post by Sebastian Barthel
Post by Gerrit Heitsch
Post by Hanno Foest
Post by Michael Bäuerle
Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
Die lassen sich mit vertretbarem Aufwand wechseln.
Dicke Elkos bei SUN? Kommt das echt vor?
Bei den Enterprise-Systemen habe ich noch keine gesehen, da wurde
Markenware wie Rubycon verbaut. In der U5 und U10 Workstation hingegen
kam es vor.
Auch diese Art Markenware geht kaputt.
Bei SUN aber ziemlich selten. Die Hardware war nicht nur teuer sondern
auch gut.
In Bezug auf Elkos kommt es hauptsächlich auf die Temperatur an.
Wenn es zu warm wird, z.B. wegen ausgefallenem Lüfter, dann hilft
auch die beste Qualität des Elkos nichts und er wird schnell kaputt
gehen.
Gerrit Heitsch
2020-06-06 11:47:14 UTC
Antworten
Permalink
Post by Michael Bäuerle
Post by Gerrit Heitsch
Post by Sebastian Barthel
Post by Gerrit Heitsch
Post by Hanno Foest
Post by Michael Bäuerle
Und wenn nicht: Zumindest nach geplatzten Elkos kann man schauen.
Die lassen sich mit vertretbarem Aufwand wechseln.
Dicke Elkos bei SUN? Kommt das echt vor?
Bei den Enterprise-Systemen habe ich noch keine gesehen, da wurde
Markenware wie Rubycon verbaut. In der U5 und U10 Workstation hingegen
kam es vor.
Auch diese Art Markenware geht kaputt.
Bei SUN aber ziemlich selten. Die Hardware war nicht nur teuer sondern
auch gut.
In Bezug auf Elkos kommt es hauptsächlich auf die Temperatur an.
Wenn es zu warm wird, z.B. wegen ausgefallenem Lüfter, dann hilft
auch die beste Qualität des Elkos nichts und er wird schnell kaputt
gehen.
Die ganzen SUN-Server und Workstations (bis auf die ganz billigen)
hatten allerdings Temperatur- und Lüfterüberwachung.

Ich hab hier noch eine SB1000 stehen (aber schon länger nicht mehr
gestartet), die hat eine Steuerung, die die Lüfter so regelt, daß die
CPUs immer eine Temperatur von ca. 80 Grad haben (ich habe ein Script
zur Abfrage).

Wenn es zu warm wird schalten die SUNs ab.

Gerrit
Kay Martinen
2020-06-06 14:09:41 UTC
Antworten
Permalink
Post by Gerrit Heitsch
Post by Michael Bäuerle
Post by Gerrit Heitsch
Bei SUN aber ziemlich selten. Die Hardware war nicht nur teuer sondern
auch gut.
In Bezug auf Elkos kommt es hauptsächlich auf die Temperatur an.
Wenn es zu warm wird, z.B. wegen ausgefallenem Lüfter, dann hilft
auch die beste Qualität des Elkos nichts und er wird schnell kaputt
gehen.
Ein Altes Super Sockel 7 Board hier mit einem Krater neben der CPU
beweist das. :-) Ist natürlich keine Server-HW.
Post by Gerrit Heitsch
Die ganzen SUN-Server und Workstations (bis auf die ganz billigen)
hatten allerdings Temperatur- und Lüfterüberwachung.
Dürfte der Normalfall sein bei Serverhardware.
Post by Gerrit Heitsch
Ich hab hier noch eine SB1000 stehen (aber schon länger nicht mehr
gestartet), die hat eine Steuerung, die die Lüfter so regelt, daß die
CPUs immer eine Temperatur von ca. 80 Grad haben (ich habe ein Script
zur Abfrage).
Warum grade 80 Grad. Laufen deren CPUs nicht bei z.B. 50 Grad oder
heizen die im leerlauf schon so viel?

Ich erinnere mich das eine übliche Temperaturgrenze für Elkos bei 75
Grad liegt... und dann... 115°
Post by Gerrit Heitsch
Wenn es zu warm wird schalten die SUNs ab.
Bei meinen Proliants drehen dann wohl erst mal alle Lüfter auf Volle
Pulle (ebenso beim Einschalten kurz) und erst wenn es dann noch nicht
reicht...

Das tun die auch wenn ein Lüfter still steht. Drehzahlen sehe ich da
aber nicht. Nur so was hier:

ipmitool sdr:
UID Light | 0x00 | ok
Int. Health LED | 0x00 | ok
Ext. Health LED | 0x00 | ok
Power Supply 1 | 0x00 | ok
Power Supply 2 | 0x00 | ok
Power Supplies | 0x00 | ok
VRM 1 | 0x00 | ok
VRM 2 | 0x00 | ok
Fan Block 1 | 34.89 percent | ok
Fan Block 2 | 29.79 percent | ok
Fan Block 3 | 37.24 percent | ok
Fan Blocks | 0x00 | ok
Temp 1 | 40 degrees C | ok
Temp 2 | 16 degrees C | ok
Temp 3 | 30 degrees C | ok
Temp 4 | 30 degrees C | ok
Temp 5 | 25 degrees C | ok
Temp 6 | 30 degrees C | ok
Temp 7 | 30 degrees C | ok

hplog -t
ID TYPE LOCATION STATUS CURRENT THRESHOLD
1 Basic Sensor I/O Zone Normal 107F/ 42C 149F/ 65C
2 Basic Sensor Ambient Normal 64F/ 18C 104F/ 40C
3 Basic Sensor Processor Zone Normal 86F/ 30C 203F/ 95C
4 Basic Sensor Processor Zone Normal 86F/ 30C 203F/ 95C
5 Basic Sensor Pwr. Supply Bay Normal 80F/ 27C 140F/ 60C
6 Basic Sensor Processor Zone Normal 86F/ 30C 203F/ 95C
7 Basic Sensor Processor Zone Normal 86F/ 30C 203F/ 95C

hplog -f
ID TYPE LOCATION STATUS REDUNDANT FAN SPEED
1 Var. Speed Pwr. Supply Bay Normal Yes Normal ( 34)
2 Var. Speed Processor Zone Normal Yes Normal ( 29)
3 Var. Speed Processor Zone Normal Yes Normal ( 37)

Kay
--
Posted via leafnode
Gerrit Heitsch
2020-06-06 14:43:37 UTC
Antworten
Permalink
Post by Kay Martinen
Post by Gerrit Heitsch
Post by Michael Bäuerle
Post by Gerrit Heitsch
Bei SUN aber ziemlich selten. Die Hardware war nicht nur teuer sondern
auch gut.
In Bezug auf Elkos kommt es hauptsächlich auf die Temperatur an.
Wenn es zu warm wird, z.B. wegen ausgefallenem Lüfter, dann hilft
auch die beste Qualität des Elkos nichts und er wird schnell kaputt
gehen.
Ein Altes Super Sockel 7 Board hier mit einem Krater neben der CPU
beweist das. :-) Ist natürlich keine Server-HW.
Post by Gerrit Heitsch
Die ganzen SUN-Server und Workstations (bis auf die ganz billigen)
hatten allerdings Temperatur- und Lüfterüberwachung.
Dürfte der Normalfall sein bei Serverhardware.
Post by Gerrit Heitsch
Ich hab hier noch eine SB1000 stehen (aber schon länger nicht mehr
gestartet), die hat eine Steuerung, die die Lüfter so regelt, daß die
CPUs immer eine Temperatur von ca. 80 Grad haben (ich habe ein Script
zur Abfrage).
Warum grade 80 Grad. Laufen deren CPUs nicht bei z.B. 50 Grad oder
heizen die im leerlauf schon so viel?
Der Lüfter ist dann leiser als wenn er die CPU auf 50 Grad kühlen will,
eine gute Idee wenn das Ding als Workstation läuft. Das gleiche Board
gabs auch in einem Server, da liefen die Lüfter durchgehend auf 100%.
Und ja, der Ultrasparc III ist nicht gerade sparsam. Das CPU-Modul (wie
ein Pentium II) ist ein ziemlicher Klotz. Ich würde so ca. 1 kg
schätzen. Davon sind 2 Stück verbaut.

Die 80 Grad haben jedenfalls nicht geschadet. Die Kist lief von 2001 bis
Mitte 2017 fast durchgehend als Workstation auf der Arbeit und das
komplett problemfrei.
Post by Kay Martinen
Ich erinnere mich das eine übliche Temperaturgrenze für Elkos bei 75
Grad liegt... und dann... 115°
85 und 105.
Post by Kay Martinen
Das tun die auch wenn ein Lüfter still steht. Drehzahlen sehe ich da
UID Light | 0x00 | ok
Int. Health LED | 0x00 | ok
Ext. Health LED | 0x00 | ok
Power Supply 1 | 0x00 | ok
Power Supply 2 | 0x00 | ok
Power Supplies | 0x00 | ok
VRM 1 | 0x00 | ok
VRM 2 | 0x00 | ok
Fan Block 1 | 34.89 percent | ok
Fan Block 2 | 29.79 percent | ok
Fan Block 3 | 37.24 percent | ok
Drehzahlen in % reichen auch zum Abschätzen.

Gerrit
Markus Elsken
2020-06-06 12:12:58 UTC
Antworten
Permalink
Moin!
Post by Sebastian Barthel
Manche CPU Module benötigen zudem eine jeweils bestimmte minimale OpenBoot
Version. Die soltle also auf dem Board zu den CPUs passen.
Wie meine SS110, wwo die SM71 erst nicht erkannt wurde, weder einzeln
noch im Verbund mit der laufenden SM51. Nach Upgrade liefen dann beide
einträchtig nebeneinander.

mfg Markus
Marco Lorig
2020-06-07 17:17:40 UTC
Antworten
Permalink
Post by Sebastian Barthel
Nachdem Du schreibst, daß die CPUs nicht erkannt werden und v.a. auch
nicht warm werden, sollte man evtl. mal schauen, ob die überhaupt mit
Spannung versogt werden. Nachdem diese Boards am Backplane seitigen Ende
ja jede Menge Voltage-Regulation machen, kann man da evtl. auch was
finden, was einfach mal nur defekt ist. Da das RAM ja läuft kann man sich
vermutlich auf eine "Seite" der Kühltürmchen konzentrieren.
Irgendwie klingt es ja alles bißchen, als sei da eine
Hauptversorgungsleitung ausgefallen - und zwar eine, die fürs RAM nicht
benötigt wird. In einem PC würde man da jetzt streng auf 12V Leitung
tippen - bei SUNs kann das auch anders organisiert sein.
Möglicherweise gibt es da ja sogar einfach wechselbare Teile drauf, die
quasi schon fürs Wechseln vorgesehen sind - so ala Voltage-Regulatory-
Modules (VRM), wobei ich mich zumindest an kleine steckbare Boards da
nicht erinnern kann.
Evtl. einfach mal mit einem Voltmeter die großen oder beschrifteten
Punkte durchmessen.
Optisch ist nichts zu erkenen und es roch auch nicht seltsam.
Mehr Fachwissen habe ich leider nicht um noch tiefer einzusteigen.
Das andere Problem ist, dass das Board im eingebauten Zustand fast
unzugänglich um es durchzumessen.

Alle Komponenten auf dem Board sind verlötet, auch die VRMs.
Post by Sebastian Barthel
Manche CPU Module benötigen zudem eine jeweils bestimmte minimale OpenBoot
Version. Die soltle also auf dem Board zu den CPUs passen.
Das kann es nicht sein. Das Board lief vorher in der Maschine ohne
Probleme. Ich vermute einfach, dass sich da elektrisch irgendwas
verabschiedet hat.

Gruß Marco

Loading...