Zusammenfassung
In dieser Arbeit wird ein Diagnoseprotokoll für Systeme mit mehrfachen Verarbeitungseinheiten vorgestellt. Das Protokoll entdeckt und lokalisiert Fehler auf Systemniveau, wie z.B. fehlerhafte Ausgaben oder Zusammenbrüche von Einheiten. Die Fehlerlokalisierung und die Koordination unter den Verarbeitungseinheitenbasiert auf dem Austausch von Syndromen als Lebenszeichen. Das Protokoll ist dezentralisiert und bewirkt ein Übereinstimmen zwischen allen intakten Einheiten einer sog. Diagnosegruppe hinsichtich des Status der defekten Einheiten.
Abstract
This paper describes the design of a (high-level) diagnosis protocol for a system with multiple processing nodes. The protocol detects and localizes system-level failures such as incorrect outputs or crashes of processing nodes. Failure localization and coordination among processing nodes is based on the use of Syndroms as “I am alive”-messages. The protocol is decentralized and forces an agreement among all operational nodes of a so called diagnosis group on the status of down nodes.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Similar content being viewed by others
Literatur
B. Koenemann, J. Mucha, G. Zwiehoff: Built-in test for complex integrated circuits, IEEE Jour. Solid State Circuits, 315-321, 1980.
E. Maehle: Fault-tolerant DIRMU-Multiprocessor Configuration, IEEE Comp. Archit.Techn.Com. Newsletter, 51, 1985.
E. Schmitter, P. Banes: The Basic Fault-Tolerant System, IEEE Micro Vol. 4, 66–76, 1984.
F.B. Schneider, L. Lamport: Paradigms for distributed programs — in Distributed Systems (M. Paul, H.J. Siegert, Eds.), Springer Lecture Notes in Computer Sience 190, 203-286, 1985.
G. Le Lann: Distributed Systems: Toward a formal approach, Proc. IFIP Congress 77, 155–160, 1977.
F. Cristian: Atomic Broadcast, IEEE Proc. FTCS-15, Ann Arbor, 200-208, 1985.
M. Dal Cin: Graphentheoretische Modelle zur Selbstdiagnose fehlertoleranter Mehrprozessor-und Mehrrechnersysteme, Infor. Spek. 5, 108–188, 1984.
M. Dal Cin, K.-E. Großpietsch, M. Trautwein: Methoden der Fehlerdiagnose, Info. Spek. 9, 82–94, 1986.
F.P. Preparata, G. Metze, R.T. Chien: On the connection assignment of diagnosable systems, IEEE Trans. Electron. Comp. EC-16, 848–854,1967.
G.G.L. Meyer, G.M. Masson: An efficient fault diagnosis algorithm for symmetric multiple processor architectures, IEEE Trans, on Comp. C-27, 1059–1063, 1978.
J.G. Kühl, S.M. Reddy: Distributed fault tolerance for large multiprocessor systems, Proc. 7th Ann. Symp. on Comp. Archit., La Baule, 23-20, 1980.
J.H. Saltzer, D.P. Reed, D.D. Clark: End-to-End Arguments in system design, ACM Trans.Comp.Sci Vol 2, 277–288, 1984.
E. Ammann, M. Dal Cin: Efficient algorithms for comparison-based self-diagnosis, in Self-Diagnosis and Fault Tolerance, ATTEMPTO-Verlag Tübingen, 1–18, 1981.
W. Händler, H. Rohrer: Gedanken zu einem Rechner-Baukasten-System, Elect. Rechenanlagen 22, 3–13, 1980.
INMOS Limited, Transputer Reference Manual, Bristol, 1985.
M. Dal Cin, F.H. Florian: Analysis of a fault-tolerant distributed diagnosis algorithm, IEEE-Proc. FTCS-15 Ann Arbor, 159-165, 1985.
Author information
Authors and Affiliations
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 1987 Springer-Verlag Berlin Heidelberg
About this paper
Cite this paper
Dal Cin, M. (1987). Ein Diagnoseverfahren für Systeme mit Mehreren Verarbeitungseinheiten. In: Belli, F., Görke, W. (eds) Fehlertolerierende Rechensysteme / Fault-Tolerant Computing Systems. Informatik-Fachberichte, vol 147. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-45628-2_17
Download citation
DOI: https://doi.org/10.1007/978-3-642-45628-2_17
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-18294-8
Online ISBN: 978-3-642-45628-2
eBook Packages: Springer Book Archive