Zielsetzung des Projektes

TIMaCS beschäftigt sich mit den Herausforderungen, die sich aufgrund der zunehmenden Komplexität von Rechneranlagen,  insbesondere im Hinblick auf Ressourcen mit einer Leistungsfähigkeit von mehreren Petaflops, vor allem im administrativen Bereich ergeben.

Ziel des Vorhabens ist die Reduktion der Komplexität der manuellen Administration von Rechenanlagen durch Realisierung eines Frameworks zum intelligenten Management auch sehr großer Rechensysteme basierend auf Techniken der Virtualisierung, der wissensbasierten Analyse und Bewertung von gesammelten Informationen, sowie der Definition von Metriken und Policies, die neben der Benachrichtigung von Administratoren auch vorgegebene Maßnahmen automatisch ergreifen können. Darüber hinaus wird durch Datenanalyse unter Berücksichtigung früher gemessener Werte, durch Regressionstests und durch intensive regelmäßige Überprüfung von entsprechenden Werten auf präventive Maßnahmen vor dem Auftreten von Fehlern abgezielt. Das zu realisierende Framework wird dabei mit offenen Schnittstellen gestaltet, die eine Anbindung anderer relevanter Komponenten wie etwa Accounting und Benutzerverwaltung (z.B. user policies, Priorität des Anwenders, …) oder auch Warenwirtschaftssysteme erlauben. Angestrebt wird die Realisierung produktionsreifer Software und deren Validierung im Betrieb am Höchstleistungsrechenzentrum Stuttgart, dem Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH) und dem Hochschulrechenzentrum der Philipps-Universität Marburg.

Konkrete angestrebte Ergebnisse

  • Konzept und Realisierung einer robusten und hochskalierbaren Monitoring­Lösung für sehr große Rechensysteme, basierend auf bestehenden Lösungen und ergänzenden Weiterentwicklungen in produktionsreifer Qualität.
  • Entwurf und Realisierung eines auf Virtualisierungskonzepten basierenden Systems zur Partitionierung und dynamischen Nutzungszuordnung von sehr großen Rechensystemen. Explizit wird auch die einfache Installation bzw. Entfernung von Rechenknoten z.B. aus einem heterogenen Clustersystem oder einem hybriden System mit einbezogen.
  • Ein darauf aufbauendes Management Framework, das auf Basis von Policies verschiedene Automatisierungs­ und Eskalationsstrategien unterstützt: von Benachrichtigung der Administratoren, über halb-automatische Verfahren bis hin zu automatisierten Reaktionen, Vorhersagen, Erkennung von Anomalien und deren Validierung unter Produktionsbedingungen.
  • Werkzeuge zur Erkennung und automatischen Behandlung von Fehlern, sowie Konzeption und Realisierung präventiver Maßnahmen zur Überprüfung der Anlagen z.B. zwischen Jobs und der Unterstützung regelmäßiger Wartungsarbeiten.
  • Nachhaltigkeit durch die Definition von Standardschnittstellen und eines integrativen Frameworks mit dem Ziel der Zusammenführung verschiedener bisher nicht abgestimmter Entwicklungen von Werkzeugen im System Monitoring und Management, in der Cluster Virtualisierung, im Policy basierten Management und in der wissenbasierten Datenanalyse.