digitalien.org — Stefan Knecht

Weshalb Leistungsbewertungen und appraisals schädlich sind

In traditionellen Organisationsformen muss der Vorgesetzte zufrieden sein mit der geleisteten Arbeit: Boss zufrieden = gute Arbeit.

Die Erhebung und Bewertung individueller Leistung qualifiziert für Karrierepfade, Titel, mehr Verantwortung und vielleicht auch für mehr Geld in der nächsten Gehaltsverhandlung.

Dieser Beitrag erkundet Annahmen und Grundlagen für Leistungsbewertungen. Es werden Dilemmata entdeckt, wenn in agilen Organisationsformen unverändert Jahresziele vereinbart und Einzelleistungen dokumentiert werden. Am Ende kommt heraus: das klappt alles nicht, schon lange — und dennoch geht es weiter.

Es öffnen sich mehrere Höllenpforten:

  • die ➚ Leistung von Wissensarbeitern kann interindividuell weder sinnvoll gemessen noch verglichen werden und
  • zudem zerstören appraisals, was sie fördern sollen: persönliche Motivation.
 
Aber der Reihe nach.
 

Warum wird Leistung bewertet?

Aus der betriebswirtschaftlich getriebenen Personalführung geschehen Leistungsbewertungen unter mindestens zwei Annahmen:

  1. Mitarbeiter seien vergleichbar und
  2. aus der Rangreihe bewerteter Mitarbeiter könnten unternehmerische Aktionen abgeleitet werden.
 
Das konventionelle Personalmanagement bringt einige, vordergründig auch sinnvolle Argumente um individuelle Leistungen zu erheben und zu bewerten etwa diese:
 
  • angemessene und gerechte Bezahlung oder Bonifizierung im Vergleich zur Kohorte ähnlich bewerteter Mitarbeiter,
  • die Gewinnung von Anhaltspunkten zur Förderung und damit Potenzialentfaltung,
  • die Identifikation von high potentials zur Beförderung in verantwortungsvolle Managementrollen

 

Wenn das nicht so gut klappt — dann soll aus Bewertungen und Rankings wenigstens die Identifikation von ‘Minderleistung’ geschehen um daraus Indizien für eine Kündigung zu gewinnen.

Angenommen, die wesentlichen Elemente sind damit erfasst — Bewerter und bewertete Mitarbeiter haben wesensverschiedene Ziele:

Mitarbeiter und bewertender Vorgesetzter haben verschiedene und vor allem versteckte Ziele — was die Ergebnisse verfälscht oder missbräuchlich verwenden lässt.

Culbert, 2010

Wie geschieht Leistungsbeurteilung?

Die Erhebung von persönlicher Leistung geschieht meist in Jahresgesprächen. Vorgesetzter und Mitarbeiter treffen sich einmal im Jahr und reden.

Vielleicht gibt es einen Gesprächsleitfaden, vielleicht auch nicht. Die Ergebnisse werden in der Personalakte dokumentiert und begleiten den persönlichen Karrierepfad. Sie sind ein Faktor bei Beförderungen, Gehaltsverhandlungen, neuen oder weiteren Rollen und einem Jahresbonus, so es diesen gibt und er ausgeschüttet wird.

Also sind appraisals für das persönliche Fortkommen und die Karriere wichtig. Wirklich jede:r kann das einsehen.

Allerdings: wer kann sich schon an ein Jahr erinnern, an grob zweihundert Arbeitstage? Wieviele davon hatte man miteinander zu tun?

Ein jährlicher Prozess ist zu träge um handlungsleitend bedeutsam zu sein: niemand kann erinnern, was in zwölf zurückliegenden Monaten geschah. (...) Die zu bewertende Leistung ist generisch und erfasst nicht die inhärente Verschiedenheit von Menschen und ihren Aufgaben

Bobinski, 2010

Noch eine Höllenpforte:

Die Erhebung, Terminierung und das Reporting dieser Mitarbeitergespräche sind für die Personalfachleute selbst eine self fulfilling prophecy und somit ein impliziter Leistungsnachweis der eigenen Tätigkeit — denn wie sonst könnten Recruiter nachweisen, genau die Richtigen eingestellt zu haben?

In diesem Beitrag:

Niemand kann appraisals leiden. Niemand.

Spätestens hier ist die Schieflage schon sichtbar. Drehen wir das noch eine Runde weiter:

For some, the annual performance appraisal is a tedious exercise which just needs to be “got through” to satisfy the HR staff—a case of “Don’t mess with HR”. Employees and managers often tend to share this view, and together they work out an easy way of conducting the appraisal without actually doing it. Last year’s appraisal form is re-used and altered slightly, with both parties agreeing on which boxes to tick. And that’s it. Everyone is happy and satisfied — including the HR department.

Trost, 2017

Dabei sind Mitarbeiter- und Leistungsbewertungen schon ihrem Wesen nach untauglich: sie messen nicht, was gemessen werden soll und bewirken das Gegenteil: Demotivation und eigennützliches Verhalten statt offene Zusammenarbeit. Erhebung und Bewertung manifestieren Macht in eine Richtung.

Appraisals stehen wie kaum etwas anderes für patriarchalische oben/unten-Beziehungen zwischen Vorgesetztem und Untergebenen. Sie behandeln den Mitarbeiter als Besitz des Unternehmens.

Heathfield (2010)

Leistungsbewertungen verstärken also genau das, was moderne Unternehmen abbauen wollen um agiler, beweglicher und kollaborativer zu werden: starre Hierarchien.

Woher kommt das Bewerten-Wollen?

George Odiorne ist der Erfinder von Management by Objectives oder MbO, einem Managementansatz, der u.a. die Existenz einer funktionierenden Hierarchie voraussetzt (Odiorne, 1972):

The basic structure of the corporation is the organizational form often called a hierarchy. This is the familiar arrangement of boxes showing the boss in the top box and two, three, or more subordinates in the box one level down.

Management by objectives is a system for making that structure work and for bringing about more vitality and personal involvement of the people in the hierarchy.

Odiorne, 1972

Der Chef und seine leitenden Manager wissen am Besten, was die Firma wie zu tun hat. Oben wird gedacht, unten gemacht — ‘Thinking at the top, acting at the bottom.’

MbO ist der Hebel zwischen den operativen Hierarchieebenen, Ziele werden durchgereicht bis zu denen, die sie umsetzen. Sollen.
 
Wenn das klappt: fantastisch! Besser wird es nicht.
 
George Odiorne

Hierarchien sind prima

Funktionierende Hierarchien sind überlegen leistungsfähig. Wenn sie funktionieren, dann schnell, sowohl effizient wie effektiv.

Hierarchien sind prima wenn sie funktionieren.

Es gibt viele Umgebungen, in denen eine klare chain-of-commmand sinnvoll ist, in der eine:r entscheiden muss weil längliche Debatten schädlich wären. Flugzeuge, Schiffe, Raumstationen, Herzoperationen … all das sind Situationen, in denen im Zweifel, unter Zeitdruck und mit Verantwortungsübernahme einer einzigen erfahrenen und entscheidenden Person im Fehlerfall Leben auf dem Spiel stehen.

Heute ist nicht einmal mehr militärische Organisation nach Befehl und Gehorsam  gestaltet sondern in ➚ Selbstorganisation und Auftragstaktik. Alle modernen Armeen operieren nach einem Konzept, das der hier abgebildete Gerhard David von Scharnhorst, preußischer Generalleutnant und Heeresreformer vor gut zweihundert Jahren entwickelte.

Allerdings: in den allermeisten zivilen Unternehmen gibt es diese kritischen Randbedingungen ebensowenig wie funktionierende Hierarchien.

(Wenn Sie Ausnahmen für funktionierende Hierarchien kennen: ich freue mich aufrichtig auf Nachrichten!)

(,,,) direct interactions become rare or at least more difficult in a complex organization that consist of a multitude of layers and hierarchical levels.

Maurer, 2010

Vielmehr ist es so, dass mehrschichtige Hierarchie die direkte Interaktion und beobachtbare Leistung gar nicht mehr erlaubt. Oder: was ‘unten’ geschieht, kann ‘oben’ nur mehr vermittelt und längst nicht mehr unmittelbar wahrnehmen.

Gerhard David von Scharnhorst, preußischer Generalleutnant und Heeresreformer

Spoiler: Leistungsbewertungen sind Cargo Cult

 
Ab hier geht es weiter mit einer weiteren und brisanteren Frage: Was machen Leistungsmessungen in agilen Organisationen?

Zielvereinbarungen oder appraisals waren schon in konventionellen Arbeitsumgebungen schädlich. In agiler Organisation werden appraisals zu  sinnlosem cargo cult.

Wenn Sie bis hierhin durchgehalten haben: bleiben Sie dran.

Agile Manager werden zu Möglichmachern

In zunehmend agilen Umgebungen verändern sich hierarchisch Vorgesetzte idealerweise zu enablern und befähigen Teams ihre Arbeit bestmöglich zu tun. Klassische Linienvorgesetzte werden mit der Agilisierung von Organisationen zu Möglichmachern. Sie räumen Hindernisse aus dem Weg bevor sie die Leistung wertliefernder Teams behindern. Das ist ➚ dienende Führung oder servant leadership. Kein leichter Wandel — das Gegenteil der konventionellen Sozialisierung als ‘Manager’.

Die Funktion der Linienverantwortlichkeit braucht es weiterhin — mit agiler Organisation ändert sich der Rollenzuschnitt von Gruppenleitern oder Abteilungsleitern im mittleren Management. Auch wenn agiler zusammengearbeitet wird, müssen etwa Aufwände korrekt in ERP-Systeme gebucht werden, so dass Leistungen entgolten werden, in den Zahlungslauf kommen und Geld fliessen kann. Oder Urlaubs- und Reiseanträge bewilligt werden. So lange es das noch gibt, muss es jemand machen weil es sich als Verwaltungsakt von selbst nicht erledigt.

Wenn die Rollenanpassung von Vorgesetzten zu Führungskräften, von Managern zu Möglichmachern positiv gelingt, dann bleibt als Relikt aus hierarchischer Organisation und konventioneller HR die Bewertung der Leistung Einzelner — um die es ja nicht mehr geht, wenn die Wertstiftung in Teams geschieht.

Also steht etwas im Weg und behindert, was es beheben soll.

Das zugrunde liegende Problem ist also ein anderes: Beobachten, messen und vergleichen. Bewertung heißt immer auch messen und damit vergleichen mit den Leistungen anderer.

Betrachten wir zuerst …

Wer kann was beobachten? Wie wird verglichen und bewertet?

Mit agiler Organisation ändern sich Rollen und Begriffe. Management wird zu ermöglichender Führung und Teamleistung wird wichtiger als heroische Einzelleistungen.

Ein zweifaches Dilemma winkt:

(1) Wer kann was beobachten?

Welche Personen können unmittelbar und selbst beobachten, was Einzelne im konzertierten agilen Team an individueller Leistung beisteuern? Wie kann ein Linienmanager ausserhalb des produktiven Teams das schaffen — wenn er/sie selbst nicht dabei ist.

(2) Wie geschieht die Messung von Beobachtungen und welcher Art Vergleiche verschiedener Messungen können geschehen?

Können Beobachter die Leistung einzelner Personen fundiert bewerten?
Auf welcher Skala geschieht die Messung und wie differenziert?

Um es sehr kurz zu machen:

Beobachten kann nur, wer Teil der Gruppe ist, in der gemeinsam operativ an Lösungen für drängende Probleme gearbeitet wird. Wer nicht aktiver Teil der Gruppe ist, kann nur dem Hörensagen nach beobachten. Also: weder erfassen noch bewerten.

Eine unabhängige Messung selbst aus einem strukturierten Interviewfragebogen abzuleiten ist schon für darin trainierte Sozialpsychologen nicht leicht. Wie kann das dem überwiegend methodisch untrainierten Vorgesetzten in einem Jahresgespräch gelingen?

Alle messtheoretischen Fehler aussen vor: Leistungsbewertung hat noch nie funktioniert: Menschen sind ernsthaft schlecht darin, die Leistung anderer fair und akkurat zu beurteilen. Messen will gelernt sein und verlangt starke Bedingungen.

Mitarbeiter und bewertender Vorgesetzter haben verschiedene und vor allem versteckte Ziele — was die Ergebnisse verfälscht oder missbräuchlich verwenden lässt.

Culbert, 2010
Gemeinsam ist Bewertern und Bewerteten, ein lästiges ToDo abzuhaken:
[ ] Jahresgespräch → HR
 
Im Motiv des erstrebten Ergebnisses unterscheiden sich Manager und Mitarbeiter.

Die Wahrheit: Brown Nosing beats performance

Nun sprechen da zwei Menschen miteinander, keiner kommt neutral und ohne Vorerfahrung, die Motive und Erwartungshaltungen sind verschieden.

Es zeigt sich: strukturelle Denkfehler dominieren, wo objektive Begutachtung sein sollte.

Der bias des Bewerters hat den grössten Einfluss auf das rating.

Scullen, 2000
Diese strukturellen Denkfehler sind gut dokumentiert: der Halo Effect, Zentraltendenz, Recency und der similar-to-me-Effekt … mehr als 140 sind bekannt und niemand, niemand kann ihnen dauerhaft verlässlich entkommen.

Kein Mensch und damit auch kein bewertender Vorgesetzter kann objektiv beurteilen da kognitive Denkfehler die valide Messung und den Vergleich von Ergebnissen über mehrere Mitarbeiter verhindern.

Dessler, 2004

Die Passung eines Menschen zu allen anderen wird in der Kaffeeküche verhandelt. Die soziale Keule macht die schlimmsten Beulen: »passt nicht zu uns«, »mit dem hab’ ich Schwierigkeiten«. Was so geschieht, ist Diffamierung und Stigmatisierung — der so Gezeichnete ist angezählt und hat geringe Chancen, die Zuschreibung von Eigenschaften ungeschehen zu machen.

Was du machst ist egal — so lange du beliebt bist.

Die subjektive Beliebtheit, das liking hat einen höheren Einfluss auf die Leistungsbewertung als die tatsächliche Leistung.

Sutton, 2013

Soziale Passung statt Leistung

Hinzu kommt eine weitere heftige und bestens untersuchte kognitive Verzerrung (Pulakos & Wexley, 1983): je ähnlicher sich bewertende/r Vorgesetzt/e und Mitarbeiter sind, um so besser fallen appraisals aus.

Von unabhängiger Beobachtung oder Messung kann bei appraisals also keine Rede sein: Gleich und gleich läuft besser als diversity: Gemessen erhoben wird also nicht Leistung (Arbeit x Zeit) sondern die soziale Passung.

Anpassung an sozialnormiertes Verhalten wird belohnt, nicht subjektive Leistung.

Dafür könnte man sich den Aufwand sparen: die soziale Passung zu einer Gruppe ist bei einem Kaltgetränk an einem Tresen schneller geklärt als in einem Jahresgespräch.

Feedback ≠ Feedback

Persönliches Feedback ist vertraulich

Wird agiler gearbeitet, hat der Begriff ‘Feedback’ eine grundlegend andere Bedeutung als umgangssprachlich ‘ich sag Dir jetzt mal, wie Du bei mir ankommst’.

Feedback im sozialen Diskurs ist privat, persönlich und vertraulich.

Feedback in agilen Organisationsprozessen ist ein öffentlicher und nützlicher  Datenpunkt um besser zu werden, das Richtige zu tun und größtmöglichen Nutzen schaffen zu können.

Feedback gehört dem Mitarbeiter, nicht dem Unternehmen, nicht HR. Wenn sich Kollegen vertraulich Feedback geben, dann bleibt das genau dort.

Trost. 2017

Feedback ist unaufrichtig und ethisch verwerflich, wenn die Ergebnisse zu einem Instrument zur Leistungs- oder Passungsmessung umgewidmet werden. Genau dieser Mißbrauch geschieht, wenn ‘der Personaler’ s/eine Sicht als Notiz in die Personalakte gibt.

Agiles Feedback justiert (Zwischen-)Ziele

Feedback von Nutzern ist entscheidend um Produkteigenschaften schnell so anzupassen, dass Nutzerverhalten in die gewünschte Richtung geschieht: mehr Anmeldungen, mehr Transaktionen … was auch immer das Ziel einer Lösung ist.

Je kürzer auf dem Weg zur Lösung Feedbackschleifen geschehen, desto eher kann das jeweils dringlichste Kundenproblem gelöst werden. Um diesen zentralen Regelkreis dreht auch Scrum als agiles Framework:

Zuerst liefern, was den größten Nutzen schafft und auf Dauer nachhaltig kontinuierlichen Durchsatz herstellen.

Scrum trennt geschickt und konsequent, das WAS und WIE vom WARUM — so entsteht mehr als eine Feedback-Schleife:

Das Ziel, das WARUM ist die Produktvision und alle Beteiligten kennen sie. Die eingesetzte Zeit und Aufwand möglichst verlustfrei auf den business value konzentrieren — oder weniger verklausiert: das Ziel verlässlich erreichen.

Den unmittelbaren Nutzen, das WAS kennt die ➚ Rolle des Product Owner am Besten. Sie hat dichten Kundenkontakt und ist das vermittelnde Scharnier zum umsetzenden Team.

Mit welchen Mitteln, WIE das Ziel erreicht wird, ist in Scrum als ➚ Verantwortung und Rolle des Teams definiert. Das Team ist gemeinsam und selbst verantwortlich für die Konsequenzen seines kollektiven Handelns. In schnellen Iterationen wird justiert.

Das ist gewöhnungsbedürftig für konventionelles Management und läuft dem meist unartikulierten Menschenbild entgegen. »Wie können ‘die’ wissen, wo es hin geht? Das muss ich als Manager Ihnen doch vorgeben …?«

Genau so tickt MbO, Management by Objectives.

Individuelle Leistungsmessung oder Verhaltensbewertung gibt es in keinem agilen Framework

Weil die direkte Interaktion mit dem Kunden idealerweise ständig und in kurzen Zyklen geschieht, erleben Entwicklungsteams unmittelbare Konsequenzen in kurzen feedback loops als Regelkreis von einer Iteration zur nächsten, in kleinen Schritten und immer näher am emergenten Ziel.

Emergent? Ja, die Dinge können sich ändern und meistens tun sie das auch: welcher Masterplan bleibt über eine Projektlaufzeit unverändert? Und welcher Steuerungsausschuss ist schnell und informiert genug um effektiv steuern zu können?

Da braucht es keinen vermittelnden Vorgesetzten oder Gremien mehr und keinen client satisfaction survey (der noch dazu keinerlei Gütekriterien einer Messung genügt).

Agilität heisst: Aktion und Reaktion sind so nahe beisammen, wie es nur irgend geht.

Zielvereinbarungen — wenigstens die taugen doch ...?

Eine wissenschaftlich fundierte Begründung für den Nutzen von definierten Zielen stammt häufig von Locke und Latham (2002): 

Menschen, die sich selbst ein Ziel setzen, erreichen dieses besser als jene, die nur versuchen, ihr Bestes zu geben.

Locke und Latham (2002)

Darunter liegt die Hypothese, es gäbe eine direkte Beziehung zwischen der persönlichen Leistung und der Schwierigkeit, das Ziel zu erreichen: je schwieriger das Ziel, desto höher die Leistung?

Leider auch nicht:

Ziele schaden nicht, tragen aber auch nicht zu höherer Leistung bei.

Wood, 1986

Ziele motivieren — wenn man sich selbst Ziele setzt

Die unausgesprochene Grundannahme für den Einsatz von appraisals und Zielvereinbarungen ist eine ganz andere: Menschen müssten mit Zielen motiviert werden — sonst würden sie nicht ordentlich arbeiten.

Diese Sicht entstammt einem Menschenbild aus der Mottenkiste Mitte des letzten Jahrhunderts mit McGregors Typ X/Y und aus dem Zusammenhang interpretierten Taylorismus.

Beide sind seit mehr als 40 Jahren durch die Sozialforschung widerlegt und sind dennoch nicht aus den BWL-Curricula und Köpfen zu kriegen.

The Performance Review is a severe extrinsic motivation device that really assumes that the employee can't be trusted to manage their own motivation intrinsically, and instead it depends on the carrot and the stick. Bonus and promotions are the carrot. Probation and termination are the stick.

Shinsato, 2016

 

Der entscheidende Unterschied agiler Organisation zur Lesart konventioneller Führung ist: man kann nur sich selbst motivieren, nicht andere.

Extrinsische Motivation durch rigide Zielvereinbarungen und die Aussicht auf anteilige Boni am Jahresende verpufft schneller als das obligatorische Jahresgespräch zu Ende ist — intrinsische Motivation ist das WARUM des eigenen Tuns und wirkt jeden Tag aufs Neue.

Douglas McGregor
Frederick Winston Taylor

Leistungsbewertungen sind falsch und schädlich

Seit Jahrzehnten zeigen Längsschnittstudien aus den Arbeits- und Organisationswissenschaften immer wieder das Gleiche. Leistungsbeurteilungen bewirken das Gegenteil dessen, wofür sie eingesetzt werden: sie zerstören intrinsische Motivation und vertrauensvolle Zusammenarbeit.

W. Edwards Deming bezeichnete 1980, vor 40(!) Jahren performance reviews als eine der tödlichen sieben Krankheiten:

Personal review systems, or evaluation of performance, merit rating, annual review, or annual appraisal, by whatever name, for people in management, the effects of which are devastating. Management by objective, on a go, no-go basis, without a method for accomplishment of the objective, is the same thing by another name. Management by fear would still be better.

W. Edwards Deming, 1980 (zititert nach einer Quelle aus 2000)

Jüngere Forschung kommt zum selben, niederschmetternden Verriss:

Wenn jährliche performance appraisals (...) Persönlichkeitseigenschaften und Selbstregulation adressieren, laufen sie nachgewiesenermaßen ins Leere.

Hattie, 2007
W.E. Deming

Kann man nicht wenigstens Leistungsgruppen bilden ...?

Leider nein: auch die losere Variante des stack ranking, bei General Electric eingeführt vom legendären Jack ‘Dampfhammer’ Welch wurde noch 2012 von 60% der Fortune 500 Firmen praktiziert — und zunehmend abgeschafft. 

Microsoft etwa will gruppierte Bewertungsformate weil Deloitte richtig erkannte, dass sie das Gegenteil bewirken, nämlich …

(...) capricious rankings, power struggles among managers, and unhealthy competition among colleagues

Nuttgens, 2016
Jack Welch

Mit dem Aufhören anfangen.

Weshalb eine Praktik fortführen, die niemand leiden kann, die weder nutzt sondern schadet?

Vielleicht, weil es bei Beurteilungen im stillen Kern um Macht und Dominanzgesten geht:
 
»(…) meine Macht als Dein Vorgesetzter Dir spüren zu geben, dass ich über dein Schicksal in diesem Unternehmen entscheiden kann.«
 
Sollte mit dieser Haltung Führung geschehen?
Bitte nicht.
 

Wenn es schwer fällt, trotz aller Belege von Leistungsbeurteilungen abzufallen: diese fünf Prinzipien (adaptiert nach Trost 2017) können bei der Evaluation von Modellen in der Leistungsbeurteilung hilfreich sein.

  1. Verantwortung. Sind Entscheidungen und Bewertungen in der Verantwortung einer zentralen HR oder von Mitarbeiter in Teams? Wem gehören die Ergebnisse?
  2. Offenheit und diversity. Wieviel Variabilität und Offenheit ist möglich? Sollen Massnahmen statistisch über alle Mitarbeiter vergleichbar sein oder ist individuelle Verschiedenheit möglich?
  3. Hierarchie vs Netzwerke. Wer trifft Bewertungen, wer entscheidet? Kunden, Kollegen oder Vorgesetzte? Betreffen Massnahmen Einzelne, Teams oder Gruppen?
  4. Konzentration auf Bedürfnisse. Gibt es ein einziges Instrument zu einem Zeitpunkt und sind immer dieselben Entscheider beteiligt? Oder sind viele Instrumente und Massnahmen möglich und die Entscheider rollieren?
  5. Sein lassen. Wo können Prozesse, Instrumente und Massnahmen komplett eingestellt werden? Gibt es genug Mut, den Dingen ihren Lauf zu lassen?

Sein lassen.

Mit dem Aufhören anfangen.