Scacciamennule: Publish or perish

lunedì 6 ottobre 2008

Publish or perish

Da tempo si parla di introdurre meritocrazia nell'Università, attraverso un processo di valutazione delle attività di un docente. Tutti i commentatori sono bravissimi a indicare la necessità di procedere in tal senso, ma nessuno si è ancora azzardato a dire come procedere. Il problema non è affatto semplice, in effetti.

VALUTAZIONE DI UN DOCENTE

La valutazione del docente universitario non è cosa semplice in generale. Un docente viene valutato su tre fattori complementari: produzione scientifica, attività didattica, attività organizzativa. In questo post mi occuperò esclusivamente della produzione scientifica.

VALUTARE LA PRODUTTIVITA' SCIENTIFICA

La produzione scientifica viene di solito misurata sul numero e sulla qualità delle pubblicazioni del docente. Purtroppo non è affatto facile derivare dei criteri di valutazione uniformi. Infatti, mentre per alcuni settori (quelli scientifici) da anni valgono le pubblicazioni in lingua inglese su riviste internazionali sottoposte a procedure di peer review, in altri settori, come quelli umanistici, le "pubblicazioni" sono cose molto più sfumate e poco controllabili. A parte alcuni eccessi (un collega di ingegneria mi faceva notare con orrore come ad un concorso per un posto di associato ad architettura la rivista di riferimento era "Casa Bella"), valutare in maniera uniforme per tutti i settori scientifici disciplinari non è affatto possibile.

Anche fra settori scientifici omogenei bisogna procedere con le pinze. Ci sono aree di ricerca in cui si pubblica moltissimo, anche 10 articoli l'anno, e di solito tutti i componenti di un laboratorio mettono la propria firma sull'articolo (ad esempio in medicina). In altri settori più teorici invece, la media è un buon articolo l'anno di solito con un massimo di 3 autori.

Quindi, come fare a sapere se un docente è ha una "buona" produzione scientifica? Bisogna purtroppo introdurre indici diversi per settori diversi. Nella mia Università, abbiamo deciso di introdurre il seguente indice: per ogni settore scientifico disciplinare, assegnamo un punteggio per ogni pubblicazione del docente nell'ultimo anno solare. Per esempio, nel settore di ingegneria assegnamo 2.5 punti per una pubblicazione su rivista ISI, 1 punto per una pubblicazione su conferenza IEEE, e così via. Settori diversi avranno regole e punteggi diversi. Perché la produzione scientifica di un docente sia considerata buona, stabiliamo una soglia minima nel punteggio ocmplessivo. Nel nostro caso, ad esempio, abbiamo stabilito che una buona produzione corrisponde a un punteggio di almeno 3 (ovvero minimo una rivista ISI + una conferenza). Infine, chi non raggiunge la soglia, avrà solo la metà dei fondi di ricerca di ateneo. Sebbene questi fondi siano molto limitati (circa 3000 euro), permettono le attività di base del docente, come rimborso per viaggi a conferenze, acquisto del PC, ecc. Quindi, ottenerne solo la metà non è una cosa simpatica, senza dimenticare il fatto di essere indicato come "quello che non ce l'ha fatta a superare la soglia". Per ora abbiamo valutato come Università che questo meccanismo rappresenta uno stimolo sufficiente. Fra un paio d'anni valuteremo se siamo stati nel giusto: cioè se il meccanismo ci ha aiutato ad aumentare la nostra produzione scientifica.

VALUTAZIONE DELLA CARRIERA

Se si vuole sapere invece come valutare la carriera di un docente, di solito si usano gli indici che misurano l'impatto della ricerca. Si tratta di contare il numero di citazione a un articolo scientifico del docente stesso. Più il lavoro è importante e influenza la comunità scientifica, più spesso verrà citato, e quindi più alto è il numero di citazioni, più importante è il docente. Tale indice non si può evidentemente applicare anno per anno: infatti, perché un lavoro di ricerca venga diffuso e abbia impatto, possono passare diversi anni, a seconda di quanto era "futuristica" la ricerca in oggetto, e comunque mai meno di 2 o 3 anni. Per le pubblicazioni sugli atti di congressi, di solito l'impatto è più immediato, ma anche minore.

Ci sono agenzie specializzate nel fare questo lavoro di raccolta di pubblicazioni e di citazioni. In campo scientifico (medicina, agraria, biologia), ISI Web of Science è una delle più importanti, ma purtroppo l'indice è accessibile solo a pagamento. Per ricerche meno precise, Google Scholar va abbastanza bene, tutto sommato, anche considerando il fatto che è gratis!

Se volete sapere come se la cava un docente che conoscete, potete andare su Google Scholar e scavare un po'. Però non è semplicissimo farlo, l'interfaccia fornita è volutamente scarna. Per accellerare le ricerche, vi consiglio di scaricare e installare questo interessante programmino:

Harzing's Publish or Perish

Seguendo le istruzioni, basta digitare il nome del ricercatore, restringere la ricerca ai campi di interesse (ad esempio Engineering nel mio caso) e voilà, il programma si collega a Google Scholar per tirar fuori tutta una serie di indici di performance noti in letteratura.
Il più importante si chiama h-index (Hirsch Index) ed è definito così:

l'h-index di un ricercatore è pari a k se il ricercatore ha almeno k paper con non meno di k citazioni, e il k+1-esimo ha meno di k citazioni.

Un ricercatore il cui h-index sia pari a 10 significa quindi che ha 10 articoli con almeno 10 citazioni, mentre l'undicesimo ha meno di 10 citazioni.
Chiaramente, più alto è l'h-index, meglio è!
Esistono altri indici simili, e il programma ve li calcola quasi tutti, ma per interpretarli serve uno specialista!

Purtroppo, Google Scholar è tutt'altro che perfetto. Non contiene tutte le pubblicazioni del mondo nel suo database; non elimina le self-citation (ovvero un autore che cita un se stesso), per cui gli indici possono essere un po sovrastimati; è molto poco ferrato nelle pubblicazioni nel campo umanistico, perché contempla soltanto pubblicazioni in lingua inglese, mentre la maggior parte delle pubblicazioni in lettere, scienze politiche, giurisprudenza, filosofia, etc. sono nella lingua dell'autore (a parte alcune notevoli eccezioni!). Infine, i valori assunti dagli indici citati variano fortemente da settore a settore, e quindi ha poco senso usare l'h-index per comparare docenti di settori diversi (purtroppo).

Per cui non si può usare Google Scholar come misura puntuale e precisa della carriera di un docente, e quindi non può essere utilizzato direttamente per fare la classifica in un concorso. Semmai può essere usato per dare una valutazione approssimata, valida ad esempio per fare la prima scrematura tra i candidati. Ma poi è sempre necessario andare a valutare i contributi nello specifico, leggendo gli articoli e valutandoli, e magari questa seconda operazione può essere fatta su un numero ridotto di candidati.

E per i settori umanistici? Beh, mi sembra che il secondo approccio sia difficilmente evitabile, a meno che non si intenda costruire una valida infrastruttura a livello nazionale per catalogare le pubblicazioni in ogni area, in modo da costruire un data-base analogo a Google Scholar. Sinceramente non credo che questo sia fattibile, né a breve né a lungo termine.

CONCLUSIONI

Se si vuole riformare l'Università è assolutamente necessario, anzi indispensabile, utilizzare dei meccanismi di valutazione dell'operato dei docenti. Come ho tentato di mostrarvi (e spero di esserci riuscito), già la sola valutazione della produzione scientifica è compito tutt'altro che semplice, e c'è anche un area di ricerca internazionale che si occupa di trovare i migliori "indici di prestazione", da cui sono usciti gli indici che trovato sul programma citato. E' quindi pura fantasia pensare che tale valutazione possa essere fatta anno per anno a livello ministeriale per fissare gli stipendi dei professori, come invece propongono in molti (che evidentemente non hanno alcuna idea del problema).

In un prossimo post mi occuperò di valutazione a livello di Dipartimento, e quindi di Università. L'obiettivo è quello di una riforma complessiva dell'Università, come ad esempio proposto qui.

8 commenti:

Anonimo8 ottobre 2008 alle ore 15:43
Problema: come mai una pubblicazione su un giornale ISI vale lo stesso punteggio indipendentemente dalla rivista? Ovvio che pubblicare su Nature o Science (dove vengono rigettati piu' del 98% degli articoli sottoposti) non e' la stessa cosa che pubblicare sul giornale della societa' neozelandese per la conservazione del piranha, che ha impact factor 10^-6.
Se ci sono fior di statistiche, e interi istituti che studiano il problema del ranking di giornali e ricercatori, com'e' che noi italiani dobbiamo sempre essere piu; furbi e trovare un metodo "migliore"? Non si potrebbe semplicemente sommare l'IF delle riviste in cui uno ha pubblicato e "premiare" il 10% dei docenti nel dipartimento che ha fatto meglio e "punire" il 10% che ha fatto peggio?
RispondiElimina
Risposte
Anonimo8 ottobre 2008 alle ore 17:05
per intanto che c'è la Gelmini e sta banda di arriffoni non credo se ne possa parlare.
Ma diffondere fa cultura ed è un modo per resistere.
RispondiElimina
Risposte
Giuseppe Lipari8 ottobre 2008 alle ore 18:14
@ste: l'issue dell'impact factor e' stato dibattuto a lungo, ed e' uno dei motivi per il quale settori disciplinari diversi hanno regole diverse. Ad esempio, l'IF nella nostra universita' viene usato per differenziare il punteggio nel settore di medicina, biologia e agraria. In effetti, in quei settori, l'IF e' un indice molto importante e significativo. Chi pubblica su una rivista con IF alto becca un punteggio maggiore rispetto a chi pubblica su una rivista a IF basso, come proponi tu.

Nel settore dell'ingegneria dell'informazione invece, che riguarda l'esempio che ho riportato nel post, l'IF conta pochissimo. Per esempio, la migliore rivista del settore, IEEE Transactions on Computers, ha un IF di 2 circa, quella piu' scarsa ha 0.35. Inoltre, questi indici fluttuano molto da anno a anno. Insomma, si rischia di introdurre un elemento random, e questo non va molto bene. Questo puo' probabilmente dipendere dal fatto che l'ISI non copre bene questi settori, oppure che in questi settori i simposi abbiano un'importanza alta e l'ISI non li classifica, o ancora da altri fattori che non abbiamo ancora ben compreso.

E qui non c'entrano niente gli italiani: e' cosi' a livello internazionale. In USA l'IF non viene usato nel mio campo.

Se hai voglia, su richiesta ti posso mandare via e-mail un documento in cui analizziamo la possibilita' di usare l'IF anche a ingegneria informatica, robotica e telecomunicazioni, con tanto di grafici e statistiche, e concludiamo che non e' il caso. Non si tratta di fare i furbi, ti assicuro.

Ti faccio anche presente che questo sistema di punteggi e' stato pensato per dividere i fondi di ateneo (3000 euro a testa): pertanto non ha senso andare a spaccare il capello in quattro. Lo proveremo, e tra un po' riporteremo i risultati pubblicamente, promesso!

Grazie per il contributo comunque!
RispondiElimina
Risposte
Giuseppe Lipari10 ottobre 2008 alle ore 10:14
@Jacopo:
velocemente: sia la rivista che la pubblicazione sugli atti sono soggette e peer-review. La conferenza deve essere ACM o IEEE, la rivista deve essere ISI (quindi non propriamente a caso). Nelle migliori conferenze IEEE si arriva ad acceptance rate del 25%, su IEEE Transactions si arriva a 30% circa.
Lo so che è un minimo, ma ti assicuro che l'anno scorso qualcuno non è arrivato al punteggio minimo. Stiamo cercando di cominciare a stanare quelli lì.

Distinguere tra riviste "buone" e "cattive". Facile a parole, ma ti invito a provare a farlo. Io personalmente avevo proposto che ogni settore individuasse 5/6 riviste da considerare "buone", e le altre meno buone automaticamente. Ma non è passata (in effetti richiede un lavoro di scavo non indifferente). Come detto, in medicina e agraria usano l'IF come discriminante (non ricordo la soglia, mi pare 3 o 4 come soglia discriminante fra rivista buona e meno buona). Si era anche pensato di dividere il punteggio per il numero degli autori ma abbiamo incontrato forti opposizioni, quindi nisba.

La cosa poi è in fase di rodaggio: se vediamo che l'asticella è troppo bassa, l'anno prossimo la alzeremo.
Ti faccio presente che questo livello minimo è costato fatica, infinite riunioni e distinguo, lotte tra il "nuovo" e il "vecchio". In queste riunioni poi, i nostri giuristi hanno la capacità di sottilizzare su qualunque cosa...

Insomma, tutti vogliono la valutazione sul merito a parole, poi bisogna vedere che vuol dire "valutazione".
RispondiElimina
Risposte
Giuseppe Lipari10 ottobre 2008 alle ore 12:27
caro Jacopo, lascia anche che ti dica il VERO motivo della nostra procedura di valutazione: costringere tutti i docenti a inserire le pubblicazioni aggiornate sul database. Poi usiamo il database per a) calcolare automaticamente i punteggi b) fare la lista delle pubblicazioni sulla pagina web del docente. In questo modo nessuno si può nascondere dietro il dito di "la pagina web non è aggiornata". Se vuoi, puoi andarti a fare un giro sulle pagine web dei docenti, e si capisce subito chi è avanti e chi è indietro. :)
ciao e non ti arrabbiare troppo!
RispondiElimina
Risposte
tommaso19 giugno 2010 alle ore 01:07
Cito testualmente: "[pop] Semmai può essere usato per dare una valutazione approssimata, valida ad esempio per fare la prima scrematura tra i candidati."

Sinceramente, mi vengono i brividi se penso all'eventualità che, nella valutazione di una mia domanda di partecipazione ad un concorso, possano venir utilizzati meccanismi automatici e del tutto inaffidabili come quello in questione, "per una prima scrematura". Voglio dire, ci vuole un'intera giornata e forse più per assemblare tutto il materiale, comprensivo dell'indicazione corretta e precisa di tutte le pubblicazioni, nonché una vera e propria "ricostruzione" della propria carriera accademica, andando a scavare nel passato, esperienze didattiche, ecc., poi si butta via tanta carta per stampare non solo gli articoli e i titoli, ma anche tanto di dichiarazioni di conformità agli originali ecc., e alla fine devo pensare che una commissione di concorso abbia utilizzato pop per escludere il mio nomivativo ? Qui si rischia la rivoluzione (oltre che il ricorso al tar) !

Molti di questi sistemi on-line che calcolano "metriche" non solo non escludono le self-citation, ma contano come riferimento qualsiasi tipo di "collegamento web" ai lavori, proveniente da qualsivoglia pagina web, compresi gli archivi (multipli e ridondanti) di mailing list varie, presentazioni on-line, addirittura il proprio (o altrui) CV on-line, ecc, ed oltretutto come tutti i sistemi di raccolta automatica delle informazioni su articoli scientifici, è altamente inaffidabile nell'identificazione degli autori (chi è davvero chi -- si pensi agli omonimi, o agli autori a volte indicati per nome esteso altre volte abbreviati con la prima lettera del nome, altre volte indicando un'abbreviata di un nome intermedio ecc.), delle istituzioni (si pensi alle volte in cui compare l'istituzione, quelle in cui compare il dipartimento, per non parlare di chi ha cambiato dipartimento e/o istituzione durante la propria carriera).

No, non sono d'accordo sull'utilizzo di scorciatoie di questo tipo per la selezione in un concorso pubblico. Purtroppo, la selezione va fatta in maniera seria e sulla base del plico consegnato dal candidato, nonché di sorgenti di informazioni affidabili e certificate. Di conseguenza, chi è chiamato a decidere deve perdere tutto il tempo necessario . . .
RispondiElimina
Risposte
Anonimo1 luglio 2011 alle ore 13:47
Giusto per la cronaca... "Casabella", nonostante il nome un po' salottiero, è la più nota rivista di architettura italiana, ampiamente diffusa anche a livello internazionale. Nonostante in anni recenti abbia subito un certo calo nel livello delle pubblicazioni, storicamente fin dagli anni '30 è il più importante punto di riferimento per tutta la cultura architettonica italiana.
RispondiElimina
Risposte
Giuseppe Lipari1 luglio 2011 alle ore 15:01
Caro anonimo, grazie per la precisazione. Evidentemente noi ingegneri siamo un po' prevenuti (e sbagliamo a esserlo).
RispondiElimina
Risposte

Attenzione: I commenti a vecchi post potrebbero essere moderati