AI

18 differenze tra buoni e grandi scienziati di dati

  • Redazione
  • 21/04/2022
  • Tempo di lettura: 7 minuti

Se sei impiegato come data scientist e sei sopravvissuto (o hai lottato!) nella tua posizione per più di un anno, è probabile che tu sia almeno un buon data scientist. Questo è particolarmente vero se sei stato promosso. La differenza tra un mediocre e un buon Data Scientist sarà l’argomento di un articolo futuro. Ho deciso di scrivere questo articolo dopo aver letto un post virale su LinkedIn, intitolato “10 differenze tra dilettanti e analisti professionisti”. L’autrice, Cassie Kozyrkov, è Chief Decision Scientist di Google. Inizio con la lista di Cassie, e poi aggiungo i miei suggerimenti.

La lista di Cassie

Ecco la sua lista top-10, nel suo ordine (probabilmente casuale):

Competenze software Gestire molti dati con facilità Immunità ai pregiudizi della scienza dei dati Comprendere la carriera Rifiutarsi di essere un ciarlatano dei dati Resistenza ai pregiudizi di conferma Aspettative realistiche sui dati Sapere come aggiungere valore Pensare diversamente al tempo Visione sfumata dell’eccellenza

Il mio elenco

Le abilità, competenze o esperienze di un grande Data Scientist coprono diverse categorie. Ho suddiviso la mia lista in base a queste categorie. Alcune si sovrappongono alla lista di Cassie.

Ottimizzare il tuo tempo

Ottimizza il tuo tempo per produrre valore più velocemente. Questo suona come un problema di apprendimento automatico in sé. Ma ci sono alcune regole empiriche.

Conoscere la regola 80/20: non cercare la perfezione, cerca modelli “abbastanza buoni”. I vostri dati non sono comunque perfetti. Seguendo questa regola, puoi gestire più progetti più velocemente. Automatizzare l’analisi esplorativa dei dati. Dedicate poco tempo alla codifica e alla pulizia dei dati in questa fase. Invece, questo dovrebbe essere un processo semplificato, iniziato e completato con un click la maggior parte delle volte. Non reinventare la ruota. Scrivi codice riutilizzabile e usa Python o altre librerie quando possibile. Documentate correttamente il vostro codice. Usa nomi di variabili che abbiano un significato reale, anche se sono lunghi. Organizza il tuo materiale in cartelle, sul cloud (così sopravviverà ad un crash del laptop). Aumentare il tempo dedicato alla documentazione. Un ingegnere di Google, ben pagato e molto apprezzato, è arrivato al punto di esternalizzare e pagare persone in India, per fare parte del suo lavoro. Sconsiglio vivamente di farlo, perché i dati e la tecnologia della vostra azienda sono privati. Non sottovalutate Excel. Alcune analisi, anche quelle avanzate, possono essere fatte in Excel. Inoltre, le persone non tecnologiche hanno familiarità con Excel. Quindi puoi condividere la tua analisi completa con vari team, come le vendite, il prodotto o il marketing. Assicuratevi che ci sia una scheda riassuntiva nel vostro foglio di calcolo, chiamata (diciamo) “dashboard”. In questo modo, le persone non tecnologiche non perderanno troppo tempo sul tuo foglio di calcolo. Vi aiuterà anche quando guarderete il vostro foglio di calcolo 6 mesi dopo.

Ottimizzare il tempo degli altri

La direzione ti apprezzerà se seguirai queste regole. La ricompensa è maggiore rispetto all’uso di algoritmi stellari. Ricorda, il tempo è denaro.

Capire cosa la direzione sta realmente cercando di risolvere. Questo ridurrà il numero di riunioni e iterazioni necessarie per risolvere il problema. E le possibilità di lavorare su un progetto che non va da nessuna parte, sono minori. Scoprire le opportunità di aggiungere valore. La direzione potrebbe non essere consapevole del potenziale sbloccato dei dati aziendali. Sii proattivo suggerendo i frutti più bassi che pendono, piuttosto che reattivo. Abbraccia la semplicità, spiega le cose con parole semplici. Usare modelli semplici quando possibile: sono più facili da spiegare e più convincenti. Al giorno d’oggi, i dirigenti amano l’IA spiegabile più degli oscuri sistemi black-box. Ha anche un impatto positivo sulla riduzione del rischio. Progettare grafici e visualizzazioni potenti. Una buona immagine vale più di mille parole. Una buona, breve animazione di dati (video o anche un’immagine Gif) vale molte immagini. E di questi tempi, sono facili da produrre, senza alcuna codifica. Vedi il mio esempio nella figura 1.

Acume per i dati e i modelli

È possibile acquisire queste abilità, come qualsiasi altra abilità nella mia lista. Alcune persone sembrano essere nate con esse. Si chiamano talentuosi. Se sopravvivi abbastanza a lungo nella tua linea di lavoro, alla fine le acquisirai automaticamente. Ma è meglio iniziare presto, per una crescita più rapida della carriera. Puoi chiamarli acume analitico.

Valuta il reale potenziale atteso e la variabilità del tuo modello o delle tue previsioni. Sotto-promettere, ma sovra-consegnare. Non esitare a menzionare potenziali difetti o debolezze. Tuttavia, trovate il giusto equilibrio: non spaventate gli stakeholder chiedendo troppo tempo per perfezionare le vostre analisi, a meno che non sia giustificato In alcuni casi, ricominciare un’analisi da zero è più efficiente che cercare di sistemarla. Cercare dati mancanti o fonti di dati esterne. Nei primi giorni di Covid, la maggior parte delle persone non venivano testate. Molti hanno recuperato da soli. Il numero di persone “recuperate” era enormemente sottostimato. Il buon senso funzionava meglio delle analisi più sofisticate, per fare previsioni. E richiede molto meno tempo e risorse. Al giorno d’oggi, i dati non osservati in questione sono catturati attraverso le misurazioni dei virus nelle acque reflue. Fondere più algoritmi piuttosto che opporli l’uno all’altro per trovare un vincitore. Alcuni algoritmi funzionano meglio su alcune osservazioni e non così bene su altre. Una decisione assegnata ad un’osservazione può essere il risultato di un voto tra più algoritmi concorrenti. Tale mescolanza è nota come metodi ensemble. Eseguite un’analisi di sensibilità sul vostro set di dati: aggiungete rumore ai dati, giocate con dati sintetici, eseguite simulazioni. Vedete come le vostre previsioni sono sensibili al rumore o ai dati errati. Padroneggiare la selezione delle caratteristiche e le tecniche di convalida incrociata. Non dimenticate la manutenzione del modello. Alcune tabelle, parametri o regole cambiano nel tempo. Perché i dati cambiano nel tempo. Attenzione ai dati ibridi. I dati provenienti da diversi fornitori (o dal passato) possono avere campi simili. Ma possono essere misurati in modo diverso.

Consigli specifici per il codice

Trova i colli di bottiglia nel tuo codice. Pensa a come rendere il tuo codice più veloce. Lascia che il tuo codice generi messaggi di avvertimento e di errore inviati per email alla persona giusta (per esempio: “set di dati vuoto”, o “matrice determinante vicina allo zero”). Lasciate che il vostro codice produca un registro di attività e tabelle riassuntive aggiornate in tempo reale. In questo modo, se il programma o il server si blocca, il vostro programma può essere ripreso da dove si è fermato, senza perdita di dati. Il vostro algoritmo può essere progettato con questa caratteristica in mente.

Ottenere il feedback della comunità

Ho incluso qui due elementi che a volte vengono trascurati.

Pubblicare e condividere ciò che si può con la comunità. GitHub e alcuni gruppi sociali sono grandi piattaforme per ottenere feedback e raccomandazioni. Per esempio, il blog della vostra comunità di venditori, reddit.com/r/MachineLearning o Quora, a seconda dell’argomento. Imparare, imparare, imparare. I corsi online sono un’opzione. Se sei un autodidatta, passa del tempo a leggere cosa stanno facendo gli altri. Hai bisogno di grandi capacità di ricerca per questo, e di usare il giusto motore di ricerca. Nel mio caso, StackExchange più che Google. Quando ho progettato il mio classificatore di forme, cercare su Google “classificazione delle forme” non è stato utile. Ma “shape classification machine learning” ha portato a risultati interessanti.

Esempio

L’immagine seguente riassume molti dei concetti discussi qui. Viene da Excel, e ho usato strumenti online gratuiti (EZgif.com) per fare l’immagine Gif senza scrivere alcun codice. Ci è voluto pochissimo tempo. Questa Gif animata è un riassunto delle prestazioni del modello. L’ho progettata quasi come una presentazione di vendita (in realtà è gratuita, ma voglio che la gente la guardi). Inoltre, ho cercato l’idea su Google e ho trovato diversi articoli. Questo mi ha aiutato ad evitare alcuni degli inconvenienti discussi in letteratura. Infine, la tecnica appartiene all’IA spiegabile, e sfrutta i dati sintetici. Si potrebbe migliorare l’immagine utilizzando parole significative (“correlazione”) piuttosto che lettere greche, per gli indicatori di performance principali.

Potete trovare il foglio di calcolo in questione sul mio repository GitHub, qui. L’immagine si trova nella scheda “Dashboard”. Per le spiegazioni, leggete questo articolo. La Gif è resa correttamente in quell’articolo: presenta otto coppie di forme in un periodo di tempo di 40 secondi. Puoi trasformarla in un video (file MP4) in un clic, usando la stessa piattaforma EZgif.com. Condividere quello che puoi sulla nuvola, era uno dei miei consigli. È possibile concedere l’accesso a persone selezionate, non è necessario che sia completamente pubblico.

Circa l’autore

Vincent Granville è uno scienziato dell’apprendimento automatico, autore ed editore. È stato il co-fondatore di Data Science Central (acquisito da TechTarget) e più recentemente, fondatore di MLtechniques.com.

Ciao, sono Michele!

Sono molto felice di saperti qui.
Ogni giorno ti raccontiamo qualcosa di nuovo sull'AI e sulle nuove tecnologie. Seguici sui social o iscriviti alla newsletter!

Iscriviti alla newsletter!

Iscrivendoti accetti la nostra Privacy Policy

Ti va di rimanere aggiornatə?

Niente spam, niente pubblicità. Ogni tanto una mail. Tutto qui.
(Ah, ovviamente i tuoi dati non verranno mai ceduti)

Iscrivendoti accetti la nostra Privacy Policy