venerdì 19 dicembre 2014

L'asteroide che ucciderà questo dinosauro deve ancora arrivare (seconda parte)

L'articolo è diviso in tre parti:
Prima Parte
Terza Parte

La volta scorsa abbiamo visto un po' di automi e le basi delle espressioni regolari (ed abbiamo intuito una relazione tra i due). Questa volta faremo un po' meno teoria e un po' più pratica: vi illustrerò i metodi che adopero per leggere e scrivere le regex.

Leggere le espressioni regolari

Il primo impatto con le regex è (quasi) sempre traumatico, specialmente se nessuno vi ha mai spiegato prima che quelle sono istruzioni per il computer e non usi creativi della punteggiatura ("ma che c[a-z]{0,} !!?").

Anche sapendo che il punto ha un significato, il più un altro e l'asterisco un altro significato ancora è facile confondersi e sbagliare.

Siccome in Rete si possono trovare numerosi esempi di espressioni regolari che eseguono i compiti più disparati molti si limitano a fare copia & incolla senza fermarsi a capire cosa effettivamente facciano quegli scampoli di lettere e caratteri apparentemente causali.

Alla luce di ciò mi pare giusto che, prima di andare avanti, vi spieghi come si leggono le regex. Specialmente perché potreste ritrovarvi a dover modificare un'espressione scritta da qualcun altro molto tempo fa (anche il vostro ego di 8 mesi fa conta come "qualcun altro").

Siccome scriverò parecchie regex e siccome le scriverò in mezzo al testo dell'articolo userò la seguente convenzione: le regex saranno scritte in monospace e racchiuse tra singoli slash (/). Gli slash NON vanno interpretati come parte della regex ma solo come delimitatori. Questa convenzione è adottata sia dal linguaggio AWK che dal perl e da sed (un tool che vedremo nel prossimo articolo).

La prima regola è: comportarsi come la macchina.

Le espressioni regolari si leggono un carattere alla volta da sinistra a destra. Non provate a saltare dei pezzi o a fare assunzioni, perché la macchina NON lo fa.

La seconda regola è: puntare sempre a riconoscere il più possibile.

Facciamo un esempio con questo testo di input:

Vuolsi così colà dove si puote ciò che si vuole e più non dimandare.
L'espressione regolare /co.*/ applicata al testo precedente ritornerà come stringa trovata la seguente porzione:

così colà dove si puote ciò che si vuole e più non dimandare.
Siccome il . significa "un carattere qualsiasi" e la stella (*) significa "zero o più" quell'espressione si legge come "co seguito da zero o più caratteri qualsiasi". Non essendoci un limite superiore il match prende il primo co, quello di così, e copia in uscita tutto quello che trova fino a raggiungere la fine del testo.

Se invece avessimo usato l'espressione /co../? Avremmo avuto qualcosa del tipo "co seguito da un carattere qualsiasi seguito a sua volta da un altro carattere qualsiasi. Il risultato sarebbe stato solamente così.

Il che mi permette di introdurre la terza regola: salvo indicazione contraria fermati al primo risultato corretto che trovi.

Questa regola è importante quando ci si trova davanti ad una espressione regolare che, pur essendo corretta, non riconosce tutto quello che ci interessa riconoscere. La colpa spesso non è della regex, ma delle opzioni che abbiamo passato al programma che la interpreta.

La seconda regola invece spiega perché certe espressioni regolari funzionano su certi input ma riconoscono anche input che non si voleva riconoscere: di solito perché si è stati troppo generosi nell'uso di ., * e +.

Armati di queste nuove conoscenze vediamo di capire cosa riconosce la seguente espressione:

/[0-9]*\.[0-9]+([eE][-+]?[0-9]+)?/

Piuttosto complessa, vero? Ma adesso sappiamo come procedere a leggerla (si spera).

Il primo carattere è una parentesi quadra aperta e quindi quello che segue è la definizione di una classe di caratteri, segue uno 0 che ci dice che la classe contiene quel carattere. Il - ci dice che stiamo componendo un range di caratteri e il 9 è il carattere di chiusura del range. La parentesi quadra chiusa termina la definizione della classe.

Riepilogando: crea una classe composta da tutti i caratteri da 0 a 9. Segue un * che ci dice "zero o più di quello che mi precede", quindi adesso sappiamo che la stringa cercata può cominciare con una o più cifre decimali.

Il carattere successivo è un backslash (\) che ci informa che il prossimo carattere va interpretato diversamente da come lo si interpreta di solito; infatti il punto che segue normalmente vorrebbe dire "un carattere qualsiasi", ma in questo caso significa "un punto". Quindi lo interpretiamo come un punto letterale.

Segue una replica della classe che abbiamo definito all'inizio seguita a sua volta da un +. Questo si legge come "una o più cifre decimali".

La parentesi tonda aperta ci informa che stiamo definendo un gruppo e la parentesi quadra aperta che la segue ci dice che stiamo definendo un'altra classe che contiene una e ed una E. La classe ci dice che il gruppo comincia con una lettera "e" minuscola oppure maiuscola. La classe che la segue ci mostra che il - inserito all'inizio di una classe non viene considerato come un separatore di range ma come un carattere letterale. L'espressione /[-+]/ significa quindi "un meno oppure un più", seguita da un punto di domanda (come in questo caso) diventa: "può esserci un meno oppure un più, ma può anche non esserci nulla".

Segue la classe delle cifre con un più che adesso sappiamo vuol dire "una o più cifre decimali", quindi arriva la parentesi tonda che chiude il gruppo e un punto interrogativo.

Il punto di domanda è un quantificatore che si riferisce al gruppo e quindi il gruppo che abbiamo appena definito può essere presente in toto una volta oppure non esserci affatto.

L'espressione nel suo complesso si legge: "Un punto preceduto eventualmente da alcune cifre decimali e seguito da almeno una cifra decimale e da un gruppo opzionale di caratteri che comincia con una 'e' o una 'E' seguita da un'eventuale indicazione di segno seguita da una o più cifre decimali". In breve si tratta di un qualsiasi numero decimale in virgola mobile positivo con eventuale indicazione dell'esponente.

Scrivere un'espressione regolare

A quanti non hanno ancora desistito e stanno proseguendo la lettura va il mio più sentito ringraziamento. Per premiarvi di tanta dedizione adesso vi confiderò il metodo che adopero per scrivere una regex (nella segreta speranza che vi sarà utile un giorno).

Per rendere le cose più facili (o più difficili) espanderemo l'espressione vista nella sezione precedente, che riporto di seguito per ridurre l'usura delle rotelline dei mouse:

/[0-9]*\.[0-9]+([eE][-+]?[0-9]+)?/

Questa espressione ha due difetti:

  • Non riconosce i numeri decimali negativi nè quelli positivi preceduti da un più (+).
  • Non riconosce i numeri decimali come 1. oppure 47.
Se volessimo riconoscere tutti i numeri decimali in virgola mobile quell'espressione mancherebbe diversi bersagli.

La prima cosa che faremo sarà aggiungere il segno. Sappiamo che il segno può essere un - oppure un + oppure nulla e sappiamo che se è presente si trova al primo posto, prima cioè di qualsiasi altro carattere che compone un numero decimale in virgola mobile.

Dalla nostra analisi dell'espressione abbiamo già trovato l'espressione che riconosce il segno: /[-+]?/. Ci limiteremo ad inserirla nel posto giusto:

/[-+]?[0-9]*\.[0-9]+([eE][-+]?[0-9]+)?/

Risolto il nostro primo problema dobbiamo cercare una maniera per risolvere il secondo problema.

La prima cosa che si deve fare quando si crea una regex è cercare un schema generale che si ripeta. Nel caso dei numeri decimali con il punto alla fine lo schema è proprio il punto alla fine: deve esserci sempre, altrimenti non stiamo leggendo un numero decimale in virgola mobile.

Quindi il punto dev'esserci e deve stare alla fine, ma davanti cosa ci va? Una o più cifre decimali eventualmente precedute dal segno.

Sappiamo che il simbolo + indica che quello che lo precede dev'essere presente "una o più volte" e che il simbolo ? significa che ciò che lo precede dev'essere presente zero oppure una volta ma non di più.

Quindi l'espressione per cercare i numeri decimali in virgola mobile composti da un numero seguito da un punto è la seguente:

/[-+]?[0-9]+\./

Abbiamo usato due classi, due quantificatori e un simbolo letterale per trovare tutti e soli i numeri simili a 47.. L'inizio di questa espressione somiglia moltissimo all'inizio dell'espressione precedente e potremmo essere tentati di sostituire la stella (* che significa "zero o più senza limite superiore") con il più (che significa "uno o più senza limite superiore"). Ricaveremmo la seguente espressione:

/[-+]?[0-9]+\.[0-9]+([eE][-+]?[0-9]+)?/

Facendo così però abbiamo imposto che ci siano delle cifre prima e dopo il punto, restringendo la gamma di numeri che riconosciamo anzichè ampliarla.

Se invece sostituissimo i due + dell'espressione appena trovata con due stelle? Otterremmo questa:

/[-+]?[0-9]*\.[0-9]*([eE][-+]?[0-9]+)?/

E riconosceremmo sia i numeri che hanno delle cifre prima del punto ma niente dopo che quelli che hanno delle cifre dopo il punto. Peccato che la nuova espressione sia fin troppo generosa e riconosca anche le seguenti stringhe come valide:

  • .
  • -.e0
  • .E-0
E noi non le vogliamo perché quelle stringhe non sono numeri validi!

Che si fa? O siamo troppo rigorosi oppure siamo troppo permissivi... Uhm... Non c'era un operatore che ci permetteva di dire "questo oppure quello ma non tutti e due"? Sì, Virginia, c'è e si tratta della barra verticale (|) che i fan di UNIX chiamano "pipe" perché ha un significato ben preciso nella shell UNIX.

Il segno opzionale all'inizio ci va bene e lo lasceremo dov'è, creeremo invece un gruppo che conterrà al suo interno un | per spezzare in due le possibilità di riconoscimento. Nella prima parte metteremo l'espressione per i numeri come 47. e nella seconda metteremo l'espressione originale che abbiamo visto nella sezione precedente.

Quindi abbiamo il segno:

/[-+]?/

Poi apriamo un gruppo e ci mettiamo i numeri con prima le cifre e poi il punto e basta seguiti da un "oppure":

/[-+]?([0-9]+\.|/

E infine rimettiamo l'espressione originaria e chiudiamo il gruppo:

/[-+]?([0-9]+\.|[0-9]*\.[0-9]+([eE][-+]?[0-9]+)?)/

Rileggiamo la nostra nuova espressione: un segno opzionale seguito da una o più cifre seguite da un punto oppure da zero o più cifre seguite da un punto seguito da una o più cifre seguito da un esponente che si compone della lettera e (maiuscola o minuscola) seguita da un segno opzionale seguito da una o più cifre.

Vi lascio come compito per casa l'espansione di quest'ultima espressione regolare affinché riconosca anche i numeri decimali interi: una o più cifre decimali precedute da un simbolo di segno opzionale e nessun punto.

La prossima volta ci occuperemo di alcuni programmi della shell UNIX che fanno largo uso delle regex.

Aloha!

Prima Parte
Terza Parte

L'asteroide che ucciderà questo dinosauro deve ancora arrivare (prima parte)

Disclaimer: l'articolo che segue non è un rant né l'analisi di una qualche vulnerabilità di sicurezza. Si tratta di un articolo su una delle basi teoriche che fanno da fondazione ad una marea di strumenti e di software. Se non siete interessati o avete una fobia per le lezioni che vi portate dietro dai vostri trascorsi da studenti passate oltre.
L'articolo è diviso in tre parti:
Seconda Parte
Terza Parte

Riconoscere un pattern in un testo è un'operazione piuttosto comune: si va dalla ricerca di una parola (o di parte di una parola) in pagine Web o in documenti di testo e si arriva a cose come ricerca e sostituzione di date dal formato americano (MM/GG/AAAA) al formato europeo (GG/MM/AAAA).

Di solito chi si intende di programmazione riconosce immediatamente questi compiti come tipiche operazioni da affidare alla macchina: si tratta infatti di attività tediose, altamente ripetitive e che richiedono l'applicazione pedissequa di una sequenza limitata di istruzioni. Compiti simili hanno risultati disastrosi se affidati ad un essere umano ma sono ideali per un computer.

Ed in effetti questi compiti sono stati oggetto di studio per interi decenni da parte di quel branco di matematici pigri che si chiamano informatici (o Computer Scientists in lingua inglese). Oltre a trovare metodi ottimi per la ricerca di singole parole in un testo (Algoritmo di Knuth, Morris e Pratt) gli informatici del passato hanno studiato attentamente i pattern e i modi di definirli e di riconoscerli.

Automi e Dinosauri

No, non si tratta di Transformers. Gli automi di cui discuteremo sono dei modelli teorici molto comuni in informatica ed ingegneria: gli automi a stati finiti. Sono utilizzati per modellare i processi in termini di stati e transizioni. Più propriamente tratteremo gli automi a stati finiti deterministici; chiamati così perché hanno un numero finito di stati e in ogni momento della loro esecuzione in base all'input e allo stato si avrà una ed una sola transizione verso un altro stato.

Ora che i vostri occhi hanno smesso di roteare cominciamo con la teoria pesante! :-D

Partiremo con l'analisi di un automa che, dato un testo in ingresso, stabilisce se all'interno del testo è presente una sequenza di almeno 3 'a' consecutive. Di seguito il grafico dell'automa:

Dal grafico è facile vedere come l'automa procede nel suo compito: si comincia dallo stato START e si legge un carattere, in base al carattere letto si decide quale transizione seguire. Se si arriva nello stato OK si interrompe la computazione e si comunica il successo, se si esaurisce il testo di input senza essere arrivati allo stato OK l'input non contiene nessuna sequenza di (almeno) tre a.

Nel gergo degli informatici diciamo che ad ogni transizione consumiamo un carattere per indicare il fatto che, dopo ogni passaggio di stato, l'automa legga il carattere successivo del suo input.

Scrivere un programma che legga dallo standard input e stampi "OK" se c'è una sequenza di 3 o più a è un tipico esercizio che viene dato ai principianti di un linguaggio di programmazione. Avendo presente il grafico di prima l'esercizio diventa veramente semplice dal punto di vista concettuale: praticamente il programma È il grafico, si tratta solo di riportarlo in una sequenza di istruzioni comprensibili dalla macchina.

Da quanto scritto poc'anzi si deduce che esiste una nave portacontainer piena di applicazioni che cercano in un testo la sequenza "aaa". Una queste applicazioni è anche uno dei miei strumenti preferiti della shell UNIX: grep.

grep è uno dei dinosauri di UNIX che si rifiutano di estinguersi. Nasce come modalità di ricerca di ex (General Regular Expression Print) ma è stato poi scorporato ed è diventato un tool fondamentale nelle mani di ogni amministratore di sistema e di chiunque debba ricercare pattern particolari in vaste collezioni di file di testo.

Espressioni Regolari

Prima di elencarvi i numerosi pregi di grep, però, devo illustrare le espressioni regolari e la loro (torbida) relazione con gli automi deterministici.

Abbiamo visto come gli automi deterministici siano in grado di riconoscere una sequenza di lettere (anche se non particolarmente interessante), ora vedremo quali siano le reali capacità dei nostri automi con un compito decisamente più complesso: riconoscere in un testo la presenza di date in formato americano (MM/GG/AAAA dove MM sono le cifre del mese, GG quelle del giorno e AAAA quelle dell'anno). Non solo! Ci divertiremo ad associare le cifre a dei gruppi e ad accettare tre tipi di separatore: la barra (/), il trattino (-) e il caro buon vecchio spazio (che eviterò di inserire tra parentesi per ragioni che hanno a che fare con il modo in cui i browser interpretano il linguaggio HTML).

Anche in questo caso partirò da un grafico:

Per brevità (e per esigenze di impaginazione) alcune transizioni sono state riunite in un'unica transizione etichettata con "m...n" dove m e n sono due numeri ed m è minore di n.

I più attenti tra di voi avranno immediatamente notato che si tratta di un automa costruito a partire da tre automi concatenati tra loro in maniera opportuna. Si tratta di una tecnica piuttosto comune e molto utilizzata: risolvere prima dei sotto-problemi e poi costruire con le soluzioni trovate una soluzione ad un problema più complesso è un tipico schema di progettazione dei software che prende il nome di Bottom-Up.

Per quanto i grafici visti fin'ora siano una rappresentazione amichevole per noi esseri umani lo sono molto meno per la macchina (oltre ad essere alquanto tediosi da disegnare per il sottoscritto). C'è un metodo più immediato per descrivere un automa a stati finiti deterministico alla macchina?

La risposta a questa domanda è: "Sì, c'è un metodo: le espressioni regolari".

Le espressioni regolari sono stringhe di testo che descrivono dei pattern usando dei caratteri speciali. Permettono di creare le stesse strutture che si possono creare con gli automi a stati finiti deterministici (c'è una dimostrazione formale che lo dice, ma sono troppo pigro per riproporvela: per cui fidatevi oppure andate ad interrogare un motore di ricerca e preparatevi psicologicamente a leggere pagine e pagine in matematichese stretto) e quindi sono interscambiabili con i grafici del tipo che vi ho fatto vedere in questo articolo.

Ad un occhio non allenato le espressioni regolari sembrano parole scritte in una lingua incomprensibile (ed in effetti lo sono), ma una volta apprese consentono di esprimere molto efficacemente tutta la gamma di pattern riconosciuti dagli automi finiti deterministici (che per brevità chiamerò DFA dalle iniziali di Deterministic Finite Automata).

Fatta eccezione per alcuni caratteri particolari (che vedremo in seguito) i caratteri di una espressione regolare corrispondono ai caratteri cercati. Per cui l'spressione regolare aaa corrisponde al primo automa che abbiamo visto in questo articolo.

Il punto (.) indica un carattere qualsiasi (lettera o numero o simbolo di punteggiatura). Per indicare il punto come un carattere a sè occorre aggiungere un backslash (\) davanti al punto. Il \ infatti indica che il carattere che segue deve essere essere considerato diversamente dal solito. La sequenza \t corrisponde al TAB, mentre \n indica l'andare a capo. La sequenza \\ viene sostituita con un singolo backslash.

Se avessimo voluto indicare una sequenza di sole tre a (non tre o più) avremmo dovuto fare uso di un quantificatore: a{3}. I numeri che compaiono tra le parentesi graffe quantificano in numero di volte in cui si deve verificare la presenza del gruppo che li precede (vedremo dopo cosa sono i gruppi).

Tramite le parentesi graffe si può anche indicare che un gruppo possa comparire un numero di volte compreso tra due numeri. Ad esempio se volessimo indicare un numero di a compreso tra due e quattro scriveremmo a{2,4}. Se il secondo numero è omesso viene considerato pari ad infinito, se viene omesso il primo allora viene considerato pari ad uno.

Esistono anche altri quantificatori:

  • + indica una o più occorrenze del gruppo che precede. Equivale a {,}.
  • * indica zero o più occorrenze del gruppo che precede. Equivale a {0,}.
  • ? indica zero od una occorrenza del gruppo che precede. Equivale a {0,1}.
Abbiamo nominato i gruppi in lungo e in largo, è giunta l'ora di definirli: un gruppo consiste in una o più sotto-espressioni regolari racchiuse da parentesi tonde. Nel caso di caratteri singoli le parentesi possono essere omesse: (a){3} equivale ad a{3}.

I gruppi separano un'espressione complessa in diverse sottoespressioni che possono essere trattate singolarmente.

Rimane un'ultimo argomento da trattare prima di provare a convertire l'automa delle date in una espressione regolare: le classi.

Una classe è un insieme di caratteri racchiusi tra due parentesi quadre. Quando si incontra una classe la si può sostituire con una qualsiasi dei caratteri che contiene. Ad esempio: [0123456789] indica tutte le cifre da 0 a 9. Per brevità le classi composte da caratteri che si susseguono in ordine possono essere definite indicando solo il primo e l'ultimo carattere separati da un -. La classe di prima perciò diventa: [0-9].

È possibile utilizzare la notazione compatta anche con classi eterogenee, ad esempio per indicare tutte le lettere maiuscole o minuscole e tutte le cifre da 0 a 9 si può scrivere: [A-Za-z0-9].

All'interno di un gruppo o di una classe è possibile che sia presente il carattere | che si può leggere come "oppure". Ad esempio una classe che indichi una a oppure una b oppure una c si può anche scrivere come [a|b|c].

Adesso armiamoci di pazienza e cominciamo a tradurre l'automa in una regex (da REGular EXpression: espressione regolare).

La prima cosa che notiamo è che dallo stato iniziale possiamo andare in tre rami mutualmente esclusivi: 0, da 2 a 9 e 1. Con il ramo centrale abbiamo già riconosciuto un mese, mentre coi due rami laterali dobbiamo passare per uno stato intermedio. inoltre il passaggio dallo stato MB allo stato MESE può avvenire anche nel caso in cui non ci sia un carattere dopo l'uno (nel grafico si è indicato il carattere nullo con la lettera greca ε). Quindi abbiamo 0 seguito da 1-9 oppure 1 seguito opzionalmente da 0-2 oppure 2-9. In regex diventa: (0[1-9]|1[0-2]?|[2-9]). Ricordatevi che una classe rappresenta UN singolo carattere che fa parte della classe stessa e che i quantificatori agiscono sul gruppo (o sul carattere) che PRECEDONO. Rileggete questo paragrafo e osservate l'espressione finché non vi sarà chiaro cosa significano tutti quei simboli e ne saprete già un bel po' sulle regex.

La transizione tra MESE e START_GIORNO è banale: [-\/\ ]. Il - è stato messo per primo così da non essere confuso con l'indicatore di range di caratteri, seguono lo slash (/) e lo spazio preceduti dal backslash per indicare che vanno interpretati letteralmente.

Il giorno si costruisce in maniera simile al mese (e ve lo lascio come esercizio) mentre l'anno si può indicare molto brevemente tramite l'uso di classi e quantificatori: [0-9]{4}.

Ci salutiamo qui per ora, ma ci sarà un seguito a questo articolo in cui vedremo altra teoria pesante, sempre che gli altri GNUrants non mi rinchiudano e non gettino via la chiave!

Seconda Parte
Terza Parte

giovedì 18 dicembre 2014

Come avviare il proprio OS linux direttamente dal firmware efi

Dopo aver sperimentato in prima persona questa follia, sono pronto a insegnarvi la sacra arte dello sminchiare il pc, ma con classe
Innanzitutto cosa è necessario: avremo bisogno di un kernel linux > 3.3 e le seguenti opzioni attive nella sua config: Kernel options needed (in archlinux esse sono attive di default, come penso in tutte le distro più recenti)
L'unica motivazione plausibile per provare a farlo è quella di voler eliminare il bisogno di un bootloader (tipo grub) per avviare il proprio OS, sfruttando appieno UEFI.
In teora (non ho potuto testare perché il mio laptop è linux-only) non si dovrebbero avere problemi con eventuali multiboot con windows o altri sistemi che già utilizzino UEFI.
La prima cosa di cui si ha bisogno è una tabella delle partizioni del disco di tipo GPT. Essa offre molti vantaggi rispetto al vecchio MBR, per informazioni vi rimando qua: Advantages of GPT.
Vediamo quindi subito che tipo di partizionamento stiamo usando. Installate il tool gdisk e lanciate da root
gdisk /dev/sdX
(dove X è la lettera del disco che ci interessa).
Un risultato del genere ci dirà che siamo su MBR:
MBR: MBR only
GPT: not present
Altrimenti, per GPT, riceveremmo
MBR: protective
GPT: present
Nel caso fossimo su MBR, ora ci appresteremo a convertire a GPT il nostro disco. Nessuna perdita di dati ovviamente. 
DISCLAIMER: non ritenetemi colpevole di qualsivoglia perdita di dati. Fate comunque un backup se non vi fidate (NON FIDATEVI!)
Ci sarà bisogno di una live, io per tutta la prima parte (cioè la conversione a GPT e la creazione della partizione EFI + impostazione di fstab per montare la partizione EFI in /boot) ho usato una live grafica (archbang nello specifico) e gparted; per l'ultimissima parte ho dovuto usare una live di archlinux (l'ultima disponibile), poiché non riuscivo ad avviare archbang da UEFI.
Innanzitutto controllate che l'ultima partizione sul disco non termini alla fine dello stesso (cioè che lasci un po' di spazio libero). Se così non fosse, tramite gparted ridimensionate l'ultima partizione lasciando 500Kb (in linea teorica bastano 20Kb) a fine disco.
Aprite gdisk e uscite con l'opzione “w” che convertirà il disco in GPT. State attenti all'output; se non vi dà errori, siete pronti a proseguire.
Adesso, se non è già presente (ad esempio se avevate windows 8 installato sul pc, probabilmente ci sarà già) bisognerà creare una partizione EFI (tramite gparted sempre), da 512Mb, formattata in FAT32; assegnategli il flag boot (attenzione, non legacy_boot). Io ho ridimensionato la mia root per crearla.
Ora montate la root del vostro OS e la partizione EFI, e modificate /etc/fstab per far montare la partizione EFI in /boot, ossia aggiungete una linea del genere, modificando sdXY con la vostra partizione EFI:
/dev/sdXY /boot vfat defaults,noatime 0 1
Siamo quasi pronti; adesso copiate il contenuto di /boot (sempre dalla directory in cui avete montato la vostra root) nella partizione EFI (di modo che al primo avvio, quando verrà montata come /boot, non ci siano problemi).
Bene; dopo aver smontato la root e la partizione EFI, possiamo riavviare.

Nell'ultima parte utilizzeremo la live di archlinux poiché abbiamo bisogno di un sistema che booti su uefi. Prima di tutto, disabilitate il secure boot dal bios (o meglio, io l'ho disabilitato per comodità, altrimenti seguite questo: Boot archlinux live media with secure boot enabled ).
Attiviamo ovviamente la modalità UEFI dal bios, e procediamo al boot della live di arch.
Ci manca solo da dare un comando:
efibootmgr -d /dev/sdX -p Y -c -L "Arch Linux" -l /vmlinuz-linux \
-u "root=/dev/sdXZ rw initrd=/initramfs-linux.img"
dove X è la lettera del disco su cui c'è la partizione EFI, e Y è il numero della partizione EFI. Z invece è il numero della partizione root (attenzione è un comando unico, anche se qua è spezzato su due righe). Nel caso aveste opzioni che passavate alla command line del kernel, aggiungetele alla fine del comando precedente, prima delle virgolette alte conclusive.
Ora diamo un:
efibootmgr -v 
e controlliamo che sia tutto in ordine. Fatto ciò, possiamo riavviare rimuovendo la chiavetta. Godetevi il vostro boot da UEFI! E disinstallate pure grub/syslinux ;)

Ps: ringrazio il fantastico wiki di archlinux che è colmo di informazioni e su cui si appoggia la guida.

lunedì 1 dicembre 2014

Sui vizi e le virtù di /dev/random

Eccomi qui a scrivere un articolo su una delle componenti fondamentali del kernel Linux (e non solo): /dev/random.

Come si può ricavare dal suo path /dev/random è un character device che, una volta letto, emette una sequenza pseudocasuale di byte.

Se volete riempire completamente il vostro terminale di caratteri casuali vi basta invocare il seguente comando:

cat /dev/random

Ovviamente vi consiglio CALDAMENTE di NON FARLO, ma si sa: il Mondo è pieno di masochisti e magari a qualcuno di voi potrebbe piacere!

Tralasciando gli scherzacci per cosa può essere utile un simile device?

  1. Creazione di password pseudocasuali mediante shell-fu:

    dd if=/dev/random bs=1 count=6 2> /dev/null | base64 | \
    sed -r 's/[^A-Z|a-z|0-9]//g'
  2. Simulatore di tiri di dado per Giochi di Ruolo (se siete veri nerd sapete di cosa sto parlando).

  3. Cancellazione sicura di un disco: prima di formattarlo potete sovrascrivere i suoi dati con un l'output di /dev/random per un certo numero di volte.

Queste sono solo alcune delle idee che potrebbero essere implementate grazie a letture da /dev/random, una di queste idee però si scontrerà subito con il principale limite del generatore di numeri pseudocasuali. Sapete per caso dirmi quale?

Chi ha risposto "la terza!" vince un simpatico sguardo condiscendente! Chi invece non sapeva la risposta potrà leggere la spiegazione nel prossimo paragrafo.

La procedura per interrogare /dev/random si compone dei seguenti passi: si apre un file descriptor e lo si associa al device, si richiedono i dati tramite una chiamata read (http://linux.die.net/man/2/read ), si ASPETTA che read popoli il buffer con i dati richiesti, si chiude il file descriptor.

No, Virginia, non ho evidenziato in corsivo la voce del verbo aspettare per puro vezzo personale. /dev/random non è sempre disponibile ad inviare dati pseudocasuali perché ha bisogno che ci sia una sufficiente entropia per generare dei buoni numeri pseudocasuali. La teoria matematica che sta dietro ai generatori di numeri pseudocasuali è piuttosto complicata ed esula da quelli che sono gli scopi di questo articolo, se avete parecchio tempo da spendere e un diploma di scuola media superiore potete cercare "PRNG" (Pseudo Random Number Generator) su Wikipedia (meglio se interrogate la versione inglese) e smarrirvi in un buco nero di congetture, lemmi e teoremi.

Per chi va di fretta la versione TLDR è la seguente: ogni PRNG è un algoritmo che gira su una macchina deterministica (se la macchina è nello stato X e legge N andrà sempre nello stato Y) e quindi ogni PRNG è condannato prima o poi (meglio se molto poi) a replicare la sequenza di numeri che ha generato dall'inizio. Questa caratteristica si chiama periodo del generatore ed è molto importante per distinguere un buon generatore (leggasi: un generatore che un periodo molto lungo) da uno cattivo. Ma non basta! Ogni PRNG è tale per cui da una sequenza sufficientemente lunga si può ricavare quali saranno i prossimi numeri generati prima che essi vengano generati. Un buon PRNG deve fare in modo che la sequenza che permetta una simile previsione sia la più lunga possibile.

Una maniera che hanno i creatori di PRNG per allungare il periodo ed introdurre una maggiore casualità nella sequenza (rendendo più difficile la previsione dei numeri successivi) è effettuare un (a)periodico re-seed (re-inseminazione mi pareva brutto da scrivere... OPS!) dell'algoritmo da altre fonti di numeri casuali. Semplificando molto quello che si fa è far ripartire il generatore da un altro numero rispetto a quello da cui era partito all'inizio, generando quindi una nuova sequenza.

Sì Virginia? Ah ti stai chiedendo cosa c'entri tutto questo con l'aspettare? Tutto dipende da quanto disordine c'è nel tuo sistema nel momento in cui vai ad interrogare /dev/random. Non è chiaro, allora lasciami spiegare un altro po'.

Come scritto poc'anzi ogni PRNG che consenta il re-seed ha bisogno di un numero di partenza: tanto maggiore è la casualità con cui ricava questo numero ad ogni re-seed tanto migliore sarà la sequenza che ne sarà generata. Verrebbe la tentazione di usare un altro PRNG come generatore di semi per il nostro PRNG ma ci ritroveremmo con il solito problema dell'uovo e della gallina. Per mitigare questo di solito quello che si fa è sfruttare una fonte di disordine esterna alla macchina: l'utente.

La pressione dei tasti, il flusso di dati via rete o da/per il disco rigido, i tempi di latenza delle periferiche sono tutte possibili fonti di disordine che, per essere affini con la teoria dell'informazione di Claude Elwood Shannon, chiameremo entropia.

Maggiore è l'entropia del sistema maggiore sarà la casualità con cui viene prodotto il seme che darà l'avvio alla sequenza di numeri. Intuitivamente possiamo supporre che occorra un certo tempo perché all'interno di un sistema si formi una quantità sufficiente di entropia e che una richiesta continua di numeri pseudocasuali causi l'esaurimento dell'entropia con conseguenze catastrofiche sulla lunghezza del periodo.

Per questa ragione /dev/random blocca qualsiasi richiesta finché non ha abbastanza entropia per soddisfarla, bloccando quindi qualsiasi software che fa uso dei suoi servizi.

Come palliativo gli sviluppatori di Linux hanno creato /dev/urandom: una versione non-bloccante di /dev/random che ricicla i numeri generati in caso di esaurimento dell'entropia del sistema. Eliminando così tutti i benefici derivanti dal re-seeding.

Ora starete pensando che un utente accorto può effettivamente fare un buon uso di /dev/random limitando le chiamate e creando un proprio PRNG all'interno dei suoi programmi... Sorvolando sull'intera questione del "perché usare /dev/random allora?" punto il dito su quanto scritto prima: scrivere un buon PRNG richiede numerose conoscenze e capacità e ci si espone molto facilmente ad attacchi se si decide di fare affidamento ad algoritmi men che perfetti.

In sostanza: se non siete dei guru, non fatelo.

C'è un'altra circostanza in cui l'uso di /dev/(u)random è sconsigliato: per ottenere un numero casuale occorre eseguire la procedura sopradescritta che consta di tre fasi. Aprire un file descriptor può non essere possibile (sì, Virginia, un processo può esaurire il numero massimo di file che può aprire in contemporanea), inoltre un'operazione che dovrebbe essere atomica (indivisibile) viene divisa in tre operazioni. Questo è male in tutti quei contesti in cui l'atomicità di un'operazione è critica, come ad esempio nel caso di un'applicazione multi-threaded.

Forse un esempio chiarirà le idee: supponiamo di avere un'applicazione che ha la necessità di autenticare gli utenti e che lo faccia tramite un meccanismo di crittazione basato su chiavi monouso. Ogni volta che un utente si vuole connettere il server crea una stringa di bit casuali che verranno usati come chiave crittografica temporanea per quella sessione. Supponiamo ora che l'applicazione in questione sia multi-threaded e che crei un nuovo thread ad ogni richiesta di connessione. Oltre al problema dell'esaurimento dell'entropia abbiamo ora anche un problema di accesso concorrente a /dev/(u)random in cui due thread potrebbero leggere la medesima porzione dello stream di dati casuali con conseguente calo drastico della sicurezza del sistema.

Il nostro programma di esempio si trova ora incastrato tra l'incudine e il martello: se utilizza dei meccanismi per impedire l'accesso concorrente a /dev/(u)random si troverà ad avere dei thread bloccati in attesa del loro turno, se non li utilizza rischia di avere due (o più connessioni) che condividono la stessa chiave crittografica. Quanto sia alto questo rischio dipende da numerosi fattori tra cui il più importante è il carico a cui è sottoposto il sistema: maggiore sarà il carico maggiore sarà la probabilità di collisioni.

Ed ora il motivo principe per cui usare /dev/(u)random non è una buona idea: pur essendo un file speciale si tratta sempre di un file. Per leggerlo, oltre alla necessità di avere un file descriptor disponibile, dovete anche avere i permessi per leggerlo e dovete essere in grado di trovarlo. Supponiamo che il vostro programma sia eseguito in una gabbia chroot e che quindi non abbia accesso alla directory /dev e quindi al suo contenuto. In questa situazione le chiamate a file esterni alla gabbia falliscono e quindi siete costretti a ricreare i file speciali all'interno della gabbia chroot e ad istruire il kernel a collegare il generatore di entropia a quei file (non è impossibile, ma è alquanto laborioso). Ma c'è un caso peggiore: supponete che il vostro sistema abbia ricevuto la visita di un malintenzionato che abbia eliminato /dev/random e /dev/urandom e li abbia sostituiti con un nuovo device che altro non è che /dev/zero. Inquietante, nevvero?

Certo, in quest'ultimo caso siete già stati compromessi e quindi non c'è molto che possiate fare, ma sappiate che esistono delle alternative e che (grazie alle pressioni fatte dal team che sta portando LibreSSL su Linux) è possibile chiedere direttamente al kernel di riempire un buffer di memoria con dati casuali grazie a getrandom(2) (https://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/commit/?id=c6e9d6f38894798696f23c8084ca7edbf16ee895 ).

Con questo vi saluto e vi invito a leggere la presentazione di Theo DeRaadt tenuta all'EuroBSDcon 2014 (nonostante sia scritta in Comic Sans contiene numerosi spunti e informazioni utili):

http://www.openbsd.org/papers/eurobsdcon2014_arc4random/index.html

mercoledì 12 novembre 2014

Il problema dell'arresto

No, non ha niente a che vedere con le forze dell'ordine, e nemmeno con brusche frenate. Il problema dell'arresto, traduzione di “Halting problem”, ha invece a che fare con l'informatica teorica e nella fattispecie, con la teoria della computabilità.
La versione più famosa del problema fu ipotizzata e risolta da Alan Turing, nel 1936.
Prima di spiegare per bene cosa sia l'halting problem, devo però introdurre al lettore qualche concetto essenziale.
Innanzitutto, cosa si intende per macchina di Turing (mdT d'ora innanzi)? Essa è una macchina ideale in grado di eseguire algoritmi. Congetturata da Turing, essa prevede, tecnicamente, l'utilizzo di un nastro di ingresso da cui si legge, k nastri di memoria, tradizionalmente considerati di lunghezza infinita (è un modello astratto, appunto), e un nastro di uscita. La “testina” che scorre il nastro di input, così come le testine dei nastri di memoria, ha tre movimenti possibili: S(tand), L(eft), R(ight). Sul nastro di output, sono possibili invece solamente i movimenti S e R (L sovrascriverebbe un simbolo di output, il che sarebbe stupido e inutile).
La mdT risulta importantissima poiché secondo la Tesi di Church essa è il modello astratto di riferimento di macchina con maggiore potenziale espressivo, ossia non è possibile pensare un algoritmo che non sia implementabile da una macchina di Turing.
Detto in altra maniera, citando wikipedia:
L'importanza della MdT deriva dal fatto che permette di compiere tutte le elaborazioni effettuate mediante le macchine (elettroniche o meccaniche) apparse nella storia dell'umanità, incluse le elaborazioni che oggi si eseguono con le tecnologie più avanzate e gli odierni computer, e perfino le dimostrazioni matematiche che l'umanità ha raccolto nel corso della sua storia, diciamo a partire da Euclide.
Bene, adesso invece prepariamoci a affrontare un ulteriore concetto: cosa si intenda per decidibilità di un problema o computabilità di una funzione.
Innanzitutto occorre notare che i problemi decidibili sono solo una minima parte dei problemi definibili, dove per definibile si intende un qualsiasi problema che possa essere formalizzato.
In pratica, un problema è decidibile (e una funzione è computabile) se e solo se esiste una mdT che lo risolva. Spesso non ci interessa nemmeno sapere la soluzione o conoscere nel dettaglio il funzionamento di quella mdT, ci basta sapere che essa esiste. Ad esempio, il problema di stabilire se nell'universo ci siano 10^999 molecole, è un problema decidibile, anche se non ne conosciamo la risposta; infatti sappiamo che esiste una mdT che contando una a una le molecole, prima o poi ci dirà se avessimo ragione o meno.

Siamo giunti al fulcro della discussione: il problema dell'arresto. Esso si domanda se, data una mdT (dato un algoritmo), e un input finito, sia sempre possibile determinare se la mdT termini oppure continui la sua esecuzione all'infinito (vada "in loop") con ingresso quel dato input.
Il problema è indecidibile; e lo si dimostra ragionando per assurdo. La dimostrazione è davvero stuzzichevole, spero di riuscire a renderne evidente la genialità!
Immaginiamo esista una mdT H tale che, ricevuto in ingresso l'algoritmo a e un input finito x su cui calcolarlo, ci ritorni TRUE se la macchina termina la computazione, o FALSE se invece va in loop.
H(a, x): if (loop) then return false; else return true;
Possiamo pensare di passare ad H, come input finito, a stesso! Già, poiché per la nostra mdT esso è solo una sequenza indistinta di simboli. Staremmo quindi calcolando H(a, a), chiedendoci se l'algoritmo a termini o meno con input a.
Ora inventiamoci una ulteriore mdT K che vada in loop se e solo se H(aa) restituisce TRUE, altrimenti ritorna FALSE.
K(a): if H(aa) then loop; else return false;
Proviamo infine a passare come input a K, K stesso, calcolando K(K). Dunque se H(K, K) termina, K(K) va in loop; altrimenti restituisce FALSE.
K(K): if H(K, K) then loop; else return false;
Ma H(KK) dovrebbe proprio dirci se K(K) termina o meno!
Siamo giunti alla contraddizione: infatti questo algoritmo termina solo se l'algoritmo K, con input K, non termina. Ossia K(K) termina se e solo se K(K) non termina.

Se qualche carissimo lettore avesse superato lo scoglio della dimostrazione sano e salvo, e si stesse chiedendo “e quindi?”, vorrei puntualizzare l'importanza di questa dimostrazione: immaginate se fosse vero il contrario, ossia se fosse possibile conoscere a priori se un determinato algoritmo termini o meno dato un input. Penso sia evidente lo straordinario potenziale che si creerebbe in una situazione simile: sapremmo con certezza se quel programmino che macina da 20 giorni si sia bloccato o se invece stia ancora computando. Potremmo risolvere congetture come quella di Goldbach, tuttora aperte.
Insomma avremmo tra le mani uno strumento incommensurabilmente potente; ma, per fortuna o purtroppo, esso ci è negato. Insomma, accontentiamoci di cercare di capire se il nostro algoritmo sia andato in loop o meno leggendo attentamente il codice, invece di poterci affidare a una comoda mdT che risolva il problema dell'arresto!

martedì 11 novembre 2014

GNUrants Day 2015 - Call for Papers

Un festoso saluto a tutti! Per festeggiare il primo compleanno del blog (che ricordo essere partito il primo di aprile di quest'anno) noi GNUrants abbiamo deciso di indire lo GNUrants Day!

Vi starete chiedendo di cosa si tratti, è presto detto: si tratta di un giorno dedicato a talk ed interventi sul mondo Linux sullo stile degli GNUrants.

Sì, lo sappiamo che la ILS (l'associazione che raccoglie i vari Linux Users Group d'Italia) tiene il Linux Day ogni anno nell'ultimo sabato di ottobre e di sicuro non abbiamo i soldi e le capacità per organizzare una simile manifestazione nazionale. Siamo molto più stretti di budget (0 € in totale) e non abbiamo una sede in cui invitare i nostri quattro lettori a sentirci sproloquiare. Ma questo non ci fermerà perché abbiamo un potente alleato dalla nostra parte: la For... ehm... Youtube!

Realizzeremo gli interventi sottoforma di filmati che caricheremo su Youtube assieme alla trascrizione di quello che diremo e pubblicheremo tutto sul blog il primo di aprile.

È la prima volta che ci diamo una scadenza (anche se abbiamo optato per una scadenza piuttosto lunga) e non fingiamo che la cosa sia una passeggiata (il video editing richiede tempo e ci teniamo che i nostri contenuti siano di un certo spessore) per cui non siamo sicuri di riuscire a produrre abbastanza materiale in tempo per il primo di aprile.

E qui entrate in gioco voi! Se avete un'idea per un talk e avete il tempo e la pazienza per realizzarla contattateci e vedremo di inserirvi nella "scaletta"!

Alcune precisazioni prima di continuare:

  • Dovrete rendere disponibile il trascritto del talk. Potrete, a vostra totale discrezione, rendere disponibili anche le slides che avrete eventualmente prodotto.
  • I temi trattati dovranno essere in linea con quelli trattati dal blog: Software Libero, Sicurezza Informatica, Informatica Teorica (Algoritmi, Linguaggi Formali, ecc. ecc.). I rant politicizzati sono un'esclusiva di Federico Di Pierro e non saranno accettati.
  • Vi chiederemo il diritto NON ESCLUSIVO di pubblicazione del video e del trascritto e nient'altro: tutti i diritti resteranno a voi e sarete liberi di fare ciò che meglio credete dei vostri elaborati.

Per ora è tutto, se avete altre domande consultateci la nostra pagina su Google+: GNUrants su G+.

mercoledì 1 ottobre 2014

Di nuovo su systemd

Come forse saprete c'è un notevole grado di insofferenza nei confronti di systemd da parte di certi vecchi amministratori di sistemi UNIX con una folta barba. Parte di questa insofferenza è data dalla natura Linux-centrica (Linux inteso come solo kernel) di systemd e dalla quantità abnorme di feature che sono implementate in quello che, secondo la filosofia UNIX, dovrebbe essere un processo semplice e snello che assolve a due soli compiti: avviare/spegnere il sistema e raccogliere i processi orfani ponendo fine alle loro sofferenze.

I fautori di systemd sostengono che ci sono degli indubbi vantaggi nell'approccio da loro scelto (li potete leggere tutti dal sito personale di Lennart Poettering: http://0pointer.de/blog/projects/systemd.html e http://0pointer.de/blog/projects/the-biggest-myths.html ) e che le obiezioni arrivano da dinosauri incartapecoriti che non accettano il cambiamento.

Essendo io uno dei suddetti dinosauri capirete che sono fortemente di parte e che non dovete prendere le mie parole per oro colato.

Sì, lo so, ne avevamo già parlato e rischiamo di essere monotoni, ma sono successe due nuove cose che meritano di essere commentate.

  1. uselessd ( http://uselessd.darknedgy.net/ )
  2. Il progetto sviluppato dallo studente Ian Kremlin per la Google Summer of Code.

Il primo è una versione ridotta del codice di systemd-208-stable (il default in Fedora 20) a cui hanno levato quasi tutto e a cui hanno migliorato la compatibilità con le librerie C diverse dalla GNU libc (sì, systemd compila solo se si usano le glibc perché si basa su alcune aggiunte/modifiche che non sono presenti nello standard o che sono specifiche dell'implementazione GNU).

L'obiettivo a breve termine di uselessd è quello di dare all'utenza GNU/Linux una versione più snella di systemd che contenga solo l'essenziale per far funzionare un init system ma che conservi i due principali vantaggi della creatura di Lennart Poettering:

  1. L'avvio basato su dipendenze definite dall'amministratore (per cui il servizio B che dipende da A non sarà avviato finché A non sarà in grado di offrire i suoi servizi).
  2. L'isolamento e la gestione dei gruppi di processi tramite i cgroups (o meccanismi equivalenti come le jails di FreeBSD).

L'obiettivo a lungo termine è portare uselessd su altri sistemi operativi (principalmente FreeBSD) così da porre fine alle due principali obiezioni che vengono rivolte a systemd: fare troppe cose e non essere portabile.

L'autore ci tiene a precisare che la ragione per cui ha cominciato questo fork è stato per studiare il funzionamento di systemd e che smontare e togliere componenti gli è venuto naturale. In fin dei conti una delle pratiche del reverse-engineering consiste proprio nel vedere cosa smette di funzionare se si tolgono X e Y.

Insomma un esercizio didattico pienamente contemplato dalla licenza LGPL 2.1 (usata da systemd) il cui scopo non è sostituire systemd, ma dimostrare qual è l'insieme minimo di feature che compongono un init system moderno.

uselessd però diventa interessante se appaiato con il secondo punto della lista in apertura: il progetto di Ian Kremlin per la Google Summer of Code 2014.

Tutto da nasce da alcune parole di Lennart Poettering:

We also have pretty comprehensive documentation (all linked from the homepage) about pretty much every detail of systemd, and this not only covers admin/user-facing interfaces, but also developer APIs.

Siccome una delle frasi tipiche degli sviluppatori di OpenBSD è "if you have a problem you can either shut up and hack a solution or pay someone to do that" hanno suggerito agli studenti della GSoC di leggersi la documentazione menzionata da Poettering e di creare dei rimpiazzi API-compatibili per logind, hostnamed, localed e timedated che non avessero altre dipendenze oltre a quello già installato di default nel sistema base di OpenBSD (leggasi: ben poca roba).

Ian Kremlin ha raccolto questo suggerimento, compilato una proposta che è stata approvata e ha lavorato a spese di Google per scrivere questi rimpiazzi completandoli tutti ad eccezione di logind (che per sua natura è decisamente complesso e presenta numerose sfide di implementazione).

L'obiettivo a breve termine è facilitare il port di GNOME 3 su OpenBSD (sì, ad alcuni dinosauri piace GNOME 3) scrivendo dei daemon che siano compatibili a livello di chiamate D-BUS coi corrispettivi in systemd.

L'obiettivo a lungo termine è scrivere un'implementazione portabile su vari sistemi POSIX-compatibili così da fornire delle alternative a chi volesse fare uso delle funzionalità esposte ma non potesse o non volesse installare systemd sul proprio sistema.

A differenza di uselessd il codice di questi daemon è stato scritto da zero basandosi sulla documentazione rilasciata dagli sviluppatori di systemd. Non hanno riscritto l'init system, hanno solo emulato alcune delle chiamate che systemd recepisce.

La speranza di alcuni è che questi due progetti messi insieme possano offrire un'alternativa valida e funzionale a quanti criticano il modus operandi degli sviluppatori di systemd ma si trovano obbligati ad utilizzare in qualche modo i suoi servizi.

Per quanto mi riguarda sono entrambi dei progetti che hanno una buona ragione di esistere: il primo perché dimostra quanto sia possibile fare anche con un init minimale e che apre le porte all'uso di systemd su sistemi che hanno pochissime risorse a disposizione (non ci sono solo desktop e server, ma anche numerosi apparecchi che non hanno abbastanza risorse per far girare tutto quanto ma che beneficerebbero dall'uso di certe parti di systemd). Il secondo progetto ha ancor più ragione di esistere perché offre un'implementazione alternativa che consentirebbe di testare l'effettiva compatibilità con le specifiche da parte di sviluppatori terzi.

Detto questo io torno nel mio antro ad accarezzare la mia folta barba!

martedì 26 agosto 2014

L'asteroide che ucciderà questo dinosauro deve ancora arrivare (terza parte)

L'articolo è diviso in tre parti:
Prima Parte
Seconda Parte

Rieccoci qui a parlare di espressioni regolari. Dopo aver visto cosa sono (e da dove derivano) ed aver visto come si leggono e come si possono scrivere è giunta l'ora di informarci su alcuni dei software che ne fanno uso.

grep

Abbiamo già nominato grep nella prima parte, se ve la foste persa (MALE) ecco la definizione presa pari-pari dal primo articolo di questa serie:

grep è uno dei dinosauri di UNIX che si rifiutano di estinguersi. Nasce come modalità di ricerca di ex (General Regular Expression Print) ma è stato poi scorporato ed è diventato un tool fondamentale nelle mani di ogni amministratore di sistema e di chiunque debba ricercare pattern particolari in vaste collezioni di file di testo.

grep dà il meglio di sè all'interno di altri script o di one-liner (singole linee di comando ottenute concatenando con dei pipe vari comandi della shell UNIX). Il suo compito è quello di tagliare via da un flusso di testo le porzioni non rilevanti per poi poterle analizzare meglio con altri strumenti.

Nella migliore tradizione UNIX grep accetta testo dallo standard input, manda del testo in output sullo standard output e i messaggi di errore sullo standard error.

Facciamo subito un esempio concreto: vogliamo sapere qual è il MAC address di un'interfaccia di rete. Il comando ifconfig, sebbene deprecato, fa al caso nostro: se scriviamo /sbin/ifconfig eth0 infatti otteniamo qualcosa di simile a questo:

eth0      Link encap:Ethernet  HWaddr ba:bb:e0:ba:bb:e0
          inet addr:192.168.0.8  Bcast:192.168.0.255  Mask:255.255.255.0
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:201005 errors:0 dropped:0 overruns:0 frame:0
          TX packets:136434 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:212918027 (203.0 MiB)  TX bytes:18123529 (17.2 MiB)
          Interrupt:21 Memory:dffe0000-e0000000 
 
Ma a noi non interessa TUTTO quel testo, a noi basta il MAC address (che ifconfig chiama HWaddr): come facciamo ad ottenere solo quello?

Per prima cosa osserviamo la struttura di un MAC address e vediamo che è formata da 6 gruppi di cifre esadecimali separate da dei due punti (:). Costruiamoci ora una regex che trovi questa particolare sequenza:

([0-9a-f]{2}:){5}[0-9a-f]{2}
 
Se avete problemi a leggerla significa che non vi siete impegnati nella lettura dell'articolo precedente (MOLTO MALE). Avrei potuto scrivere la regex diversamente, ma questa è la versione più breve che sono riuscito ad escogitare grazie all'uso dei quantificatori.

Abbiamo la regex e abbiamo il nostro input, passiamo tutto attraverso grep e vediamo cosa succede:

$ /sbin/ifconfig eth0 | grep ([0-9a-f]{2}:){5}[0-9a-f]{2}
bash: syntax error near unexpected token `[0-9a-f]{2}:'
$
 
Giustamente bash ci notifica che non sa cosa sia [0-9a-f]{2}:, rimediamo con un po' di quoting:

$ /sbin/ifconfig eth0 | grep '([0-9a-f]{2}:){5}[0-9a-f]{2}'
$
 
Nessun output... Abbiamo sbagliato qualcosa nella regex? Ni: ci siamo dimenticati che grep di default non riconosce i quantificatori, ma a questo si rimedia usando egrep (oppure indicando a grep che vogliamo usare le extended regular expressions tramite il flag -E):

$ /sbin/ifconfig eth0 | egrep '([0-9a-f]{2}:){5}[0-9a-f]{2}'
eth0      Link encap:Ethernet  HWaddr ba:bb:e0:ba:bb:e0
$
 
Meglio, ma non è abbastanza: abbiamo ancora troppo output. Questo perché di default grep ed egrep stampano le righe in cui c'è un riscontro positivo per la regex che gli passiamo. Fortunamente c'è un flag che ci consente di far stampare a grep solamente la parte di testo che corrisponde alla regex, si tratta del flag -o:

$ /sbin/ifconfig eth0 | egrep -o '([0-9a-f]{2}:){5}[0-9a-f]{2}'
ba:bb:e0:ba:bb:e0
$
 
Ottimo! Questo è il risultato che volevamo! Adesso possiamo usare quel one-liner all'interno di altri script bash per ottenere il MAC address di una scheda di rete e salvarlo in una variabile o in un file.

Ci sono diversi usi possibili di questo one-liner:

  • Comporre un elenco di MAC address da inserire nella configurazione del server DHCP per ottenere delle assegnazioni statiche di indirizzi IP.
  • Se si usa un sistema di installazione automatico tramite boot da rete si può notificare al server di installazione che tutto è andato a buon fine e che può rimuovere il nostro MAC address da quelli che devono essere ancora installati.
  • Usando solo egrep e quell'espressione sui log del daemon DHCP si può costruire un database dei MAC Address che si sono connessi alla nostra rete.
Ad esempio eccovi uno script della shell che stampa a video tutti i MAC address delle interfacce di rete presenti nel sistema preceduti dal nome dell'interfaccia stessa:

#!/bin/sh
for IFACE in $(/sbin/ifconfig | egrep -o '^[a-z0-9]+')
    do
        MACADDR=$(/sbin/ifconfig $IFACE | egrep -o '([0-9a-f]{2}:){5}[0-9a-f]{2}')
        echo $IFACE $MACADDR
    done
 
Confido che lo script sia abbastanza breve e abbastanza semplice da poter essere compreso anche da chi non sa scrivere script della shell ma ha già una conoscenza di base di programmazione. Del resto il grosso del lavoro lo fa egrep filtrando adeguatamente l'output di ifconfig: prima ricavando il nome delle singole interfacce e poi estraendo i MAC address.

Bonus: questo script funziona anche su FreeBSD, NetBSD e OpenBSD (non ho un Mac su cui provarlo, ma credo che funzioni anche su Mac OS X).

Alcuni scripter di lunga data mi faranno sicuramente notare che richiamare tutte quelle volte ifconfig è superfluo: come compito per casa potete modificare quello script affinché prenda l'output di ifconfig all'inizio, lo salvi in una variabile e poi lo passi ad egrep tramite echo.

sed

sed è un altro dinosauro di UNIX: il suo nome è l'abbreviazione di stream editor ed è tutt'ora uno dei più potenti tool per il trattamento automatico dei file di testo nei sistemi operativi POSIX.

In sed le espressioni regolari sono usate in due contesti:

  1. Per indicare un pattern che indichi la riga su cui agire.
  2. Per indicare un pattern che indichi uno schema di sostituzione.
Vediamo più in dettaglio cosa intendo: supponiamo che vogliate eliminare da un file tutte le righe vuote (righe che contengono zero o più caratteri di spaziatura). Un'operazione del genere si fa abbastanza rapidamente con un editor di testo tradizionale (come nano, leafpad, gedit, kwrite, eccetera...) a patto che il testo non sia troppo lungo. Rifare l'operazione per una dozzina di file di testo da 10 kB l'uno comincia ad essere una cosa lunga, figuriamoci se i file fossero di più e/o più grandi...

Come si fa ad automatizzare questo compito con sed? La cosa è piuttosto semplice quando si scopre che il comando per cancellare una linea è d e che le linee da cancellare possono essere indicate da una regex racchiusa tra due slash (/). Tutto si riduce al seguente one-liner:

$ sed '/^[\ \t]*$/d' file_da_modificare > file_modificato
 
La regex non è molto difficile, ormai dovreste essere avvezzi alla lettura di quei simboli arcani. Tuttavia ci sono delle novità che non ho incluso nei miei articoli precedenti e che vale la pena di commentare.

La prima novità sono i delimitatori di inizio e fine riga (rispettivamente ^ e $). Questi delimitatori sono stati introdotti da sed e sono stati poi adottati anche da altri programmi che fanno uso delle espressioni regolari. Senza di essi il nostro pattern diventa troppo generico e finisce per individuare tutte le righe del file, così invece indichiamo esattamente tutte e sole le righe che contengono zero o più spazi o zero o più TAB del nostro file.

La seconda novità è meno eclatante: il simbolo \t non indica il carattere t ma il TAB. Assieme a \n che indica l'andare a capo è una delle sequenza di quoting più utilizzate. Analogamente lo spazio si indica con uno slash seguito da... Uno spazio! Ovviamente!

Se siete tra coloro che utilizzano il sed del progetto GNU avete anche un'utile estensione che permette l'editing in-place: tramite il flag -i è possibile indicare a GNU sed di modificare il file direttamente, senza passare per file intermedi. Io però tendo a non farne uso per due ragioni:

1. Potrei aver sbagliato qualcosa nell'impostare la regex per sed e mi ritroverei con un file corrotto ed irrecuperabile. 2. Non fa parte delle specifiche standard e può essere emulato con un successivo uso del comando mv sul file temporaneo.

La vera forza di sed però sta nel suo comando dedicato alla sostituzione. A differenza del comando per cancellare il comando per sostituire ha la seguente struttura:

/indirizzo/s/regex/sostituzione/flags
 
L'indirizzo è opzionale e può essere sia una regex che un numero non racchiuso tra slash. Nel primo caso ogni riga viene confrontata con la regex e se questa è verificata l'azione di sostituzione viene compiuta. Nel secondo caso solo la linea indicata viene coinvolta. Ad onor del vero è possibile indicare due indirizzi separandoli con una virgola (,). Per esempio 1,10 coinvolge le prime 10 righe del file mentre 10,/sed/ coinvolge le righe dalla 10 in poi ma solo quelle che sono comprese fino alla prima riga che contiene la stringa sed (occhio che la regex NON viene applicata alla decima riga che viene inclusa automaticamente tra le righe da trattare e la riga trovata dalla regex sarà processata anch'essa). È anche possibile indicare due regex ed in tal caso la prima regexp indicherà la riga da cui cominciare a processare e la seconda la riga in cui fermarsi.

La s indica il comando di sostituzione ed è seguita da una regex e da un pattern di sostituzione.

I flags modificano il comportamento del comando, ad esempio g indica di effettuare la sostituzione su TUTTI i match all'interno della riga (mentre il default è di fermarsi al primo match) mentre un numero indica che la sostituzione deve essere compiuta solo in quel match (ad esempio solo il secondo match saltando il primo).

Facciamo un esempio e prendiamo il caso descritto nel primo articolo della serie: convertire le date in formato statunitense (MM/GG/AAAA) in quello europeo (GG/MM/AAAA). Per prima cosa costruiamo l'espressione regolare che riconoscerà le date statunitensi:

(0[1-9]|1[0-2]?|[2-9])/(0?[1-9]|[1-2][0-9]|3[0-1])/([0-9]{4})
 
Anche in questo caso non commenterò la regex (vi lascio come compito per casa la verifica della correttezza della medesima). Sappiate però che i gruppi non sono stati scelti a caso, anzi capiremo presto come quella suddivisione sia essenziale per il nostro scopo.

Adesso decidiamo l'indirizzo: se lasciamo l'indirizzo vuoto sed opererà su tutte le righe in input. Se sappiamo che le righe contenenti le date da cambiare hanno una struttura particolare identificabile da un'espressione regolare possiamo usare quell'espressione come indirizzo, altrimenti affidiamoci al default.

L'ultima cosa da fare è decidere il flag: se vogliamo cambiare tutte le occorrenze che troviamo allora imposteremo il flag g, se sappiamo che le date da cambiare occorrono solo una volta per riga possiamo omettere i flag. Supponendo di voler cambiare tutte le occorrenze il nostro comando diventa:

sed 's/(0[1-9]|1[0-2]?|[2-9])\/(0?[1-9]|[1-2][0-9]|3[0-1])\/([0-9]{4})/pattern/g' nomefile
 
Questo comando legge il file indicato da nomefile, trova tutte le occorrenze della regex che gli abbiamo dato in pasto (notate come io abbia dovuto usare il backslash davanti agli slash per indicare a sed che la regex NON finiva lì) e stampa in standard output un testo che contiene la stringa pattern ogni volta che c'è stata un'occorrenza della regex.

Non male, ma adesso dobbiamo definire il nostro pattern di sostituzione. Ogni volta che sed incontra un gruppo crea una sotto-espressione e salva il risultato di quella sotto-espressione in un registro. Esistono 9 registri (numerati da 1 a 9, strano vero?) che possono essere usati nel pattern di sostituzione.

Nella nostra espressione il primo gruppo corrisponde al mese, il secondo al giorno e il terzo all'anno. Componiamo il nostro pattern invertendo i primi due e dovremmo aver finito:

sed 's/(0[1-9]|1[0-2]?|[2-9])\/(0?[1-9]|[1-2][0-9]|3[0-1])\/([0-9]{4})/\2\/\1\/\3/g' nomefile
 
Manca un ultima cosa: dobbiamo dire a sed che si tratta di un'espressione estesa (che fa uso dei quantificatori) tramite il flag di avvio -r:

sed -r 's/(0[1-9]|1[0-2]?|[2-9])\/(0?[1-9]|[1-2][0-9]|3[0-1])\/([0-9]{4})/\2\/\1\/\3/g' nomefile
 
sed può essere usato anche come se fosse grep tramite il flag -n che inibisce la copia dell'input non processato sullo standard output e il comando p che significa print, cioé stampa.

Ad esempio se volessimo stampare solo le righe che non cominciano con un # scriveremmo:

sed -n '/^[^#]/p' nomefile
 
Ovviamente grep ed egrep hanno più opzioni e consentono un controllo più fine sull'output.

Conclusioni

grep e sed consentono ad uno scripter di estendere la capacità di processamento dei file di testo della shell UNIX in modo considerevole grazie alla potenza delle espressioni regolari. Esistono però dei limiti: grep effettua solamente la ricerca (ma è molto veloce e può essere usato per filtrare solamente le parti interessanti dell'input), sed pur essendo Turing-equivalente (leggasi: in teoria ci si può scrivere qualsiasi programma che si può scrivere con un qualsiasi altro linguaggio di programmazione) non è molto comodo da utilizzare. L'utilizzo in script della shell consente di ovviare ad alcuni dei limiti della sintassi di sed ma genera un altro problema: la shell crea una marea di sottoprocessi (uno per ogni comando dato) e questo rallenta inevitabilmente l'esecuzione. Il linguaggio di sed inoltre ha memoria per una sola riga oltre a quella corrente e questo costringe a fare numerosi equilibrismi...

L'alternativa c'è, è molto potente ed ha alle spalle anni di sviluppo: si tratta del linguaggio di scripting perl. Purtroppo il perl è anche uno dei linguaggi più bizzarri e più ricchi di "cose strane" che vi possa capitare di incontrare. Fortunatamente per voi tutti i moderni (e anche alcuni meno moderni) linguaggi di scripting hanno un supporto più o meno complesso per le espressioni regolari: Tcl ce l'ha (ed è tra i più antichi), Python ce l'ha (tramite il modulo built-in re), PHP ce l'ha, Ruby ce l'ha, Javascript ce l'ha, Se ancora non foste convinti Java supporta le espressioni regolari tramite il package java.util.regex, per il C esistono le librerie PCRE che consentono di usare espressioni regolari compatibili con quelle del perl (il nome è infatti l'acronimo di "Perl Compatible Regular Expressions") oppure se intendete scrivere codice solo per sistemi POSIX-compatibili potete usare le regex POSIX (man 3 regex per maggiori info) infine per i fan del C++ oltre alle PCRE potete usare boost::regex delle librerie Boost.

Insomma non avete scuse per non usare le espressioni regolari quando si tratta di cercare degli schemi che si ripetono all'interno di flussi di testo!

Prima Parte
Seconda Parte

venerdì 18 luglio 2014

Algoritmi di sorting, questi sconosciuti



Bentornati sulle pagine di questo blog!
Cosa ci inventeremo stavolta per annoiarvi a morte? Sì, lo so, facciamo del nostro meglio ogni volta, e credo proprio che lo scopo sia quasi sempre raggiunto!
Oggi...oggi...oggi, di cosa volevo parlare? ...Ah si, algoritmi. Algoritmi di sorting.
Ok, parto dal presupposto che chi legga non sappia nulla, ma proprio nulla, nemmeno di algoritmi.

Bene, cos'è un algoritmo? Si definisce algoritmo un numero finito di istruzioni che, in un numero finito di passi, da un input finito iniziale A porta sempre e solo in uno stato finale B. Un classico esempio potrebbe essere l'algoritmo che calcola un numero della successione di Fibonacci. L'algoritmo riceve in ingresso n, e restituisce l'ennesimo numero della successione.
Passiamo ora al complemento di specificazione: “di sorting”. Sorting significa ordinamento, quindi parleremo degli algoritmi che cercano di ordinare una serie di oggetti (nel nostro caso numeri naturali) secondo una data relazione d'ordine (nel nostro caso ordine crescente).
Uno può benissimo chiedersi “ma che ca**o me ne faccio di sta roba?”, ma se vi fermaste un attimo a pensare, capireste subito che l'ordinamento (o la classificazione, più in generale) è alla base di praticamente tutte le attività umane.
Avete presente quell'ammasso informe di file di tipi diversi e con nomi assurdi che avete nella cartella Downloads del vostro pc? Immaginate se non esistesse quella splendida opzione "Ordina per...{tipo, nome, ultima_modifica, dimensione}"...vi sfiderei a trovare quel "xxx.avi" che tanto vorreste avere sottomano al momento!
Questo è solo un esempio marginale dell'importanza di tali algoritmi.

La domanda che porrei al lettore è la seguente: “hai 10 numeri naturali. Riesci a immagire un algoritmo per ordinarli dal minore al maggiore?”. Starete pensando “e se io non riesco a immaginare un algoritmo, ma solo donne nude?”; ammetto che sarebbe senz'altro una tesi ferrea la vostra.
Siccome sono convinto che prendereste questa sfida nella maggior parte dei casi sottogamba, essendo portati a pensare “e ci vuole un algoritmo per far sta roba?”, senza riflettere che se invece di 10 numeri fossero 100 milioni sarebbe un attimo più complicato, vi indico direttamente qualcuno tra gli algoritmi più famosi.

Non ho idea se qualcuno perderà davvero del tempo a pensarci, ma credo che la soluzione più banale, benché non sia il primo algoritmo che si studi solitamente, è quello che viene chiamato Selection Sort.
Praticamente, esso ci dice di cercare all'interno della nostra sequenza il minimo, e metterlo come primo elemento. Dunque procedere scansionando gli n – 1 numeri rimanenti cercando il nuovo minimo, e avanti così. Dopo n – 1 scambi (l'ultima iterazione avrà un solo intero che sarà già il maggiore, evidentemente), la nostra sequenza sarà ordinata. Ha l'enorme vantaggio, rispetto ad altri algoritmi, di essere facilmente implementabile (ossia è molto facile da programmare), e di non avere caso migliore o peggiore, cioè il tempo impiegato dall'algoritmo dipende esclusivamente dalla lunghezza della sequenza che vogliamo ordinare, non dalla posizione di ciascun numero nella sequenza. Il numero di scambi è perciò fisso, ed è, come detto in precedenza, n – 1.
Questo algoritmo prevede quindi due cicli, uno esterno da i = 0 a n – 1; l'altro, interno, da i + 1 a n. Per un totale di n * (n – 1) / 2 confronti, ossia asintotico a n^2 (chiunque abbia studiato un minimo di calcolo infinitesimale sa che basta far tendere nell'espressione precedente n a infinito).

Il secondo algoritmo, anch'esso molto famoso, è il Bubble Sort (nome simpatico, eh?). Quest'ultimo prevede l'ordinamento “a bolla” della sequenza: viene definito prendendo a due a due gli elementi adiacenti della nostra sequenza e spostando a sinistra il minore, ad esempio:
3 1 2 → 1 3 2 → 1 3 2 → 1 2 3.
Sì, l'effetto “a bolla” lo vedrete solo dopo esservi fumati un cannone; cito wikipedia:
L'algoritmo deve il suo nome al modo in cui gli elementi vengono ordinati, con quelli più piccoli che "risalgono" verso le loro posizioni corrette all'interno della lista così come fanno le bollicine in un bicchiere di spumante.
Evidente no?
Questo algoritmo è noto per essere il primo che si studia, nonché mediamente il più inefficiente battuto solo dallo stupid sort, che consiste nel continuare a mischiare a casaccio gli elementi finché non ne esce fuori una sequenza ordinata (una bella presa per il culo eh!). D'altra parte è risaputo che localmente l'entropia possa diminuire, perciò perché non tentare?
Il Bubble Sort differisce tra caso migliore e peggiore. Il caso medio asintoticamente è molto simile al peggiore. Prendiamo come caso migliore una sequenza già ordinata: il Bubble Sort non farà alcuno scambio, ma dovrà comunque fare circa n^2 confronti (come il precedente Selection Sort).
Vale lo stesso numero di confronti anche per gli altri casi, ma il numero di scambi nel caso medio e peggiore sarà sempre nell'ordine del n^2 (contro gli n – 1 del precedente algoritmo). Come caso peggiore si prende una sequenza ordinata in maniera opposta a come la vogliamo noi (ad esempio, vogliamo ordinare in maniera crescente una sequenza già ordinata in maniera decrescente). Appare evidente che il primo ciclo porterà, attraverso n - 1 scambi, il primo elemento (il maggiore) in coda alla sequenza, poi toccherà al secondo, ecc ecc.

Ora direi che è il momento di vedere un algoritmo più complesso, per avere una vaga idea di quanto si sia arrivati ad astrarre e a congetturare.
Il Quick Sort si basa sul paradigma divide et impera, e prevede di spezzare la nostra sequenza in due parti, prendendo un perno a caso al suo interno; gli interi minori del perno staranno a sinistra e quelli maggiori a destra. Poi si va avanti a fare lo stesso su ciascuna delle due sequenze così create, finché non si arriva ad avere minisequenze ordinate. Quindi si unisce il tutto. Voi penserete “oltre a essere così incasinato, ha almeno dei vantaggi?”, e la risposta è affermativa. Questo algoritmo sfrutta perfettamente le capacità dei processori moderni di gestire il multithreading, e soprattutto si rivela l'algoritmo più efficiente tra quelli basati sul confronto degli elementi nella sequenza. Tranne nel caso peggiore, in cui ha le stesse prestazioni dei precedenti algoritmi, esso permette un numero di confronti notevolmente minore rispetto ad essi.
Prendiamo ad esempio la sequenza
4 7 1 5 3, dove il perno è sottolineato. Contiamo il numero di confronti e di scambi; in questo caso sarebbero 10/4 per Selection Sort e 12/6 per Bubble Sort). Con Quick Sort si ha:
3 1 4 7 5 → 4 confronti + 2 scambi. Ora spezziamo nelle due sotto sequenze e prendiamo dei nuovi pivot.
3 1; 7 5 , che diventano 1 3; 5 7 con altri 2 confronti e 2 scambi.
Ora siamo già pronti a riordinare il tutto, dopo solo 6 confronti e 4 scambi!
Ovviamente è solo un esempio preso appositamente per far notare le differenze (anche se rientra nella casistica media), ma si può intuire come su enormi quantità di dati, quest'ultimo algoritmo risulti notevolmente migliore.
Inoltre è possibile migliorarne ancora l'efficienza scegliendo dei perni più adatti, calcolati attraverso procedimenti euristici.


"Oh! Suona la campanella...confido ragionevolmente, visto l'interesse della classe, che mi lascerete 2 minuti dell'intervallo per terminare il disc...ma no, fermi alunni, dove state andando! Sto concludendo la spiegaz..." 
"Si fotta, prof!"
"Lezione conclusa...sigh..."
Siete ancora convinti sia così inutile e banale ordinare una serie di oggetti?
Un ulteriore esempio di utilizzo di questi algoritmi, coniato dalla folle mente del Maestro Jedi +Gianfranco Gallizia, riguarda un elenco ordinato alfabeticamente; si vuole sapere in che posizione si trova la parola Xerxes. Idea stupida: si legge l'elenco da Abecedario a Zuzzurellone e ci si ferma quando si arriva a Xerxes. Idea meno stupida: si va direttamente a metà dell'elenco e si legge cosa c'è, se è Xerxes abbiamo finito altrimenti si confronta la parola e si decide se cercare nella prima metà o nella seconda ripetendo il procedimento.
Caso peggiore nella ricerca lineare (la prima idea): ci tocca leggere tutto l'elenco.
Caso peggiore nella ricerca binaria: ci tocca leggere un numero di elementi pari al logaritmo in base 2 della lunghezza dell'elenco.
Cosa cambia? Negli elenchi brevi (3 o 5 elementi) nulla (o quasi), negli elenchi di un milione di elementi, si passa da un milione di letture a 20 letture. Se il tuo elenco è ordinato la ricerca binaria è un must. Se il tuo elenco non è ordinato e fai moltissime letture ti conviene ordinarlo prima.
Se si vuole poi un esempio ancora più concreto: ogni volta che ci si logga su un sito il server deve vedere se il nome utente che viene inserito è corretto e se la password associata corrisponde. Facebook ha più di un miliardo di utenti (attivi e non attivi) e deve fare questa ricerca ogni volta che un utente tenta il login.

Beh direi che con questi ultimi esempi si è chiarito perfettamente l'importanza di questi algoritmi che va molto oltre il campo dell'informatica, e che arrivano, in maniera del tutto trasparente all'utente (come d'altra parte lo è tutta l'informatica, e forse rappresenta il motivo per cui la trovo così splendida), a migliorare notevolmente tantissimi servizi che si utilizzano quotidianamente.
Che altro dire? Al prossimo noiosissimo articolo!
E intanto, buone ferie a tutti!

giovedì 12 giugno 2014

A proposito di TrueCrypt su Windows

Lo so che il nome del blog è GNUrants e che Windows dovrebbe essere bandito da queste pagine, non per questo non si deve cercare di migliorare l'esperienza di utilizzo del Sistema Operativo di Redmond ricorrendo al Software Libero. Tra cui c'è anche il pacchetto di crittazione di partizioni e dischi rigidi TrueCrypt.

Recentemente TrueCrypt è stato al centro di una vicenda alquanto curiosa: la notizia non è proprio nuova (ma se leggete questo blog lo sapete che gli GNUrants si prendono il tempo necessario per scrivere bene i loro articoli) però, per chi vive sotto ad una roccia, sappiate che gli sviluppatori di TrueCrypt hanno deciso di interrompere lo sviluppo e lo hanno comunicato nella Home Page del progetto con tanto di guida su come si attiva BitLocker su Windows Vista/Windows 7.

La cosa buffa è che l'annuncio cita la fine del supporto a Windows XP come ragione della fine dello sviluppo di TrueCrypt ma è stato pubblicato quasi due mesi dopo la data dell'8 aprile 2014. La cosa ancora più buffa è che il 14 febbraio (San Valentino) è uscito il primo report dell'Open Crypto Audit Project: un progetto che, tramite il crowfunding, ha finanziato un audit completo del codice di TrueCrypt.

Siccome non sono molto bravo a speculare sulle ragioni politiche dietro le scelte operate dagli sviluppatori (lascio volentieri ad altri il compito di indossare cappelli di stagnola e puntare il dito verso i Tagliapietre di turno) mi limiterò a fare quello che mi riesce meglio: un'analisi tecnica di quello che hanno trovato gli ingegneri che hanno compiuto l'audit.

Questo primo report si è concentrato sul bootloader (il componente che permette l'avvio del computer da un volume criptato, essenziale per la FDE - Full Disk Encryption - ovvero la crittazione dell'intero disco, Sistema Operativo e Programmi inclusi).

Il report in questione è protetto da Copyright e non si può riprodurre in tutto o in parte senza l'esplicito consenso scritto di iSEC Partners Inc. Il progetto Open Crypto Audit però, in qualità di committente, ha deciso di rendere pubblico il PDF del report all'indirizzo seguente:

https://opencryptoaudit.org/reports/iSec_Final_Open_Crypto_Audit_Project_TrueCrypt_Security_Assessment.pdf

Chi non avesse tempo/voglia di leggere le 32 pagine del documento (e di studiare diversi libri su programmazione in C, crittografia, API di Windows ecc. ecc.) può leggere le righe seguenti per avere sott'occhio la versione TL:DR.

Il PDF chiarisce fin da subito che non ci sono vulnerabilità critiche in TrueCrypt, ma ci sono delle vulnerabilità nel bootloader che potrebbero essere sfruttate da un attaccante seriamente motivato a carpire i segreti gelosamente custoditi sul disco criptato.

Fine del TL:DR, ora si fa sul serio.

I due ingegneri che hanno preso visione del codice hanno trovato 8 vulnerabilità di grado medio e basso e 3 problemi che, pur non essendo delle vere e proprie vulnerabilità potrebbero essere fonti di vulnerabilità in futuro. Le vulnerabilità trovate sembrerebbero essere non intenzionali e frutto di errori nella scrittura del codice anziché di un deliberato atto di sabotaggio volto all'inserimento di backdoor (pagina 7 del report, ultimo paragrafo).

Gli 11 problemi rilevati sono poi stati classificati e ordinati in base a gravità e quindi presentati dal più grave al meno grave. Vediamo ora i quattro più gravi nell'ordine presentato dai relatori.

Algoritmo di derivazione della chiave per il Volume Header debole

Cominciamo col dire cosa si intende per "algoritmo di derivazione della chiave". In crittografia si definisce chiave una porzione di informazione (quasi sempre una sequenza di bit) che, opportunamente utilizzata, consente di passare da un messaggio in chiaro (leggibile) ad uno criptato (non leggibile). Gli algoritmi di derivazione della chiave prendono in input una porzione di informazione nota all'utente (la password), un sale (un'altra porzione di informazione nota ma che solitamente varia ad ogni utilizzo) e li utilizzano per ricavare una chiave crittografica in modo tale che sia difficile risalire alla password se si conosce solo il messaggio criptato.

TrueCrypt utilizza PBKDF2 come algoritmo di derivazione delle chiavi, lo stesso usato dal protocollo WPA2 per la criptazione delle comunicazioni WiFi. Affinché questo algoritmo sia sicuro occorre che il numero di iterazioni (ovvero il numero di volte in cui si ripete l'operazione di derivazione della chiave) sia piuttosto alto. Quanto alto? Difficile a dirsi: gli attacchi di tipo bruteforce sono tanto più efficaci quanto è più facile parallelizzare l'operazione di generazione e test delle chiavi. Con le potenze di calcolo delle attuali GPU ricavare una password da un singolo giro di MD5 può richiedere da pochi secondi a un minuto: due ATI radeon HD4870 in CrossFire hanno la capacità di generare 4 miliardi e 600 milioni di hash MD5 al secondo (fonte: http://www.golubev.com/about_cpu_and_gpu_2_en.htm ). Per contrastare una simile potenza di calcolo (che richiede un investimento inferiore ad un migliaio di Euro al momento in cui scrivo) sarebbero necessarie svariate centinaia di migliaia di iterazioni di PBKDF2. TrueCrypt usa un numero di iterazioni che va da 1000 a 2000 a seconda dei parametri scelti dall'utente.

La soluzione proposta nel breve termine è consentire all'utente di impostare manualmente il numero di iterazioni, quella a lungo termine di cambiare l'algoritmo di derivazione della chiave con un algoritmo che sia più ostile nei confronti delle GPU.

Informazioni sensibili potrebbero essere salvate nello swap

Nel caso in cui l'utente non abbia optato per la FDE ma solo per la criptazione di una porzione del disco sussiste il problema dei file di paging (o file di swap): quando la memoria RAM per i programmi in esecuzione si esaurisce il Sistema Operativo sposta alcune porzioni di memoria non utilizzate dalla RAM al disco rigido.

Un malintenzionato può causare una situazione in cui la vittima esaurisca la memoria RAM e, in un secondo tempo, ricavare informazioni sensibili (compresa la password per sbloccare i dati) dal file di paging.

TrueCrypt attua diversi meccanismi per prevenire questo, ma ci sono comunque dei casi in cui è possibile che ciò avvenga. Gli stessi sviluppatori sconsigliano di utilizzare TrueCrypt in questa configurazione e dicono chiaramente che l'utente dovrebbe optare per la criptazione dell'intero disco, compreso il file di paging.

A mio avviso questo è un non-problema: se uno è abbastanza paranoico da decidere di aver bisogno di TrueCrypt lo sarà anche abbastanza da usare la FDE e chiudere quindi la possibilità ad un malintenzionato di sfruttare lo swap.

Problemi multipli nello scompattatore del bootloader

Questo è un punto interessante, non per la vulnerabilità che espone ma per gli indizi che porta sulla qualità del codice del bootloader di TrueCrypt (tanto che i relatori hanno dedicato un'intera appendice a commentare i problemi che hanno rilevato nel modo in cui è scritto il compressore del bootloader e un'altra appendice alle problematiche che hanno riscontrato nel qualità con cui è scritto il resto del software).

In sintesi il codice che si occupa di decomprimere la porzione principale del codice del bootloader (quella che chiede all'utente la password e decripta il contenuto del disco) soffre di diversi problemi di programmazione:

  • Mescolanza di tipi signed e unsigned.
  • Accesso ad array senza controllare se ci si trova entro i limiti dell'array (con accesso a porzioni di memoria che non fanno parte dell'array stesso e relativi problemi).
  • Mancanza di controlli sui valori di ritorno per la presenza di codici di errore.
Questo genere di errori non ci dovrebbero essere in un software che si presume orientato alla sicurezza (e quindi al rigore del codice).

Uso di memset() per la pulizia di dati sensibili

Questo è un meta-problema nel senso che non è un problema di sicurezza esplicitamente dovuto al codice ma si presenta quando i compilatori fanno i furbi ed eliminano codice che loro considerano inutile.

Supponiamo di avere un codice simile:

char* roba_importante = calloc(sizeof(char), LUNGHEZZA_ROBA_IMPORTANTE);

/*Fai qualcosa con roba_importante*/

memset(roba_importante, 0, sizeof(roba_importante));

free(roba_importante);

La chiamata a memset ha lo scopo di pulire lo spazio di memoria di roba_importante prima di rilasciare la memoria con free(roba_importante);. Non vogliamo che altre porzioni del programma (o peggio ALTRI programmi) accedano a quelle informazioni e quindi le cancelliamo.

Il problema è che i compilatori di adesso sono tarati per produrre codice che giri velocemente e quindi effettuano tutta una serie di ottimizzazioni tra cui l'eliminazione di codice ritenuto inutile. Quando il compilatore vede che noi liberiamo roba_importante e non la utilizziamo più lui elimina la chiamata a memset perché così il programma girerà più velocemente. Peccato che quella chiamata noi non la vogliamo eliminare perché ci serve a proteggere delle informazioni importanti.

La soluzione a questo problema consiste nel utilizzare altre funzioni scritte ad hoc per la pulizia della memoria (come explicit_bzero() di OpenBSD). Gli sviluppatori di TrueCrypt hanno scritto la funzione burn() a tale scopo ma ci sono porzioni di codice che non ne fanno uso (probabilmente rimasugli di vecchio codice oppure contributi di codice da altre fonti che non sono stati adeguatamente adattati prima dell'inserimento nella base di codice principale).

Conclusioni

Il codice di TrueCrypt non sembrerebbe contenere vulnerabilità critiche, ma questo non è una ragione per festeggiare: il codice andrebbe ripulito e ricontrollato per eliminare diversi problemi dovuti probabilmente a distrazioni degli sviluppatori. Inoltre il codice per essere compilato sotto Windows dipende da un mix di vecchi compilatori Microsoft (VC++ 1.52 rilasciato nel 1993!) e tools di GNU portati sull'OS di Redmond. Una simile toolchain, oltre ad essere difficile da installare e configurare, richiede di accedere a risorse online che potrebbero scomparire (quanti di voi sanno da dove scaricare una versione così vetusta di Visual C++?).

Forse gli sviluppatori di TrueCrypt sapevano che non avrebbero passato l'audit e si sono ritirati dalla competizione. Ma molto probabilmente non lo sapremo mai perché hanno fatto di tutto per restare anonimi.

giovedì 22 maggio 2014

Perché usiamo GNU/Linux?

Ciao a tutti!
Vi siete mai chiesti, voi che leggete questo blog dal caldo e accogliente focolare di windows 7/8.1 (magari da Internet Explorer), cosa diavolo possa aver deviato le nostre menti per farci utilizzare questo puzzle di software follemente sviluppati?
Bene, spero che in questo articolo troverete pane per i vostri denti.

Sarò breve e circonciso (ogni allusione a str***ate dette in luoghi poco consoni è puramente casuale)
  1. Lo ammetto, mi avete beccato. Sono un fottuto comunista, che ci devo fare?
    Se quell'ideologia dovesse significare ancora qualcosa (ne dubito fortemente), questo sarebbe l'unico ambito in cui ancora è sopravvissuta. Si può essere d'accordo o meno, ma io la trovo una cosa fantastica.
    Ehm, fin qua son stato fin troppo politico...cambierò tono, scusate!
    Il modello di sviluppo del software Open, tralasciando la cavolata (ammesso che lo fosse) appena detta, è incredibilmente rapido, cooperativo (per definizione), sicuro (mmh incubi recenti?) e, forse la questione più significativa, libero e creativo, il che spesso gioca a sfavore purtroppo.
  2. Linux, inteso come solo kernel, è stabile; ha un ciclo di rilasci molto breve che fixa bug e aggiunge funzionalità di continuo. Molto più rapidamente di qualsiasi altro sistema operativo proprietario. Risulta inoltre incredibilmente scalabile, può funzionare su hardware datatissimo, così come su supercomputer.
  3. L'architettura del filesystem di linux è, in maniera assoluta e certa, per progettazione, più sicura di quella ad esempio di Windows. 
  4. Hai un problema? Riscontri un bug?
    Ebbene hai la comunità più attiva che esista disposta ad aiutarti! E se sei abbastanza bravo da fixartelo da solo, puoi condividere la tua soluzione con tutti gli altri!
  5. Le battaglie filosofiche. :) Sono stupende...da ultima quella pro/contro systemd. Ma ce ne sono state tantissime!
    Ravvivano la giornata, divertono e insegnano a rispettare (alcune volte...) il punto di vista e le idee delle altre persone.
  6. L'utente è libero. Prendi il tuo sistema e facci quello che vuoi. E non parlo solo dal punto di vista grafico (DE ecc ecc), parlo di tutto il sistema operativo. Qualsiasi cosa tu voglia modificare, hai la possibilità di farlo...certo se sbagli ne paghi le conseguenze (quante reinstallazioni i primi mesi!).
    E sei anche libero di scegliere, hai un'enorme (troppa spesso) varietà di software tra cui scegliere! Non vi siete mai chiesti perché diavolo dobbiate usare un ambiente desktop confezionato da altri per voi, invece di crearvi voi il vostro? Perché dovreste lasciare ad altri di stabilire il modo con cui voi interagirete col vostro pc? Fanculo, il pc è mio, e devo poterlo personalizzare.
  7. Spesso si riesce a parlare direttamente con gli sviluppatori del software che stai utilizzando, dandogli suggerimenti, aiutandoli nel debug o direttamente nella programmazione.
  8. Avere accesso a tutto il codice di qualsiasi software, per uno sviluppatore (anche se alle prime armi come me) è un sogno.
  9. Sintesi di alcuni dei punti precedenti: sentirsi al centro del progetto, sentirsi importante nello sviluppo software, e non utente passivo che raccoglie solo i frutti del lavoro dei programmatori.
  10. Gloria, gloria, gloria all'Ipnopinguino...
E per concludere...
Qualcuno usava Linux perché aveva avuto una educazione troppo closed
Qualcuno usava Linux perché glielo avevano detto.
Qualcuno usava Linux perché non gli avevano detto tutto.
Qualcuno usava Linux perché prima… prima…prima… usava Windows.
Qualcuno usava Linux perché aveva capito che l' opensource andava piano, ma lontano.
Qualcuno usava Linux perché era così ateo che aveva bisogno di un altro S.O. .
Qualcuno usava Linux perché “driver video dignitosi?” “oggi no, domani forse, ma dopodomani sicuramente”.
Qualcuno usava Linux per fare rabbia a suo padre.
Qualcuno usava Linux per moda, qualcuno per principio, qualcuno per frustrazione.
Qualcuno usava Linux perché aveva scambiato K&R per il Vangelo secondo Stallman.
Qualcuno usava Linux perché non c'era niente di meglio.
Qualcuno usava Linux perché non sopportava più quella cosa sporca che ci ostiniamo a chiamare software proprietario.
Qualcuno credeva di usare Linux, e forse usava qualcos'altro.
Qualcuno usava Linux perché aveva bisogno di una spinta verso qualcosa di nuovo.
Niente, son proprio comunista. Non c'è nulla da fare...