Guida per i webmaster

Per ottenere un corretto funzionamento dei siti ospitati sui server di CSITA è; necessario attenersi ad alcune linee guida nella progettazione delle pagine.

Dal momento che alcune funzionalità del sito web dell'Ateneo coinvolgono anche altri siti dell'Università di Genova, questi suggerimenti possono essere utili anche ai webmaster dei dipartimenti o delle facoltà

  1. I nomi dei file
  2. Come caricare i file sul sito
  3. Titolazione delle pagine
  4. I formati alternativi (PDF e PostScript)
  5. Motore di ricerca

I nomi dei file

Ogni pagina web è costituita da un file principale in formato HTML e, eventualemte, da uno o piò file secondari conteneti immagini, applet, ecc... (la struttura delle pagine con frame è leggermente più complessa). Affinché tutto funzioni correttamente i nomi di questi file devono rispettare alcune regole:

  • I nomi dei file non devono contenere spazi o lettere accentate: anche se alcuni browser (Microsoft Internet Explorer) riescono ugualemente a leggerle, altri utenti, in particolare quelli di Netscape Navigator, potrebbero non essere in grado di caricarle e pensare che la pagina non esista;
  • I nomi dei file devono essere sempre scritti nello stesso formato di maiuscole e minuscole: Linux, il sistema operativo del server, fa distinzione tra le varie forme di nomi in base anche alle maiuscole e alle minuscole. Quindi, PIPPO.HTML, pippo.html e Pippo.HTML vengono considerati file diversi.

    Se il sito viene sviluppato su un computer con Microsoft Windows, questa distinzione non viene fatta, per cui, creando un file pippo.html e mettendo in una pagina un link <a href="PIPPO.HTML"> il sito funzionerà sul sistema su cui è stato sviluppato, ma non una volta caricato sul server.

    Occorre quindi prestare attenzione a scrivere il nome del file, sia HTML sia di immagine, sempre nello stesso modo, ovunque appaia.

  • Ogni directory dovrebbe avere un file indice o principale: quando viene richiesto un indirizzo che non specifica il nome di un file, ad esempio, http://www.unige.it/, il comportamento standard del server è di mostrare l'elenco dei file contenuti nella directory. Non sempre il visitatore è in grado di capire da che pagina iniziare a consultare il sito.

    Si può evitare questo inconveniente chiamando la pagina principale del sito o della directory index.html o index.php3: in questo modo verrà presentata automaticamente a chi si collega indipendentemente dal fatto che digiti o meno il nome di un file. Se il sito è già stato sviluppato utilizzando un diverso nome per la pagina indice, è comunque possibile richiedere una configurazione ad hoc.

Titolazione delle pagine

La mappa e la ricerca sui siti sono gestiti automaticamente da appositi programmi. Queste funzioni utilizzano il titolo della pagina HTML (tag <title>)per creare il link. Spesso i programmi per la creazione di pagine web non presentano come prioritaria la richiesta di inserire un titolo, e in questo modo è possibile vedere (ad esempio effettuando una ricerca) dei link con scritto "(no name)" o altre strane scritte.

Un titolo pertinente dovrebbe essere sempre inserito nelle pagine HTML per evitare questi inconvenienti e, dal momento che il motore di ricerca indicizza anche i file .doc e .pdf, anch'essi andrebbero correttamente titolati.

I formati delle pagine

Uno dei limiti del formato HTML (solitamente, con estesione .htm o .html) è l'impossibilità da parte dell'autore di avere un buon controllo sull'aspetto che le pagine prenderanno sul browser dell'utente. Questa è la conseguenza del progetto originario, più orientato a descrivere le informazioni1 che a definirne l'aspetto.

Nel caso che si debba pubblicare del materiale che deve mantenere inalterato l'aspetto (ad esempio, perché già pubblicato su carta) è necessario utilizzare altri formati.

Per quanto sia possibile salvare direttamente i file nel formato .doc di Microsoft Word questa pratica è altamente sconsigliata: innanzitutto, i file così prodotti non sono inalterabili, e anche escludendo intenzioni maliziose, non è detto che l'utilizzatore riesca a stamparli esattamente come previsto dall'autore2; in secondo luogo, essi possono costituire il veicolo per la diffusione di macro-virus che, data la facilità di realizzazione di varianti, sono difficilmente individuabili dai programmi antivirus.

A questo secondo problema si può ovviare utilizzando il formato RTF (Rich Text Format), che non può veicolare virus3, ma ha il difetto di produrre file di dimensioni enormi e, comunque, modificabili.

Per ottenere dei file che vengano stampati esattamente come la pubblicazione originale si possono utilizzare i formati PDF o PostScript.



1Ad esempio, sopravvivono il tag <address> per indicare un indirizzo o <cite> per le citazioni.

2Ad esempio, i margini fisici della stampante possono compromettere l'impaginazione.

3Il macro virus CAP pare infettare i file RTF, ma in realtà utilizza un trucco: mantiene il formato .doc e applica l'estensione .rtf. In questo modo, Microsoft Word apre ugualmente il file senza insospettire l'utente. Un programma che utilizzi solo file RTF genuini non sarà però in grado di leggerli.

Motore di ricerca

Nel caso si ritenga che certe pagine non debbano comparire nell'indice, in particolare perché variano molto velocemente o perché contengono informazioni raw (per esempio, log di accesso), si può evitarne l'analisi da parte del programma.

Il software utilizzato rispetta le convenzioni del file ROBOTS.TXT (per maggiori informazioni si può vedere il documento http://info.webcrawler.com/mak/projects/robots/norobots.html). Questo sistema influenza anche gli spider dei motori di ricerca esterni.

Inoltre, è possibile utilizzare le seguenti opzioni specifiche a livello di singola pagina, inserite come tag META nell'header, per modificare il comportemento di default del programma:

  • <META NAME="robots" INDEX="noindex"> per impedire che il contenuto della pagina venga inserito nell'indice;
  • <META NAME="robots" INDEX="nofollow"> per impedire che i link contenuti nella pagina venga seguiti.

Ovviamente, è possibile utilizzarli entrambe nella forma <META NAME="robots" CONTENT="noindex, nofollow">