Googlen kirjatietokanta

Vuoden lyhintä päivää odotellessa voi tutustua aikansa kuluksi vaikkapa Googlen kirjatietokannan antimiin. Google aloitti kaikessa hiljaisuudessa kirjojen digitoinnin, josta myöhemmin nousi kohu erityisesti Yhdysvalloissa. Nyttemmin kirjatietokanta on kasvanut massiivisiin mittoihin ja käsittää 15 miljoonaa kirjaa, mikä on noin 12 prosenttia kaikista maailmalla julkaistuista kirjoista. Googlen kirjahanke ei toistaiseksi ole tiemmä tehnyt hallaa sen enempää kirjailijoille kuin kustantajillekaan. Tarkalleen ottaen hankkeesta taitaa olla enemmänkin hyötyä, sillä se on jo nyt tuottanut sivutuotteena erinomaisen kirjatietokannan. Olen itse mukana Googlen kirjaprojektissa annettuani kaikki julkaisemani kirjat tietokantaan. Kirjahanke on toiminut ainakin omille kirjoilleni mainiona markkinointikanavana, sillä kirjat ovat siellä hyvin edustettuina ja niistä voi silmäillä esikatselusivuja sieltä täältä.

Google-laboratorion valmistamalla Ngram-ohjelmalla voi kysellä kirjatietokannasta mitä mielenkiintoisempia asioita. Tietokannan kirjat ovat pääosin englanninkielisiä, vaikka kieliaineistosta löytyy myös ranska, saksa, espanja, venäjä ja kiina. Kokeilin kysellä englanninkielisestä kannasta tunnettuja suomalaisia henkilöitä vuosilta 1900-2010 ja kirjoitin hakusanoiksi "Urho Kekkonen" ja "Alvar Aalto". Ohjelma suoritti kyselyn todella nopeasti, ja sain tulokset näyttävänä viivadiagrammina (kuva 1).

Kuva 1.

Diagrammista voi helposti nähdä, miten suurmiehistämme on aikakausien mittaan kirjoitettu. Yllättävää on todeta, että Alvar Aalto (1898-1976) on saanut 1980-luvulla huomattavasti paljon enemmän huomiota kuin edesmennyt presidenttimme. Aalto näyttäisi tämän tuloksen perusteella olla paljon tunnetumpi henkilö ainakin englanninkielisessä kirjallisuudessa kuin Urho Kekkonen (1900-1986).

Kuvio muuttuu aivan toiseksi, kun mukaan otetaan marsalkka Mannerheim (kuva 2). Sotavuodet 1940-luvulla ovat näkyvästi edustettuina, ja C. G. E. Mannerheim (1867-1951) näyttää muutenkin jyräävän kaukana Aallosta ja Kekkosesta kirjoittelusta aina 2000-luvulle saakka.

Kuva 2.

Graafi saa uuden muodon, kun hakusanoina ovat vain sukunimet Mannerheim, Aalto ja Kekkonen (kuva 3). Kuten ensimmäisessä tilastossa tässäkin diagrammissa Aalto alkaa nousta 1980-luvulla, mutta ohittaa Mannerheimin kirjoittelun määrässä. Kekkosesta sen sijaan kirjoitetaan melko tasaisesti, ja 1970-luvun lopulla on nähtävissä pieni piikki, joka lienee peruja ETYK-konferenssista vuonna 1975.

Kuva 3.

Googlen kirjahanke on mittava projekti ja voi valmistuttuaan tarjota aivan uudenlaisia näkymiä kirjoitettuun tietoon. Kirjojen sisällöstä tehtyjen kyselyjen tuloksista voidaan päätellä esimerkiksi kulttuurin kehitys. Kyselemällä sanaa "Internet" saadaan jyrkkä käyrä, joka kasvaa kasvamistaan 1990-luvun alusta alkaen. Vastaavasti sanat "monarchy" eli monarkia ja "democracy" eli demokratia vuosien 1700-2010 ajalta osoittavat kirjoittelun kehityksen eri vuosisatoina (kuva 4).

Kuva 4.

Diagrammista näkee, miten monarkiasta kirjoittelu on 1800-luvun jälkeen tasaisesti laskenut. Laskusuhdanteeseen vaikuttaa varmasti myös kirjojen määrän kasvu, sillä muutama sata vuotta sitten kirjojen julkaisu ei ollut vielä samoissa mitoissa kuin tänään. Toisaalta diagrammista voi päätellä monarkian suosion kehityksen samaan tapaan kuin demokratian kehityksen, joka näyttäisi olevan kovin turbulenttia eri vuosikymmeninä. Ngram-sovelluksella voi kuka tahansa kysellä kirjatietokannasta kiinnostavia seikkoja ja tehdä niistä omia johtopäätöksiään.

Julkaistu tiistaina 21.12.2010 klo 18:52 avainsanoilla historia, kirjat ja tilastot.

Edellinen
Tulkkaavat silmälasit
Seuraava
Kauppiaiden joulu