Πώς τα big data αλλάζουν τον τρόπο που σκεφτόμαστε τον κόσμο 

By Kenneth Neil Cukier καιViktor Mayer Schoenberger

Όλοι γνωρίζουν ότι το Διαδίκτυο έχει αλλάξει τον τρόπο με τον οποίο δουλεύουν οι επιχειρήσεις, που λειτουργούν οι κυβερνήσεις και ζουν οι άνθρωποι. Αλλά μια καινούργια, λιγότερο εμφανής τεχνολογική τάση αποδεικνύεται να έχει εξίσου μεγάλη μετασχηματιστική δύναμη: τα «μεγάλα δεδομένα».

Όλοι γνωρίζουν ότι το Διαδίκτυο έχει αλλάξει τον τρόπο με τον οποίο δουλεύουν οι επιχειρήσεις, που λειτουργούν οι κυβερνήσεις και ζουν οι άνθρωποι. Αλλά μια καινούργια λιγότερο εμφανής τεχνολογική τάση αποδεικνύεται να έχει εξίσου μεγάλη μεταμορφωτική δύναμη: «τα μεγάλα δεδομένα» (bid data). Τα «μεγάλα δεδομένα» εκκινούν από το γεγονός ότι κυκλοφορεί σήμερα περισσότερη πληροφορία από οποτεδήποτε άλλοτε, και ότι αυτή υπόκειται σε εντελώς νέες χρήσεις. Τα «μεγάλα δεδομένα» είναι κάτι διαφορετικό από το Διαδίκτυο παρότι ο Παγκόσμιος Ιστός καθιστά πολύ ευκολότερο να μαζέψεις και να μοιραστείς τα δεδομένα. Τα «μεγάλα δεδομένα» είναι κάτι περισσότερο από απλή επικοινωνία: η ιδέα είναι ότι από ένα μεγάλο σώμα πληροφοριών μπορούμε να μάθουμε πράγματα που δεν θα μπορούσαμε να καταλάβουμε αν χρησιμοποιούσαμε μόνο μικρότερο όγκο πληροφοριών.

Στον τρίτο αιώνα π.Χ., η βιβλιοθήκη της Αλεξάνδρειας θεωρείτο ότι είχε συγκεντρώσει το σύνολο της ανθρώπινης γνώσης. Σήμερα, υπάρχει πληροφορία στον κόσμο για καθέναν από τους κατοίκους της γης η οποία αντιστοιχεί σε 320 φορές ολόκληρη τη συλλογή η οποία πιστεύεται ότι διατηρείτο στη βιβλιοθήκη της Αλεξάνδρειας –υπολογίζεται σε 1200 exabytes. Αν όλες αυτές οι πληροφορίες μαζεύονταν σε ψηφιακούς δίσκους και στοιβάζονταν, οι ψηφιακοί αυτοί δίσκοι θα σχημάτιζαν πέντε διαφορετικές στοίβες που θα έφθαναν όλες μέχρι το φεγγάρι.

Αυτή η έκρηξη των δεδομένων είναι σχετικά νέα. Το 2000, δηλαδή πολύ πρόσφατα, μόνο το ένα τέταρτο όλων των δεδομένων που φυλάσσονταν παγκοσμίως ήταν ψηφιακά. Τα υπόλοιπα φυλάσσονταν σε χαρτί, σε φιλμ και άλλα αναλογικά μέσα. Αλλά επειδή η ποσότητα των ψηφιακών δεδομένων επεκτείνεται με τόση ταχύτητα –διπλασιάζεται περίπου κάθε τρία χρόνια- αυτή η κατάσταση αντιστράφηκε γρήγορα. Σήμερα, λιγότερο από το 2% από όλες τις αποθηκευμένες πληροφορίες είναι μη ψηφιακές.

Δεδομένης αυτής της τρομερής κλίμακας, η προφανής τάση είναι να κατανοήσουμε τα «μεγάλα δεδομένα» μόνο με όρους μεγέθους. Αλλά αυτό θα ήταν παραπλανητικό. Τα μεγάλα δεδομένα χαρακτηρίζονται επίσης από την ικανότητα να μετατρέπουν σε δεδομένα πολλές όψεις του κόσμου που δεν έχουν ποτέ ποσοτικοποιηθεί: ας το πούμε «δεδομενοποίηση» (datafication). Για παράδειγμα, η γεωγραφική τοποθεσία έχει δεδομενοποιηθεί, πρώτα με την ανακάλυψη του μήκους και του πλάτους και πιο πρόσφατα με τα δορυφορικά συστήματα GPS. Οι λέξεις αντιμετωπίζονται ως δεδομένα όταν οι ηλεκτρονικοί υπολογιστές αντλούν υλικό από βιβλία αιώνων. Ακόμη και οι φιλίες και οι προτιμήσεις (likes) δεδομενοποιούνται, μέσω του Facebook.

Αυτό το είδος δεδομένων υπόκειται σε απίστευτα νέες χρήσεις με τη βοήθεια φθηνής υπολογιστικής μνήμης, ισχυρών επεξεργαστών, έξυπνων αλγόριθμων, ευφυούς λογισμικού, και μαθηματικών που δανείζονται από τη βασική στατιστική επιστήμη. Αντί να προσπαθείς να «διδάξεις» έναν υπολογιστή πως να κάνει διάφορα πράγματα, όπως να οδηγεί ή να μεταφράζει από τη μια γλώσσα στην άλλη, τα οποία οι ειδικοί της τεχνητής νοημοσύνης προσπάθησαν ματαίως να κάνουν επί δεκαετίες, η νέα προσέγγιση είναι να τροφοδοτήσουμε με αρκετά δεδομένα έναν ηλεκτρονικό υπολογιστή έτσι ώστε να μπορεί να υποθέτει πότε, ας πούμε, ένα φανάρι οδικής κυκλοφορίας είναι πράσινο και όχι κόκκινο ή ότι σε ένα δεδομένο συγκείμενο, η γαλλική λέξη lumière είναι πιο κατάλληλη για να αποδώσει το αγγλικό «light» από ό,τι η λέξη léger.

Η χρήση μεγάλων όγκων πληροφορίας κατ’ αυτό τον τρόπο απαιτεί τρεις βαθιές αλλαγές στο πώς προσεγγίζουμε τα δεδομένα. Η πρώτη είναι να συλλέγουμε και να χρησιμοποιούμε πολλά δεδομένα παρά να συμβιβαζόμαστε με μικρές ποσότητες ή δείγματα, όπως κάνουν κατά κόρον οι στατιστικοί για μια χώρα. Η δεύτερη είναι να αποσύρουμε την προτίμησή μας για τα υψηλού βαθμού οργάνωσης και για τα άψογα δεδομένα, και αντ’ αυτού να αποδεχτούμε την ακαταστασία: σε έναν αυξανόμενο αριθμό περιπτώσεων, ένας μικρός βαθμός ανακρίβειας μπορεί να γίνει ανεκτός, διότι τα οφέλη από τη χρήση πολύ περισσότερων δεδομένων διαφορετικής ποιότητας υπερβαίνει το κόστος από τη χρήση δεδομένων μικρότερης ποσότητας αλλά μεγαλύτερης ακρίβειας. Τρίτον, σε πολλές περιπτώσεις, θα χρειαστεί να εγκαταλείψουμε την απαίτησή μας να ανακαλύψουμε τα αιτία των πραγμάτων, και αντ' αυτού να αποδεχτούμε τις συσχετίσεις. Με τα μεγάλα δεδομένα, αντί να προσπαθούν να καταλάβουν ακριβώς γιατί χαλάει μια μηχανή ή γιατί εξαφανίζεται μια παράπλευρη επίπτωση ενός φαρμάκου, οι ερευνητές μπορούν αντιθέτως να συλλέξουν και να αναλύσουν μαζικές ποσότητες πληροφορίας για τέτοια γεγονότα και για ό,τι σχετίζεται με αυτά, αναζητώντας δρόμους που μπορεί να τους βοηθήσουν να προβλέψουν μελλοντικά συμβάντα. Τα «μεγάλα δεδομένα» βοηθάνε να απαντήσουμε στο «τι», όχι στο «γιατί», και συχνά αυτό είναι αρκετό.

Το Διαδίκτυο έχει αναδιαμορφώσει το τρόπο με τον οποίο επικοινωνεί η ανθρωπότητα. Τα «μεγάλα δεδομένα» κάνουν κάτι διαφορετικό: σηματοδοτούν ένα μετασχηματισμό στο πώς η κοινωνία επεξεργάζεται την πληροφορία. Σε λίγο, τα «μεγάλα δεδομένα» μπορεί να αλλάξουν τον τρόπο με τον οποίο σκεφτόμαστε τον κόσμο. Καθώς αντλούμε περισσότερα δεδομένα για να καταλάβουμε τα γεγονότα και για να λάβουμε αποφάσεις, είναι πιθανό να ανακαλύψουμε ότι πολλές όψεις της ζωής κινούνται στη σφαίρα της πιθανότητας παρά της βεβαιότητας.

ΠΡΟΣΕΓΓΙΖΟΝΤΑΣ ΤΟ «Ν=ΟΛΑ»

Στο μεγαλύτερο μέρος της Ιστορίας, οι άνθρωποι έχουν δουλέψει με σχετικά μικρές ποσότητες δεδομένων επειδή τα εργαλεία για τη συλλογή, την οργάνωση, την αποθήκευση και την ανάλυση της πληροφορίας ήταν φτωχά. Οι άνθρωποι ξεσκαρτάριζαν την πληροφορία που τους χρειαζόταν στη στοιχειωδέστερη μορφή της έτσι ώστε να μπορούν να την εξετάσουν ευκολότερα. Αυτή ήταν η ευφυΐα της μοντέρνας στατιστικής που ήλθε για πρώτη φορά στο προσκήνιο στα τέλη του δέκατου ένατου αιώνα κι έδωσε τη δυνατότητα στην κοινωνία να καταλάβει σύνθετες πραγματικότητες ακόμη κι όταν υπήρχαν λίγα δεδομένα. Σήμερα, το τεχνικό περιβάλλον έχει κάνει στροφή 179 μοιρών. Υπάρχει ακόμη, και θα υπάρχει πάντα, ένας φραγμός στο πόσα δεδομένα μπορούμε να διαχειριστούμε αλλά είναι πολύ πιο περιορισμένος από ό,τι ήταν, και θα γίνει ακόμη πιο περιορισμένος όσο περνάει ο καιρός.

Ο τρόπος με τον οποίο οι άνθρωποι διαχειρίζονταν το πρόβλημα της συλλογής της πληροφορίας στο παρελθόν γινόταν μέσω δειγματοληψίας. Όταν η συλλογή των δεδομένων ήταν δαπανηρή και η επεξεργασία τους ήταν δύσκολη και χρονοβόρα, το δείγμα ήταν σωτήριο. Η σύγχρονη δειγματοληψία βασίστηκε στην ιδέα ότι, με ένα ορισμένο περιθώριο λάθους, μπορεί κανείς να συνάγει κάτι για τον συνολικό πληθυσμό με βάση ένα μικρό υποσύνολο, καθώς το δείγμα έχει επιλεγεί τυχαία. Έτσι, τα exit polls τη νύχτα των εκλογών υποβάλλουν ερωτήματα σε ένα τυχαία επιλεγμένο δείγμα μερικών εκατοντάδων ανθρώπων προκειμένου να προβλέψουν την εκλογική συμπεριφορά μιας ολόκληρης χώρας. Για απλές ερωτήσεις, αυτή η διαδικασία λειτουργεί καλά. Αλλά αποσυντονίζεται όταν θέλουμε να πάμε βαθύτερα σε υπο-ομάδες μέσα στο ίδιο δείγμα. Τι γίνεται όταν ο δημοσκόπος θέλει να μάθει ποια υποψήφια άγαμη γυναίκα κάτω των τριάντα είναι πιο πιθανό να πάρει τις περισσότερες ψήφους; Ή ποια Αμερικανίδα ασιατικής καταγωγής, κάτω των 30, με πανεπιστημιακή μόρφωση, μπορεί να κάνει το ίδιο; Ξαφνικά, το τυχαίο δείγμα γίνεται εν πολλοίς άχρηστο, εφόσον μπορεί να υπάρχουν μόνο κάνα δύο άνθρωποι με αυτά τα χαρακτηριστικά στο δείγμα, πολύ λίγοι για να προσφέρουν μια εκτίμηση με κάποιο νόημα για το πως θα ψηφίσουν οι διάφορες πληθυσμιακές ομάδες. Αλλά αν συλλέξουμε όλα τα δεδομένα -«ν=όλα», για να χρησιμοποιήσουμε την ορολογία της στατιστικής- το πρόβλημα εξαφανίζεται.

Αυτό το παράδειγμα εγείρει ένα άλλο μειονέκτημα από τη χρήση ορισμένων δεδομένων αντί όλων. Στο παρελθόν, όταν οι άνθρωποι συνέλεγαν μόνο λίγα δεδομένα, έπρεπε συχνά να αποφασίσουν εξαρχής τι να συλλέξουν και πως να το χρησιμοποιήσουν. Σήμερα, όταν μαζεύουμε όλα τα δεδομένα, δεν χρειάζεται να γνωρίζουμε προκαταβολικά τι σκοπεύουμε να τα κάνουμε. Φυσικά, μπορεί να μην γίνεται πάντα να συλλέξουμε όλα τα δεδομένα, αλλά είναι όλο και πιο εφικτό να συλλάβουμε πολύ περισσότερα από όσα αφορούν ένα φαινόμενο, παρά μόνο ένα δείγμα του που θα στοχεύσει στην κατανόησή του ως όλο. Τα «μεγάλα δεδομένα» δεν έχουν στόχο τη δημιουργία κάπως μεγάλων δειγμάτων αλλά την όσο γίνεται μεγαλύτερη τιθάσευση των υπαρχόντων δεδομένων που αφορούν το υπό μελέτη θέμα. Χρειαζόμαστε ακόμη τη στατιστική. Απλώς δεν χρειαζόμαστε πλέον να στηριζόμαστε σε μικρά δείγματα.

Πρέπει να κάνουμε ένα συμβιβασμό, πάντως. Όταν αυξάνουμε την κλίμακα με όρους μεγέθους, θα πρέπει ίσως να εγκαταλείψουμε τα καθαρά, προσεκτικά οργανωμένα δεδομένα, και να ανεχτούμε λίγη ακαταστασία. Αυτή η ιδέα έρχεται σε αντίθεση με το πώς δούλευαν επί αιώνες οι άνθρωποι με τα δεδομένα. Παρ’ όλ’ αυτά, η εμμονή με την πιστότητα και την ακρίβεια είναι κατά μια έννοια ένα τεχνούργημα ενός περιβάλλοντος με περιορισμένη πρόσβαση στην πληροφορία. Όταν δεν υπήρχαν τόσα δεδομένα τριγύρω, οι ερευνητές έπρεπε να βεβαιωθούν ότι τα στοιχεία που τους ενδιέφερε να συγκεντρώσουν ήταν όσο το δυνατόν πιο ακριβή. Η άντληση πολύ περισσότερων δεδομένων σημαίνει ότι μπορούμε να επιτρέψουμε μερικές ανακρίβειες (θεωρώντας ότι τα δεδομένα μας δεν είναι εντελώς λάθος), και σε αντάλλαγμα να επωφεληθούμε από τη βαθιά γνώση που παρέχει ένα τεράστιο σώμα δεδομένων.

Ας εξετάσουμε τη μετάφραση. Μπορεί να θεωρείται προφανές ότι οι υπολογιστές μεταφράζουν καλά, εφόσον μπορούν να αποθηκεύουν πολλές πληροφορίες και να τις ανασύρουν γρήγορα. Αλλά αν το θέμα ήταν η απλή αντικατάσταση λέξεων από ένα Γαλλο-Αγγλικό λεξικό, η μετάφραση θα ήταν άγαρμπη. Η γλώσσα είναι σύνθετη. Έγινε σημαντική πρόοδος τη δεκαετία του ’90, όταν η ΙΒΜ πειραματίστηκε πάνω σε μια στατιστική μηχανή μετάφρασης. Τροφοδότησε τον υπολογιστή με τα πρακτικά τού καναδικού κοινοβουλίου, στα γαλλικά και τα αγγλικά, και τον προγραμμάτισε να συναγάγει ποια λέξη της μιας γλώσσας αντιστοιχεί καλύτερα στην άλλη. Αυτή η διαδικασία άλλαξε το έργο της μετάφρασης και το έκανε ένα τεράστιο ζήτημα πιθανοτήτων και μαθηματικών. Αλλά μετά από αυτή την αρχική βελτίωση, η πρόοδος βάλτωσε.

Την σκυτάλη πήρε η Google. Αντί να χρησιμοποιήσει ένα σχετικά μικρό αριθμό υψηλής ποιότητας μεταφράσεων, η τεράστια αναζήτηση επεξεργάστηκε περισσότερα δεδομένα αλλά από το λιγότερο οργανωμένο Διαδίκτυο – «δεδομένα του άγριου κόσμου» για να το πούμε έτσι. Η Google «ρούφηξε» μεταφράσεις από εταιρικούς ιστότοπους, έγγραφα από κάθε γλώσσα της Ευρωπαϊκής Ένωσης, ακόμη και μεταφράσεις από το τεράστιο σχέδιό της που έχει να κάνει με το σκανάρισμα βιβλίων. Αντί για εκατομμύρια σελίδων με κείμενα, η Google ανέλυε δισεκατομμύρια. Το αποτέλεσμα είναι ότι οι μεταφράσεις της είναι αρκετά καλές –καλύτερες από της ΙΒΜ- και καλύπτουν 65 γλώσσες. Οι μεγάλες ποσότητες ακατάστατων δεδομένων επικράτησαν έναντι των μικρών ποσοτήτων καθαρότερων δεδομένων.

ΑΠΟ ΤΗΝ ΑΙΤΙΟΤΗΤΑ ΣΤΗ ΣΥΣΧΕΤΙΣΗ

Αυτές οι δύο αλλαγές σχετικά με το πώς αντιλαμβανόμαστε τα δεδομένα –από τα λίγα στα πολλά και από τα οργανωμένα στα ακατάστατα- φέρνει στο προσκήνιο μια νέα αλλαγή: από την αιτιότητα στη συσχέτιση. Αυτή αντιστοιχεί στην εγκατάλειψη της προσπάθειας που έχει να κάνει με την κατανόηση των βαθύτερων λόγων για το πώς λειτουργεί ο κόσμος, προσπαθώντας τώρα απλώς να μάθουμε πώς συσχετίζονται τα φαινόμενα μεταξύ τους, και να χρησιμοποιήσουμε τη γνώση αυτή για να είμαστε αποτελεσματικοί.

Βεβαίως, είναι επιθυμητό να γνωρίζουμε τις αιτίες πίσω από τα πράγματα. Το πρόβλημα έγκειται στο ότι είναι συχνά υπερβολικά δύσκολο να κατανοήσεις τις αιτίες, και πολλές φορές, όταν νομίζουμε ότι τις έχουμε προσδιορίσει, δεν είναι παρά μια ψευδαίσθηση αυτο-επιβεβαίωσης. Η μελέτη των οικονομικών συμπεριφορών έχει δείξει ότι οι άνθρωποι είναι έτοιμοι να δουν αιτιότητες ακόμη κι εκεί που δεν υπάρχει καμία. Άρα, πρέπει να είμαστε ιδιαίτερα προσεκτικοί ώστε να εμποδίσουμε τις γνωστικές μας προκαταλήψεις να μας παραπλανήσουν. Μερικές φορές αρκεί να αφήσουμε τα δεδομένα να μιλήσουν.

Παράδειγμα η UPS, η εταιρεία παράδοσης δεμάτων. Τοποθετεί αισθητήρες σε εξαρτήματα των οχημάτων της οι οποίοι δείχνουν αν δημιουργείται θερμότητα ή αναταράξεις που στο παρελθόν είχαν συνδεθεί με την καταστροφή τους. Με τον τρόπο αυτό, η εταιρεία μπορεί να προβλέψει μια βλάβη πριν αυτή προκύψει και να προβεί στην όποια αντικατάσταση όταν είναι η καταλληλότερη στιγμή και όχι στην άκρη του δρόμου. Τα δεδομένα δεν αποκαλύπτουν την ακριβή σχέση ανάμεσα στη θερμότητα ή τις αναταράξεις και τη βλάβη κάποιου τμήματος. Δεν λένε στην UPS γιατί ένα μέρος του οχήματος έχει πρόβλημα. Αλλά λένε τόσα ώστε η εταιρεία να ξέρει τι να κάνει στο άμεσο μέλλον, και για να καθοδηγήσει την έρευνά της σε οποιοδήποτε λανθάνων πρόβλημα μπορεί να υπάρχει είτε στο εν λόγω εξάρτημα είτε στο όχημα.

Παρόμοια προσέγγιση χρησιμοποιείται για την αντιμετώπιση της ανθρώπινης μηχανής. Ερευνητές στον Καναδά αναπτύσσουν μια προσέγγιση μεγάλων δεδομένων για να εντοπίσουν λοιμώξεις σε πρόωρα μωρά, προτού εμφανιστούν τα συμπτώματα. Εντοπίζοντας 16 ζωτικά σημάδια, συμπεριλαμβανομένων των καρδιακών παλμών, της πίεσης του αίματος, της αναπνοής και των επιπέδων του οξυγόνου του αίματος, σε μια ροή πληροφόρησης άνω των 1.000 δεδομένων ανά δευτερόλεπτο, έχουν καταφέρει να βρουν συσχετίσεις ανάμεσα σε πολύ μικρές αλλαγές και σε πολύ σοβαρά προβλήματα. Προφανώς, αυτή η τεχνική θα δώσει τη δυνατότητα στους γιατρούς να ενεργήσουν νωρίτερα και να σώσουν ζωές. Συν τω χρόνω, η καταγραφή αυτών των παρατηρήσεων μπορεί επίσης να επιτρέψει στους γιατρούς να καταλάβουν τι είναι αυτό που ουσιαστικά προκαλεί τέτοια προβλήματα. Αλλά όταν η υγεία ενός νεογνού είναι σε κίνδυνο, ακόμη και η απλή γνώση ότι κάτι μπορεί να συμβεί, ενδέχεται να είναι μακράν πιο σημαντική από το να καταλάβεις ακριβώς το γιατί θα συμβεί.

Η ιατρική παρέχει ένα ακόμη καλό παράδειγμα ως προς το γιατί με τα μεγάλα δεδομένα, το να βλέπεις συσχετίσεις είναι τρομερά σημαντικό, ακόμη κι όταν οι λανθάνουσες αιτίες παραμένουν στο σκοτάδι. Τον Φεβρουάριο του 2009, η Google δημιούργησε αναστάτωση στους κύκλους των επαγγελμάτων υγείας. Ερευνητές της εταιρείας έκαναν μια επιστημονική δημοσίευση στο Nature που έδειξε ότι ήταν δυνατό να προβλέψουν τις επιδημίες της εποχικής γρίπης, χρησιμοποιώντας μόνο τις αρχειοθετημένες καταγραφές των αναζητήσεων στην Google. Η Google διαχειρίζεται πάνω από ένα δισεκατομμύριο αναζητήσεις στις ΗΠΑ καθημερινά, και τις φυλάσσει όλες. Η εταιρεία πήρε τα 50 εκατομμύρια από τις πιο κοινές αναζητήσεις ανάμεσα στο 2003 και το 2008 και τις συνέκρινε με ιστορικά δεδομένα γρίπης από τα Κέντρα Ελέγχου και Πρόληψης Ασθενειών (CDC). Η ιδέα ήταν να ανακαλύψουν αν το γεγονός ορισμένων αναζητήσεων αντιστοιχούσε με επιδημίες γρίπης - με άλλα λόγια, κατά πόσο η αύξηση στη συχνότητα ορισμένων αναζητήσεων στο Google, σε μια συγκεκριμένη γεωγραφική περιοχή, συσχετίζονταν με τα δεδομένα του CDC ως προς τις τοπικές επιδημίες της γρίπης. Το CDC καταγράφει τις τρέχουσες επισκέψεις ασθενών στα νοσοκομεία και τις κλινικές όλης της χώρας, αλλά η πληροφόρηση που δίνει υπολείπεται της πραγματικότητας κατά μια-δύο εβδομάδες –μια αιωνιότητα στην περίπτωση πανδημίας. Το σύστημα της Google, αντιθέτως, θα μπορούσε να δουλέψει σε σχεδόν πραγματικό χρόνο.

Η Google δεν έφθασε στο σημείο να πει ποια ερωτήματα θα ήταν οι καλύτεροι δείκτες. Αντιθέτως, έτρεξαν όλους τους όρους μέσω ενός αλγόριθμου που φτιάχνει μια κατάταξη ως προς το βαθμό συσχέτισής τους με τις επιδημίες γρίπης. Ακολούθως, το σύστημα προσπάθησε να συνδυάσει τους όρους για να δει αν αυτό θα βελτίωνε το μοντέλο. Εντέλει, αφού πρώτα έτρεξαν σχεδόν μισό δισεκατομμύριο υπολογισμούς και τους συνδύασαν με τα δεδομένα, η Google εντόπισε 45 όρους – λέξεις όπως «πονοκέφαλος» και «καταρροή μύτης»- που είχαν ισχυρό βαθμό συσχέτισης με τα δεδομένα του CDC αναφορικά με τις επιδημίες γρίπης. Άπαντες οι 45 όροι σχετίζονταν, με κάποιο τρόπο, με τη γρίπη. Αλλά με ένα δισεκατομμύριο αναζητήσεις την ημέρα, θα ήταν αδύνατο για ένα πρόσωπο να μαντέψει ποιοί μπορεί να δουλέψουν καλύτερα, και να δοκιμάσει μόνο αυτούς.

Επιπλέον, τα δεδομένα ήταν ατελή. Από τη στιγμή που τα δεδομένα δεν προορίζονταν να χρησιμοποιηθούν κατ’ αυτόν τον τρόπο, η ανορθογραφία και οι μισοτελειωμένες φράσεις ήταν κάτι σύνηθες. Αλλά το μεγάλο μέγεθος των δεδομένων αντιστάθμιζε την ακαταστασία του. Το αποτέλεσμα, βεβαίως, ήταν απλώς μια συσχέτιση. Δεν έλεγε τίποτα για τους λόγους για τους οποίους κάποιος έκανε μια ορισμένη αναζήτηση. Ήταν άραγε διότι το πρόσωπο ένιωθε άρρωστο ή γιατί άκουγε κάποιον να φταρνίζεται στο διπλανό δωμάτιο ή γιατί ανησύχησε ακούγοντας τις ειδήσεις; Το σύστημα της Google ούτε το ξέρει και ούτε το νοιάζει να το μάθει. Πράγματι, τον περασμένο Δεκέμβριο, φαίνεται ότι το σύστημα της Google πρέπει να υπερεκτίμησε τον αριθμό των περιπτώσεων επιδημίας στις ΗΠΑ. Αυτό συνιστά μια υπενθύμιση ότι οι προβλέψεις είναι μόνο πιθανότητες και ότι δεν είναι πάντα σωστές, ειδικά όταν η βάση για την πρόβλεψη –οι αναζητήσεις στο Διαδίκτυο- βρίσκονται σε σταθερή κατάσταση αλλαγής και είναι ευάλωτες σε εξωτερικές επιρροές, όπως οι αναφορές των ΜΜΕ. Παρά ταύτα, τα «μεγάλα δεδομένα» μπορούν να υπαινιχθούν ποια είναι η γενική κατεύθυνση μιας εν εξελίξει κατάστασης, και το σύστημα της Google έκανε ακριβώς αυτό.

ΟΠΙΣΘΙΕΣ ΕΠΙΧΕΙΡΗΣΕΙΣ

Πολλοί άνθρωποι της τεχνολογίας πιστεύουν ότι οι απαρχές των» μεγάλων δεδομένων» εντοπίζονται στην ψηφιακή επανάσταση της δεκαετίας του ’80, όταν η πρόοδος στους μικροεπεξεργαστές και τη μνήμη των υπολογιστών κατέστησε δυνατή την ανάλυση και την αποθήκευση πληροφορίας όσο ποτέ στο παρελθόν. Αυτή είναι επιφανειακή ανάλυση. Οι υπολογιστές και το Διαδίκτυο βοηθούν ασφαλώς τα «μεγάλα δεδομένα» μειώνοντας το κόστος της συλλογής, της αποθήκευσης, της επεξεργασίας, του τρόπου με τον οποίο διαμοιράζονται οι πληροφορίες. Αλλά στον πυρήνα τους, τα «μεγάλα δεδομένα» είναι απλώς το πιο πρόσφατο βήμα στο αίτημα της ανθρωπότητας να κατανοήσει και να ποσοτικοποιήσει τον κόσμο. Θα μας βοηθήσει να το εκτιμήσουμε αυτό αν ρίξουμε μια γρήγορη ματιά σε όσα προηγήθηκαν.

Η εκτίμηση των νώτων των ανθρώπων είναι η τέχνη και η επιστήμη του Shigeomi Koshimizu, καθηγητή στο Advanced Institute of Industrial Technology του Τόκιο. Λίγοι θα σκέφτονταν ότι ο τρόπος που κάθεται ένας άνθρωπος αποτελεί πληροφορία, αλλά ισχύει. Όταν ένα άτομο είναι καθισμένο, η καμπύλη του σώματος, η στάση του και η κατανομή του βάρους του μπορούν όλα να ποσοτικοποιηθούν και να πινακογραφηθούν. Ο Koshimizu και η ομάδα των μηχανικών του μετατρέπουν τους γλουτούς σε δεδομένα μετρώντας, με αισθητήρες τοποθετημένους στο κάθισμα του αυτοκινήτου, την πίεση που ασκούν αυτοί σε 360 διαφορετικά σημεία, και καταλογραφούν κάθε σημείο σε μια κλίμακα από το 0 ως το 256. Το αποτέλεσμα είναι ένας ψηφιακός κώδικας που είναι μοναδικός για το κάθε άνθρωπο. Σε μια δοκιμή, το σύστημα ήταν ικανό να ξεχωρίσει μεταξύ αρκετών ανθρώπων με ακρίβεια της τάξης του 98%.

Η έρευνα δεν είναι άνευ νοήματος. Το σχέδιο του Koshimizu είναι να προσαρμόσει την τεχνολογία σε ένα αντικλεπτικό σύστημα αυτοκινήτων. Ένα όχημα με αυτό το μηχανισμό θα μπορούσε να αναγνωρίσει πότε κάποιος άλλος εκτός από τον εγκεκριμένο οδηγό κάθισε μπροστά στο τιμόνι, και θα μπορούσε να ζητήσει ένα συνθηματικό κωδικό για να λειτουργήσει. Ο μετασχηματισμός των τρόπων με που καθόμαστε σε ψηφιακά δεδομένα δημιουργεί μια σημαντική υπηρεσία και μια εν δυνάμει επικερδή επιχείρηση. Και η χρησιμότητά της μπορεί να επεκταθεί πολύ πέρα από τον εντοπισμό ενός κλέφτη αυτοκινήτων. Για παράδειγμα, τα συγκεντρωθέντα δεδομένα μπορεί να αποκαλύψουν στοιχεία για τη σχέση ανάμεσα στην θέση του οδηγού και την οδική ασφάλεια, όπως αποκαλυπτικές μετατοπίσεις θέσεων πριν από ένα ατύχημα. Το σύστημα μπορεί επίσης να είναι ικανό να αισθανθεί πότε ένας οδηγός κάμπτεται ελαφρώς λόγω κούρασης, και να στέλνει σήμα κινδύνου ή να πατάει αυτομάτως τα φρένα.

Ο Koshimizu αντιμετώπισε ως δεδομένα κάτι που ποτέ προηγουμένως δεν είχε αντιμετωπιστεί έτσι –ή που να έχει θεωρηθεί ποτέ ότι μπορούσε να δώσει τέτοιες ποιοτικές πληροφορίες- και το μετέτρεψε σε ψηφιακά ποσοτικοποιημένη μορφή. Δεν υπάρχει ακόμη καλός όρος για να ονοματιστεί αυτού του είδους η μετατροπή, αλλά η «δεδομενοποίηση» μοιάζει εύστοχη. Η δεδομενοποίηση δεν είναι το ίδιο με την ψηφιοποίηση, που παίρνει το αναλογικό περιεχόμενο –βιβλία, ταινίες, φωτογραφίες- και το μετατρέπει σε ψηφιακή πληροφορία, σε μια αλληλουχία του ενός και του μηδέν που μπορεί να διαβαστεί από τους υπολογιστές. Η δεδομενοποίηση είναι μια πολύ ευρύτερη διαδικασία: παίρνει όλες τις όψεις της ζωής και τις μετατρέπει σε δεδομένα. Τα ψηφιακά γυαλιά της Google δεδομενοποιούν το βλέμμα. Το Twitter δεδομενοποιεί τις ξεκάρφωτες σκέψεις. Το LinkedIn δεδομενοποιεί τα επαγγελματικά δίκτυα.

Μόλις δεδομενοποιήσουμε τα πράγματα, μπορούμε να αλλάξουμε το σκοπό της ύπαρξής τους και να μετατρέψουμε την πληροφορία σε μορφές άλλης αξίας. Για παράδειγμα, η ΙΒΜ κατοχύρωσε μια αμερικανική πατέντα το 2012 για να «ασφαλίσει χώρους που χρησιμοποιούν τεχνολογία υπολογιστών πάνω σε επιφάνειες» -ένας τεχνικός όρος να περιγράψεις ένα πάτωμα αφής, κάτι σαν μια γιγάντια οθόνη έξυπνου τηλεφώνου. Η δεδομενοποίηση του πατώματος μπορεί να ανοίξει κάθε είδους δυνατότητες. Το πάτωμα θα μπορούσε να ταυτοποιήσει τα αντικείμενα που είναι πάνω σε αυτό, έτσι ώστε να ξέρει πότε να ανοίξει τα φώτα ή να ανοίξει τις πόρτες όταν μπαίνει κάποιος άνθρωπος. Επιπλέον, μπορεί να ταυτοποιεί πρόσωπα με βάση το βάρος τους ή με βάση το πώς στέκονται και περπατούν. Θα μπορούσε να πει αν κάποιος έπεσε και δεν ξανασηκώθηκε, σημαντικό στοιχείο για τους ηλικιωμένους. Οι πωλητές θα μπορούσαν να αποτυπώνουν τη ροή δεδομένων των πελατών τους από τα μαγαζιά τους. Όταν θα γίνει εφικτό να μετατραπούν δραστηριότητες αυτού του είδους σε δεδομένα που μπορούν να αποθηκευτούν και να αναλυθούν, θα μπορούμε να μάθουμε περισσότερα για τον κόσμο –πράγματα που δεν γνωρίζαμε προηγουμένως επειδή δεν μπορούσαμε να τα μετρήσουμε εύκολα και φθηνά.

ΜΕΓΑΛΑ ΔΕΔΟΜΕΝΑ ΣΤΗ ΝΕΑ ΥΟΡΚΗ

Τα «μεγάλα δεδομένα» θα έχουν εφαρμογές πολύ περισσότερο στην ιατρική και στα καταναλωτικά αγαθά: θα αλλάξουν ριζικά τον τρόπο με τον οποίο δουλεύουν οι κυβερνήσεις και θα διαφοροποιήσει τη φύση της πολιτικής. Αναφορικά με την οικονομική ανάπτυξη, την παροχή δημόσιων υπηρεσιών, τους πολέμους, εκείνοι που μπορούν να διαχειριστούν αποτελεσματικά τα «μεγάλα δεδομένα» θα απολαμβάνουν σημαντική διαφορά από τους υπόλοιπους. Έως τώρα, η πιο συναρπαστική δουλειά γίνεται στο δημοτικό επίπεδο όπου είναι ευκολότερη η πρόσβαση σε δεδομένα και ο πειραματισμός με την πληροφορία. Σε μια προσπάθεια με επικεφαλής τον δήμαρχο της Νέας Υόρκης, Michael Bloomberg (που έκανε μια περιουσία με επιχειρήσεις διαχείρισης πληροφοριών), η πόλη χρησιμοποιεί «μεγάλα δεδομένα» για να βελτιώσει τις δημόσιες επιχειρήσεις με χαμηλότερο κόστος. Ένα παράδειγμα είναι μια νέα στρατηγική για την πρόληψη πυρκαγιών.

Τα παρανόμως χωρισμένα κτίρια είναι πολύ πιο πιθανό να τυλιχθούν στις φλόγες από ό,τι τα υπόλοιπα. Ο δήμος δέχεται 25.000 παράπονα το χρόνο για κτίρια με υπέρμετρο αριθμό ενοίκων, αλλά έχει μόνο 200 επιθεωρητές για να απαντήσει. Mια μικρή ομάδα ειδικών αναλυτών, στο γραφείο του δημάρχου, εκτίμησε ότι τα «μεγάλα δεδομένα» θα μπορούσαν να βοηθήσουν να επιλυθεί αυτή η ανισορροπία ανάμεσα σε ανάγκες και πόρους. Η ομάδα δημιούργησε μια βάση δεδομένων και των 900.000 κτιρίων της πόλης και την επεξέτεινε με πολύτιμες συλλογές δεδομένων που συνέλεξε από 19 διευθύνσεις της πόλης: αρχεία για τις οφειλές φόρων ακίνητης περιουσίας, για τις ανωμαλίες στη χρήση των δημόσιων παροχών, για τις περικοπές υπηρεσιών, για τις χρωστούμενες πληρωμές, για τις επισκέψεις ασθενοφόρων, για τα κατά τόπους ποσοστά εγκληματικότητας, για τα παράπονα που αφορούσαν τα τρωκτικά και πολλά άλλα. Κατόπιν, συνέκριναν αυτή τη βάση δεδομένων με τις καταγραφές των πυρκαγιών σε κτίρια, τα τελευταία 5 χρόνια, κατατάσσοντάς τις με βαθμό σοβαρότητας, ελπίζοντας να βρουν έτσι συσχετίσεις. Καθόλου αναπάντεχα, μεταξύ των παραγόντων που αύξαναν τον κίνδυνο πυρκαγιάς ήταν ο τύπος του κτιρίου και το έτος κατασκευής του. Λιγότερο αναμενόμενο ήταν, πάντως, το εύρημα ότι τα κτίρια που είχαν άδεια για εξωτερικές εργασίες συσχετίζονταν με μικρότερους κινδύνους σοβαρής πυρκαγιάς.

Η χρήση όλων αυτών των δεδομένων επέτρεψε στην ομάδα να δημιουργήσει ένα σύστημα που μπορούσε να τους βοηθήσει να προσδιορίσουν ποια παράπονα για υπερπληθυσμό στα κτίρια απαιτούσαν πολύ μεγάλη προσοχή. Κανένα από τα χαρακτηριστικά των κτιρίων που είχαν καταγραφεί δεν προκαλούσαν πυρκαγιά. Σωστότερο είναι ότι συσχετίζονταν με έναν αυξημένο ή μειωμένο κίνδυνο εκδήλωσης πυρκαγιάς. Η γνώση αυτή έχει αποδειχτεί τρομερής σημασίας: στο παρελθόν, οι επιθεωρητές κτιρίων εξέδιδαν εντολές εκκένωσης στο 13% των επισκέψεών τους. Με τη χρήση της νέας μεθόδου, ο αριθμός ανήλθε στο 70% -μεγάλο κέρδος ως προς την αποτελεσματικότητα.

Βέβαια, οι ασφαλιστικές εταιρείες έχουν επί μακρόν χρησιμοποιήσει παρόμοιες μεθόδους για να εκτιμήσουν τον κίνδυνο πυρκαγιάς, αλλά κυρίως στηρίζονται μόνο σε λίγα χαρακτηριστικά και συνήθως σε αυτά που ενστικτωδώς αντιστοιχούν στις πυρκαγιές. Κατ’ αντιπαράθεση, η προσέγγιση της Νέας Υόρκης με τα μεγάλα δεδομένα ήταν δυνατό να εξετάσει πολύ περισσότερες παραμέτρους, συμπεριλαμβανομένων εκείνων που εν πρώτοις δεν θα φαινόταν ότι έχουν σχέση με τον κίνδυνο πυρκαγιάς. Και το μοντέλο της πόλης ήταν φθηνότερο και ταχύτερο, καθώς έκανε χρήση των υπαρχόντων δεδομένων. Το πιο σημαντικό ήταν εξάλλου ότι οι προβλέψεις των «μεγάλων δεδομένων» είναι περισσότερο εύστοχες.

Τα «μεγάλα δεδομένα» βοηθούν επίσης στη διαφάνεια της δημοκρατικής διακυβέρνησης. Έχει αναπτυχθεί ένα κίνημα γύρω από την ιδέα των «ανοικτών δεδομένων» που πάει πέρα από τους νόμους για την ελευθερία της πληροφόρησης οι οποίοι είναι τώρα πια κοινός τόπος στις αναπτυγμένες δημοκρατίες. Οι υποστηρικτές του καλούν τις κυβερνήσεις να καταστήσουν απολύτως προσιτά στο κοινό τον τεράστιο αριθμό αβλαβών δεδομένων που διατηρούν. Οι ΗΠΑ είναι στην εμπροσθοφυλακή με τον ιστότοπο Data.gov, ακολουθούν δε και άλλες χώρες.

Την ίδια στιγμή που οι κυβερνήσεις προωθούν την χρήση «μεγάλων δεδομένων», θα χρειαστεί επίσης να προστατεύουν τους πολίτες από τη μη υγιή κυριαρχία της αγοράς. Εταιρείες όπως η Google, η Amazon και η Facebook –και άλλες λιγότερο γνωστές μεσίτριες δεδομένων όπως η Acxiom και η Experian- συσσωρεύουν τεράστιες ποσότητες πληροφορίας για τον καθένα και για το καθετί. Νόμοι ενάντια στα τραστ παρέχουν προστασία ενάντια στη μονοπώληση των αγορών αγαθών και υπηρεσιών όπως του λογισμικού και του μηντιακού υλικού, διότι το μέγεθος των αγορών για τα αγαθά αυτά είναι σχετικά εύκολο να εκτιμηθεί. Αλλά πώς πρέπει οι κυβερνήσεις να εφαρμόσουν στα «μεγάλα δεδομένα» τούς κανόνες αντι-τραστ, από τη στιγμή που είναι δύσκολο να τα προσδιορίσεις και που αλλάζουν διαρκώς μορφή; Στο μεταξύ, η προστασία της ιδιωτικότητας θα αποκτήσει ακόμη μεγαλύτερη σημασία, εφόσον τα περισσότερα δεδομένα θα οδηγήσουν σε μεγαλύτερους συμβιβασμούς ως προς την πληροφορία για τους ιδιώτες, ένα μειονέκτημα των μεγάλων δεδομένων που οι σύγχρονες τεχνολογίες και νόμοι φαίνονται αδύναμοι να προστατεύσουν.

Οι ρυθμίσεις που ορίζουν τα «μεγάλα δεδομένα» μπορεί να αποτελέσουν πεδίο διαμάχης μεταξύ κρατών. Οι ευρωπαϊκές κυβερνήσεις ελέγχουν ήδη την Google για ένα σωρό ζητήματα που αφορούν τους νόμους αντι-τραστ και την ιδιωτικότητα, με τρόπο που θυμίζει την ενεργοποίηση δράσεων της Ευρωπαϊκής Επιτροπής ενάντια στη Microsoft, εδώ και μια δεκαετία. Το Facebook μπορεί να γίνει στόχος παρόμοιων δράσεων σε όλο τον κόσμο, επειδή κρατά πάρα πολλά δεδομένα για ανθρώπους. Οι διπλωμάτες πρέπει να προετοιμαστούν για αγώνες σχετικά με το κατά πόσο πρέπει να διαχειριζόμαστε τη ροή πληροφοριών όπως το ελεύθερο εμπόριο: στο μέλλον, όταν η Κίνα θα λογοκρίνει τις διαδικτυακές αναζητήσεις, μπορεί να αντιμετωπίσει παράπονα όχι μόνο για άδικη φίμωση του λόγου αλλά και για άδικο περιορισμό του εμπορίου.

ΜΕΓΑΛΑ ΔΕΔΟΜΕΝΑ Ή ΜΕΓΑΛΟΣ ΑΔΕΛΦΟΣ;

Τα κράτη θα χρειαστεί να προστατέψουν τους πολίτες τους και τις αγορές τους από τα νέα τρωτά σημεία που δημιουργούνται από τα «μεγάλα δεδομένα». Αλλά υπάρχει κι ένα άλλο πιθανό σκοτεινό σημείο: τα «μεγάλα δεδομένα» μπορεί να γίνουν Μεγάλος Αδερφός. Σε όλες τις χώρες, αλλά ειδικά στις μη δημοκρατικές, τα «μεγάλα δεδομένα» εντείνουν την υφιστάμενη ασυμμετρία ισχύος ανάμεσα στο κράτος και το λαό.

Η ασυμμετρία αυτή θα μπορούσε κάλλιστα να καταστεί τόσο μεγάλη που να οδηγεί στον αυταρχισμό των «μεγάλων δεδομένων», μια πιθανότητα που έχει επισημανθεί με εναργή τρόπο σε ταινίες επιστημονικής φαντασίας όπως το Minority Report. Αυτή η ταινία του 2002 λάμβανε χώρα σε μια «δυστοπία» στο εγγύς μέλλον. Ο χαρακτήρας τον οποίο υποδυόταν ο Τομ Κρουζ ήταν επικεφαλής μιας ομάδας πρόληψης του εγκλήματος η οποία βασιζόταν σε πνευματιστές, τα οράματα των οποίων οδηγούσαν στους ανθρώπους που ήταν έτοιμοι να διαπράξουν έγκλημα. Η υπόθεση περιστρέφεται γύρω από την εμφανή πιθανότητα λάθους του συστήματος και ακόμη χειρότερα, την απαγόρευση της ελεύθερης βούλησης.

Παρ’ ότι η ιδέα της ταυτοποίησης πιθανών παραβατών προτού διαπράξουν ένα έγκλημα μοιάζει παράξενη, τα μεγάλα δεδομένα έχουν επιτρέψει σε ορισμένες Αρχές να τα λάβουν σοβαρά υπόψη. Το 2007, το Υπουργείο Εσωτερικής Ασφάλειας ξεκίνησε ένα ερευνητικό πρόγραμμα με την ονομασία FAST (Future Attribute Screening Technology), με σκοπό την ταυτοποίηση πιθανών τρομοκρατών, αναλύοντας δεδομένα σχετικά με ζωτικά σημάδια των ατόμων, τη γλώσσα του σώματος και άλλα πρότυπα φυσιολογίας. Οι αστυνομικές δυνάμεις σε πολλές πόλεις, συμπεριλαμβανομένου του Λος Άντζελες, του Μέμφις, του Ρίτσμοντ και της Σάντα Κρουζ, έχουν υιοθετήσει λογισμικά «προληπτικής αστυνόμευσης» που αναλύουν δεδομένα παλαιότερων εγκλημάτων για να ταυτοποιήσουν πού και πότε μπορεί να διαπραχθούν τα επόμενα.

Για την ώρα, τα συστήματα αυτά δεν ταυτοποιούν συγκεκριμένα άτομα ως ύποπτα. Αλλά αυτή είναι η κατεύθυνση προς την οποία φαίνεται να κατευθύνονται τα πράγματα. Ενδεχομένως, τέτοια συστήματα θα ταυτοποιούσαν το ποια νεαρά άτομα είναι πιο πιθανόν να κάνουν μικροκλοπές. Μπορεί να υπάρχουν καλοί λόγοι για να γίνουμε τόσο συγκεκριμένοι, ειδικότερα όταν έχουμε να αποτρέψουμε αρνητικά κοινωνικά αποτελέσματα εκτός του εγκλήματος. Για παράδειγμα, αν οι κοινωνικοί λειτουργοί μπορούσαν να πουν με ακρίβεια 95% ποια κορίτσια στην εφηβεία θα έμεναν έγκυες, ή ποια αγόρια στο γυμνάσιο θα παράταγαν το σχολείο, δεν θα αποδεικνύονταν αμελείς άραγε αν δεν παρενέβαιναν να βοηθήσουν; Ακούγεται θελκτικό. Η πρόληψη είναι άλλωστε προτιμότερη από την τιμωρία. Αλλά ακόμη και μια παρέμβαση που δεν θα ήταν επίπληξη αλλά αντ’ αυτού παρείχε βοήθεια, θα μπορούσε να ερμηνευτεί ως ποινή –στο κάτω-κάτω μπορεί κάποιος να στιγματιστεί στα μάτια των άλλων. Σε αυτή την περίπτωση, οι κρατικές ενέργειες θα έπαιρναν τη μορφή ποινής προτού διαπραχθεί οποιαδήποτε πράξη, προσβάλλοντας το ταμπού της ελεύθερης βούλησης.

Μια άλλη ανησυχία έγκειται στο τι θα μπορούσε να συμβεί όταν οι κυβερνήσεις δείχνουν τόση μεγάλη εμπιστοσύνη στη δύναμη των δεδομένων. Στο βιβλίο του (1999), Seeing Like a State, ο ανθρωπολόγος James Scott κατέγραψε τους τρόπους με τους οποίους οι κυβερνήσεις, στο ζήλο που δείχνουν για την ποσοτικοποίηση και τη συλλογή δεδομένων, καταλήγουν καμία φορά να κάνουν δυστυχισμένες τις ζωές των ανθρώπων. Χρησιμοποιούν χάρτες για να προσδιορίσουν πώς θα αναδιοργανώσουν ολόκληρες κοινότητες χωρίς να γνωρίζουν τίποτα για τους ανθρώπους που ζουν εκεί. Χρησιμοποιούν ατέλειωτους πίνακες δεδομένων σχετικά με τους λιμούς προκειμένου να αποφασίσουν να κολλεκτιβοποιήσουν τη γεωργία, χωρίς να έχουν ιδέα από καλλιέργεια. Έχουν πάρει όλους τους ατελείς, οργανικά διαρθρωμένους τρόπους με τους οποίους διαδρούσαν οι άνθρωποι μεταξύ τους, μέσα στο χρόνο, και τους προσαρμόζουν όπως-όπως στις ανάγκες τους, καμιά φορά μόνο και μόνο για να ικανοποιήσουν την επιθυμία τους για μια μετρήσιμη τάξη.

Αυτή η άστοχη εμπιστοσύνη στα δεδομένα μπορεί να αναστραφεί. Οι οργανισμοί μπορεί να γοητεύονται από την ψεύτικη σαγήνη των δεδομένων και να αναγνωρίζουν περισσότερη σημασία στους αριθμούς από ό,τι τους αξίζει. Αυτό είναι ένα από τα μαθήματα του πολέμου στο Βιετνάμ. Ο Αμερικανός υπουργός Άμυνας, Robert McNamara έπαθε εμμονή με τη χρήση στατιστικών ως τρόπο μέτρησης της προόδου του πολέμου. Αυτός και οι συνάδελφοί του είχαν εμμονή με τον αριθμό των νεκρών μαχητών τού εχθρού. Βασισμένος στους διοικητές και δημοσιευμένος καθημερινά στις εφημερίδες, ο αριθμός των νεκρών έγινε ένα δεδομένο που καθόρισε μια εποχή. Για τους υποστηρικτές του πολέμου ήταν απόδειξη προόδου. Για τους επικριτές, ήταν σημάδι της ανηθικότητας του πολέμου. Παρ’ όλ’ αυτά, οι στατιστικές αποκάλυπταν πολύ λίγα για τη σύνθετη πραγματικότητα της σύγκρουσης. Οι αριθμοί ήταν συχνά ανακριβείς και ήταν μικρής αξίας ως προς τη μέτρηση της προόδου. Παρ’ ότι είναι σημαντικό να μάθουμε από τα δεδομένα πώς να βελτιώνουμε τη ζωή μας, πρέπει να επιτρέπεται στην κοινή λογική να υπερβαίνει τα λογιστικά φύλλα μετρήσεων.

ΤΟ ΑΝΘΡΩΠΙΝΟ ΣΤΙΓΜΑ

Τα «μεγάλα δεδομένα» είναι προορισμένα να επανασχεδιάσουν τον τρόπο με τον οποίο ζούμε, εργαζόμαστε και σκεπτόμαστε. Η οπτική του κόσμου που συγκροτήθηκε με βάση τη σημασία της αναζήτησης της αιτίας αμφισβητείται από την υπεροχή των συσχετίσεων. Η κατοχή της γνώσης, που σήμαινε κάποτε την κατανόηση του παρελθόντος, τείνει να σημαίνει την ικανότητα να προβλέπεις το μέλλον. Οι προκλήσεις που τίθενται από τα μεγάλα δεδομένα δεν θα είναι εύκολο να απαντηθούν. Πρόκειται, μάλλον, απλώς για το επόμενο βήμα στην ατέρμονη συζήτηση για το πώς θα κατανοήσουμε καλύτερα τον κόσμο.

Παρά ταύτα, τα «μεγάλα δεδομένα» θα γίνουν ζωτικά για την αντιμετώπιση πολλών από τα πιεστικά προβλήματα του κόσμου. Η αντιμετώπιση της κλιματικής αλλαγής θα απαιτήσει την ανάλυση των δεδομένων μόλυνσης ώστε να γίνει κατανοητό πού είναι καλύτερο να εστιάσουμε τις προσπάθειές μας και να βρούμε τρόπους μετριασμού των προβλημάτων. Οι αισθητήρες που έχουν τοποθετηθεί σε όλο τον κόσμο, συμπεριλαμβανομένων αυτών που έχουν ενσωματωθεί στα έξυπνα τηλέφωνα, παρέχουν πλήθος στοιχείων τα οποία θα επιτρέψουν στους ειδικούς του κλίματος να φτιάξουν ένα πιο ακριβές μοντέλο της παγκόσμιας υπερθέρμανσης. Εν τω μεταξύ, η βελτίωση και η μείωση του κόστους των υπηρεσιών υγείας, ειδικά για τους φτωχούς ανά τον κόσμο, θα καταστήσει αναγκαίο τον αυτοματισμό ορισμένων καθηκόντων τα οποία τώρα απαιτούν ανθρώπινη κρίση αλλά που θα μπορούσαν να γίνουν από έναν υπολογιστή, όπως οι βιοψίες για καρκινώματα ή ο εντοπισμός μολύνσεων προτού εκδηλωθούν εντελώς τα συμπτώματα.

Τέλος, τα «μεγάλα δεδομένα» σηματοδοτούν τη στιγμή που η «κοινωνία της πληροφορίας» έρχεται να ανταποκριθεί τελικά στην υπόσχεση την οποία υπονοεί το όνομά της. Τα δεδομένα αποκτούν πρωταγωνιστικό ρόλο. Όλα αυτά τα ψηφιακά κομμάτια που έχουν συγκεντρωθεί, μπορούν τώρα να γίνουν αντικείμενο διαχείρισης με καινοτόμους τρόπους ώστε να υπηρετήσουν νέους σκοπούς και να δώσουν προστιθέμενη αξία σε πράγματα. Αλλά αυτό απαιτεί ένα νέο τρόπο σκέψης και θα αμφισβητήσει θεσμούς και ταυτότητες. Σε έναν κόσμο όπου τα δεδομένα διαμορφώνουν όλο και περισσότερο τις αποφάσεις, τι θα απομένει στους ανθρώπους ή στο ένστικτο ή στο ενδεχόμενο να πάει κανείς κόντρα στα δεδομένα; Αν όλοι επικαλούνται τα δεδομένα και διαχειρίζονται εργαλεία «μεγάλων δεδομένων», εκείνο που θα γίνει ίσως το κεντρικό σημείο διαφοροποίησης είναι η αδυναμία προβλεψιμότητας: το ανθρώπινο ένστικτο, το ρίσκο, τα ατυχήματα ακόμη και το λάθος. Αν γίνει αυτό, τότε θα υπάρξει ειδική ανάγκη να κρατήσουμε ένα μέρος για τον ανθρώπινο παράγοντα: να αφήσουμε χώρο στο ένστικτο, στην κοινή λογική και στο τυχαίο ώστε να διασφαλίσουμε ότι δεν έχουν παραγκωνιστεί από τα δεδομένα και τις μηχανικές απαντήσεις.

Τούτο έχει σημαντικές επιπτώσεις στην έννοια της προόδου στην κοινωνία. Τα «μεγάλα δεδομένα» μάς δίνουν τη δυνατότητα να πειραματιζόμαστε ταχύτερα και να ανακαλύπτουμε νέους δρόμους. Τα πλεονεκτήματα αυτά θα οδηγήσουν σε περισσότερες καινοτομίες. Αλλά κάποιες φορές, η σπίθα της ανακάλυψης ξεπηδά από τη σιωπή των δεδομένων. Αυτό είναι κάτι που καμία ποσότητα δεδομένων δεν μπορεί ποτέ να επιβεβαιώσει ή να τεκμηριώσει, αφού δεν υπάρχουν ακόμη. Αν ο Henry Ford είχε ανατρέξει στους αλγόριθμους των «μεγάλων δεδομένων» για να ανακαλύψει τι ήθελαν οι πελάτες του, θα του έφτιαχναν τελικά ένα «γρηγορότερο άλογο», αλλάζοντας την περίφημη γραμμή παραγωγής του. Σε έναν κόσμο «μεγάλων δεδομένων» χρειάζεται πρωτίστως να ενθαρρυνθούν τα ανθρώπινα χαρακτηριστικά – η δημιουργικότητα, τα ένστικτο και η διανοητική φιλοδοξία - εφόσον πηγή της προόδου είναι η ανθρώπινη επινοητικότητα.

Τα «μεγάλα δεδομένα» είναι μια πηγή κι ένα εργαλείο. Προορίζονται να πληροφορούν παρά να εξηγούν. Δείχνουν την κατεύθυνση προς μια εξήγηση, αλλά μπορεί να οδηγήσουν και στην παρανόηση: εξαρτάται από το πόσο καλά τα επεξεργάζεται κανείς. Και όσο φαινομενικά εκπληκτική αν είναι η δύναμη των «μεγάλων δεδομένων», η σαγηνευτική της λάμψη δεν πρέπει ποτέ να μας κάνει τυφλούς απέναντι στις εγγενείς ατέλειές της. Προτιμότερο είναι να υιοθετήσουμε την τεχνολογία αυτή αποδεχόμενοι όχι μόνο τη δύναμή της αλλά και τα όριά της.

Ο KENNETH CUKIER είναι Διευθυντής Δεδομένων στον Economist.
Ο VIKTOR MAYER-SCHOENBERGER είναι Καθηγητής Διαδικτυακής Διακυβέρνησης και Ρύθμισης στο Oxford Internet Institute. Είναι
οισυγγραφείςτου Big Data: A Revolution That Will Transform How We Live, Work, and Think (Hougton Mifflin Harcourt, 2013), απ΄όπουκαιταχωρίααυτούτουδοκιμίου
.