Bagaimana Data Big Mengubah Kehidupan Harian Di Seluruh Amerika?

Idea 'data besar' telah menjadi mana-mana, sama ada apa dan bagaimana cara mengubah cara hidup kita? Kami duduk dengan ahli sains data, Harvard PhD dan nominee National Book Award Cathy O'Neil untuk mengetahui.

CT: Mari kita mulakan dengan asas-asas - apakah sebenarnya 'data besar'?

CO: Data besar adalah pendekatan baru untuk memprediksi perkara. Lebih khusus lagi, 'data besar' adalah penggunaan data yang dikumpulkan secara tidak langsung - seperti bagaimana anda mencari melalui pelayar anda atau apa yang anda lakukan di Facebook - untuk membuat kesimpulan mengenai anda, seperti apa yang anda akan beli atau apa afiliasi politik anda. Ini cara yang tidak langsung untuk mencari orang. Contohnya, kamera yang mengamati kami tidak bertanya 'Apa yang anda lakukan?' - ia hanya dapat melihat apa yang sedang kita lakukan.

CT: Dan apa algoritma?

CO: Algoritma pengiraan yang [mentafsirkan] data yang dikumpulkan mengenai anda untuk membuat ramalan. Fikirkan ia seperti persamaan matematik yang cuba menjawab soalan yang dibingkai sebagai ramalan, seperti: 'Adakah orang ini hendak membeli sesuatu?' atau 'Adakah orang ini hendak mengundi seseorang?'

CT: Kenapa saya mendengar banyak perkara tentangnya sekarang?

CO: Sebelum 'data besar', ahli statistik akan melakukan perkara yang mahal seperti mengundi orang untuk memikirkan masa depan. Contohnya, bertanya kepada orang soalan langsung seperti: 'Siapa yang akan kamu undi?' Sekarang, kami semakin bergantung kepada 'ekzos data', yang mana saya panggil data yang dikumpulkan mengenai anda sentiasa, untuk membuat kesimpulan tentang anda.

Sebelum 'data besar', syarikat hanya meneka pendapat. Sekarang, kita mempunyai lebih baik daripada teka-teki liar. Apa yang mengejutkan ialah algoritma data yang paling besar adalah tidak tepat, dan tidak ada alasan untuk berfikir bahawa mereka betul. Tetapi mereka lebih baik daripada teka-teki liar. Dan itulah sebabnya data besar telah diambil kira seperti yang ada.

CT: Jika mereka tidak tepat, maka apa yang mereka fikirkan?

CO: Set data cacat yang kami sediakan. Algoritma tidak tahu apa-apa melebihi apa yang kita katakan kepada mereka. Oleh itu, apabila kita mempunyai data yang tidak sekata dan kita memberi makan kepada algoritma itu, atau data bias, ia akan berfikir bahawa realiti itu.

Ailsa Johnson / © Culture Trip

CT: Apa contoh dunia sebenar?

CO: Contohnya mungkin di Amerika Syarikat, orang kulit hitam lima kali lebih cenderung ditangkap kerana periuk merokok daripada orang kulit putih. Ini bukan kerana orang kulit hitam sering meminum periuk - kedua-dua kumpulan meminum periuk pada kadar yang sama. Orang hitam lebih cenderung untuk ditangkap kerana itu. Sekiranya anda menyerahkannya kepada algoritma, yang kami lakukan, ia akan menyedari bahawa orang kulit hitam lebih mungkin, pada masa akan datang, untuk ditangkap kerana periuk merokok. Dan kemudian ia akan memberikan markah risiko orang kulit hitam yang lebih tinggi untuk jenayah, yang mempunyai kesan ke atas hukuman jenayah.

Satu lagi contoh ialah percubaan pemikiran. Saya akan menggunakan Fox News, kerana Fox News telah mengalami letusan baru-baru ini berkaitan dengan budaya dalaman seksisme. Percubaan adalah 'Apa yang akan berlaku jika Fox News cuba menggunakan data mereka sendiri untuk membina algoritma pembelajaran mesin untuk mengupah orang di masa depan?'

Katakan kita sedang mencari orang yang berjaya di Fox News, sebagai contoh. Ia bergantung kepada bagaimana anda menentukan kejayaan, tetapi biasanya anda akan melihat orang yang mendapat kenaikan, promosi atau bertahan lama. Dengan mana-mana langkah itu, data akan mencerminkan bahawa wanita tidak berjaya di Fox News. Jika digunakan sebagai algoritma pengambilan, ia akan menyebarkan masalah itu. Ia akan melihat sekumpulan pemohon dan ia akan berkata 'Saya tidak mahu mengupah mana-mana wanita, kerana mereka tidak berjaya di sini. Mereka tidak menyewa pekerja. ' Dan ia bukan hanya menjadi Fox News - setiap budaya korporat mempunyai berat sebelah. Apabila anda memberi suapan data algoritma, bias algoritma kemudian menyebarkannya. Ia terus mengukuhkan rasa berat sebelah yang sudah wujud dalam masyarakat.

CT: Adakah bias disengajakan?

CO: Saya tidak fikir para saintis data cuba membuat algoritma seksis atau perkauman. Tetapi algoritma pembelajaran mesin sangat baik untuk memetik pola yang agak bernuansa, dan kemudian menyebarkannya. Ia bukan sesuatu yang dilakukan saintis data dengan sengaja, tetapi ia bias tetap.

CT: Peranan apa yang bermain dengan algoritma yang tidak tepat dalam kehidupan seharian kita?

CO: Mereka digunakan dalam pelbagai keputusan untuk kehidupan orang ramai - semuanya dari kemasukan kolej untuk mendapatkan pekerjaan.

Terdapat algoritma yang menentukan bagaimana polis akan polis kejiranan, serta algoritma yang menentukan bagaimana hakim akan menghukum terdakwa. Terdapat algoritma yang menentukan berapa banyak yang akan anda bayar untuk insurans, atau jenis APR [kadar faedah] yang anda dapat pada kad kredit anda. Terdapat algoritma yang menentukan bagaimana anda melakukan tugas anda, yang digunakan untuk menentukan kenaikan gaji. Terdapat algoritma setiap langkah, dari lahir hingga mati.

CT: Jadi di manakah yang meninggalkan kami?

CO: Kami telah melompat ke era data yang besar dan telah melancarkan algoritma pada setiap masalah yang kita miliki, dengan menganggap bahawa algoritma tersebut mestilah lebih adil daripada manusia - tetapi sebenarnya mereka sama seperti manusia. Kita perlu melakukan lebih baik.

Klik di sini untuk membaca bahagian kedua wawancara kami dengan Dr O'Neil. Buku beliau, The Weapons of Math Pemusnah: Bagaimana Big Data Meningkatkan Ketaksamaan dan Ancaman Demokrasi kini tersedia.