Ketika saya menjawab pertanyaan tentang apa pekerjaan saya, delapan dari sepuluh orang penanya mengaku tidak paham ketika saya menjawab sebagai Data Annotator . “Data Annotator kerjanya, ya, nganotasi data,” jawaban asbun sekaligus template itu tidak berhasil menjawab rasa penasaran mereka dan menghindarkan saya dari rentetan pertanyaan selanjutnya. Belakangan, saya berpikir bahwa sudah saatnya saya menulis artikel tentang pekerjaan yang saya tekuni ini.
Kelak, jika ada yang mengerutkan kening kala mendengar Data Annotator keluar dari mulut saya, saya hanya perlu menyodorkan tautan tulisan ini untuk mereka baca. Keinginan ini semakin kuat ketika pada suatu hari saya iseng mengetikkan “Data Annotator ” di Google, lalu yang muncul adalah beberapa artikel berisi definisi yang primordial dari Glints, MySkill, Shaip, dan sejumlah platform karier lainnya. Tidak banyak orang yang menuliskan pengalamannya sebagai Data Annotator secara personal.
Annotator adalah subjek pelaku dari kata kerja annotate yang artinya memberi keterangan. Sama halnya singer bagi kata kerja sing yang artinya menyanyi, maka singer adalah penyanyi. Dengan demikian, Data Annotator adalah pemberi keterangan pada data.
Tidak banyak yang tahu bahwa Data Annotator inilah yang menjadi kunci di balik kecerdasan AI yang banyak digunakan. Mengapa demikian? Data Annotator memiliki tanggung jawab melakukan serangkaian proses yang disebut anotasi data.
Baca juga:
Mengutip dari Shaip, anotasi data adalah proses pengatribusian, penandaan, atau pelabelan data untuk membantu algoritma pembelajaran mesin memahami dan mengklasifikasikan informasi yang mereka proses. Proses ini penting untuk melatih model AI, memungkinkan mereka memahami berbagai jenis data secara akurat, seperti teks, gambar, audio, dan video.
Dengan kata lain, di balik mesin AI yang cerdas, terdapat sebuah proses pembelajaran yang panjang seperti halnya manusia belajar dari pengalaman. Mesin tidak serta-merta dapat mengetahui dan terbiasa dengan data-data yang ada, tetapi perlu pembiasaan atau pelatihan dengan memasukkan data-data. Data Annotator -lah yang bertanggung jawab atas penyortiran dan pengoreksian data-data sebelum dimasukkan ke dalam model. Semakin banyak data berlabel yang dimasukkan ke model, semakin cepat mesin belajar untuk berfungsi secara mandiri.

Kira-kira seperti inilah gambaran sederhana mengenai pekerjaan Data Annotator yang saya jalani belakangan ini. Seperti tertera pada ilustrasi, objek diberi keterangan supaya mesin dapat membedakan mana objek yang merupakan mobil, mana yang manusia, dan mana yang lampu lalu lintas. Tanpa anotasi data, setiap gambar akan sama bagi mesin karena mereka tidak memiliki informasi atau pengetahuan bawaan tentang apa pun di dunia ini.
Apa Saja yang Dikerjakan?
Tepat setahun yang lalu, saya tergabung dengan GLAIR sebagai Freelance Data Annotator. GLAIR adalah perusahaan konsultan berbasis AI yang menyediakan produk berupa digitalisasi dokumen dengan metode OCR atau mengekstrak teks dari gambar. Beberapa produk GLAIR antara lain e-KYC, Paperless, Retail, dan Analytics. Selama ini, saya telah bekerja dengan data berupa teks dan gambar untuk Paperless, e-KYC, dan Retail.
Paperless bisa dikatakan main-project saya di GLAIR. Sebagian besar jam kerja saya adalah mengerjakan data-data dari Paperless. Paperless berfokus pada proses digitalisasi dokumen perusahaan, termasuk dokumen yang ditulis tangan maupun yang diketik. Sebagai Data Annotator , peran saya adalah memberikan anotasi pada berbagai dokumen untuk keperluan pengembangan sistem pembelajaran mesin. Anotasi ini dilakukan dengan membedakan jenis teks, seperti antara teks yang ditik dan yang ditulis tangan, serta mengidentifikasi dan mengelompokkan entitas dalam teks, seperti menandai lokasi atau waktu.

Di e-KYC, tugas yang saya lakukan serupa dengan yang ada di Paperless meskipun jenis dokumennya berbeda. Di sini, saya bekerja dengan berbagai dokumen identitas dan dokumen resmi lainnya. Pengalaman uniknya ketika sedang WFC alias work from cafe, laptop saya diintip oleh sebagian orang lewat karena saya berkutat dengan data-data pribadi. Saat itu kebetulan saya sedang mengerjakan anotasi untuk e-KYC. Selain mencuri-curi pandang ke arah layar laptop saya, mereka juga melempar pandangan mencurigakan. Mungkin orang-orang mengira saya intel atau semacamnya.
Untuk Retail, saya hanya sekali terlibat dalam tugas ini, tetapi dampaknya membuat saya menjadi lebih perfeksionis dalam hal penataan botol-botol minuman di supermarket. Mengapa bisa begitu? Saya ingat dengan jelas bahwa tugas ini melibatkan pengenalan gambar produk. Di tugas tersebut, data yang dikerjakan bukan berupa teks, melainkan gambar.
Gambar yang sesungguhnya sangat biasa sekaligus tidak biasa bagi saya. Sangat biasa karena sebetulnya itu adalah pemandangan setiap saya ngadem ke Alfamart terdekat di tengah panasnya cuaca, yakni foto lemari pendingin. Lantas, mengapa tidak biasa? Tidak biasanya karena saya harus melabeli satu per satu produk yang ada di dalam lemari pendingin sesuai dengan merek, volume, dan jenis botolnya.
Bagi saya, tantangan utama dari pekerjaan menganotasi data adalah ketelitian. Oleh karena itu, data yang sudah dianotasi oleh Data Annotator masih harus melalui proses quality assurance (QA) oleh Senior Data Developer. Proses ini dilakukan untuk meminimalisasi kesalahan dalam pengetikan dan pengklasifikasian objek supaya informasi yang diterima oleh mesin adalah hasil anotasi dengan akurasi yang tinggi.
Keilmuan Linguistik Mengambil Peran
Jika mendengar kata “Obama”, kita semua sepakat bahwa kata tersebut akan merujuk pada seseorang yang pernah menjadi Presiden di Amerika Serikat. Mengapa bisa demikian? Karena sebagai manusia, kita dapat memahami arti kata dan kategorinya dengan mudah. Ini menunjukkan bahwa kita memiliki pemahaman intuitif terhadap dunia sekitar. Namun, apakah hal tersebut berlaku bagi sebuah mesin? Tentu jawabannya “tidak”. Seperti namanya, AI adalah kecerdasan buatan manusia. Karena itu, perlu adanya mekanisme yang mengajarkan kepada mesin tentang entitas-entitas di bahasa manusia.
Baca juga:
Lantas, bagaimana AI dapat memahami bahasa manusia? Setelah satu tahun bekerja, saya baru mengetahui bahwa salah satu bagian dari AI adalah natural language processing (NLP) atau pemrosesan bahasa alami. Teknologi NLP ini yang memungkinkan mesin dapat memahami dan menyintesis teks yang ditulis dalam bahasa manusia. Pada bagian inilah, linguistik dibutuhkan. Jika digambarkan sekilas, tugas utama dari Data Annotator sebenarnya adalah memberikan anotasi pada data berdasarkan ilmu tata bahasa, seperti morfologi, sintaksis, dan semantik.
Peluang Sarjana Sastra
Data Annotator bekerja secara jarak jauh atau remote-working dan hanya mengandalkan komunikasi via WhatsApp Communities. Setiap ada proyek baru yang harus dikerjakan, PIC menginformasikan secara lengkap berapa jumlah tenaga yang dibutuhkan dan kapan harus diselesaikan. Tak jarang, kami juga melakukan meeting untuk mendiskusikan tugas atau checkpoint untuk membahas kendala-kendala yang kami temui di pekerjaan.
Berbagai bentuk komunikasi yang kami lakukan, baik sinkronus maupun asinkronus, merupakan upaya mendapatkan hasil anotasi yang maksimal dan minim dari kesalahan manusia. Tak dapat dimungkiri bahwa pekerjaan kami sebagai Data Annotator adalah pekerjaan yang rentan terhadap kesalahan manusia. Kesalahan manusia selama proses anotasi dapat menghasilkan kualitas data yang buruk sehingga sekecil apa pun kesalahan yang dibuat akan berdampak pada performa dan prediksi model AI.
Sebenarnya masih ada banyak aspek lain yang dapat dikerjakan Data Annotator yang belum saya eksplorasi. Di Paperless, masih banyak dokumen-dokumen lain yang belum saya sebutkan karena terlalu banyak untuk dijabarkan satu per satu. Yang jelas, menemukan pekerjaan ini adalah kesempatan yang sangat saya syukuri hingga saat ini. Bagaimana tidak? Saya yang berkuliah di bidang ilmu bahasa dan sastra tidak hanya mengasah lebih dalam lagi pengetahuan dan pemahaman terhadap linguistik, tetapi juga berkontribusi untuk pengembangan teknologi. (*)
Editor: Kukuh Basuki