Kembali ke Blog
Bagaimana Pengesan AI Berfungsi? Panduan Lengkap
GROW FAST LTD.
AI Detection

Bagaimana Pengesan AI Berfungsi? Panduan Lengkap

Ketahui cara pengesan AI berfungsi: analisis linguistik (perplexity & burstiness) dan pengesanan tanda air. Mengapa ia gagal dan apa yang anda boleh lakukan.


Pengesan AI kini menjadi alat biasa di universiti Malaysia, bilik berita, dan jabatan sumber manusia. Sejak ChatGPT membawa AI generatif ke arus perdana pada akhir 2022, alat-alat ini menjanjikan untuk membezakan penulisan manusia daripada output mesin. Tetapi bagaimana sebenarnya pengesan AI berfungsi? Dan bolehkah anda mempercayai hasilnya?

Panduan ini menguraikan teknologi di sebalik pengesanan AI, menerangkan dua kaedah utama yang digunakan oleh alat-alat ini, dan menawarkan nasihat praktikal untuk sesiapa yang karyanya mungkin ditandai sebagai dijana oleh AI.

Apa Itu Pengesan AI?

Pengesan AI adalah alat yang direka untuk menganalisis teks dan menganggarkan sama ada ia ditulis oleh manusia atau dijana oleh sistem AI seperti ChatGPT, Claude, atau Gemini. Alat-alat ini menggunakan algoritma khusus untuk memeriksa corak penulisan dan membandingkannya dengan ciri-ciri kandungan manusia dan mesin yang diketahui.

Permintaan untuk pengesan AI telah meningkat dengan mendadak. Universiti kini menyaring tugasan pelajar. Penerbit mengesahkan artikel ditulis oleh manusia. Perekrut memeriksa kesahihan surat permohonan. Taruhannya tinggi, dan teknologi masih berkembang.

Bagaimana Pengesan AI Berfungsi: Dua Kaedah Utama

Ramai beranggapan pengesan AI menggunakan satu pendekatan sahaja untuk mengenal pasti teks yang dijana mesin. Sebenarnya, alat-alat ini bergantung pada dua kaedah pengesanan yang berbeza, masing-masing menyasarkan ciri-ciri kandungan AI yang berbeza.

Kaedah 1: Analisis Linguistik — Memeriksa cara teks ditulis, melihat pilihan perkataan, struktur ayat, dan corak statistik.

Kaedah 2: Pengesanan Tanda Air — Mencari penanda tersembunyi yang sistem AI sisipkan dalam outputnya, termasuk aksara tidak kelihatan dan corak pemformatan.

Memahami kedua-dua kaedah adalah penting kerana setiap satu memerlukan tindak balas yang berbeza. Isyarat linguistik mungkin memerlukan penulisan semula, manakala pengesanan tanda air boleh ditangani dengan membuang tanda air AI tidak kelihatan daripada teks anda.

Kaedah 1: Analisis Linguistik (Perplexity dan Burstiness)

Pendekatan yang paling biasa untuk pengesanan AI melibatkan analisis sifat statistik teks. Dua metrik mendominasi kaedah ini: perplexity dan burstiness.

Perplexity: Mengukur Kebolehramalan

Perplexity mengukur betapa "mengejutkan" atau boleh diramal sesuatu teks. Apabila anda membaca ayat, beberapa pilihan perkataan terasa dijangka manakala yang lain mengejutkan anda. Pengesan AI mengkuantifikasikan faktor kejutan ini.

Perplexity rendah menunjukkan teks yang boleh diramal. Jika seseorang menulis "Cuaca hari ini sangat baik", ayat itu mengikuti corak biasa dan menggunakan perbendaharaan kata yang dijangka. Perplexity tinggi menunjukkan pilihan perkataan yang luar biasa. Ayat seperti "Atmosfera menampakkan diri dengan menyenangkan hari ini" menggunakan frasa yang kurang biasa.

Mengapa ini penting untuk pengesanan? Model bahasa besar seperti ChatGPT dilatih untuk menjana teks dengan perplexity rendah. Mereka dioptimumkan untuk menghasilkan kandungan yang berbunyi semula jadi dan dijangka. Penulis manusia, bagaimanapun, sering membuat pilihan yang lebih pelbagai dan mengejutkan. Kita menggunakan bahasa slanga, membuat kesilapan, menggunakan metafora luar biasa, dan menulis ayat yang tidak mengikut corak yang boleh diramal.

Apabila pengesan AI menemui teks dengan perplexity yang konsisten rendah, ia menaikkan bendera. Penulisan itu terlalu boleh diramal, terlalu lancar, terlalu "purata" untuk kelihatan seperti manusia.

Burstiness: Mengukur Variasi

Burstiness merujuk kepada variasi dalam panjang dan struktur ayat sepanjang dokumen. Penulisan manusia cenderung mempunyai burstiness tinggi. Kita menulis ayat pendek. Kemudian kita mengikuti dengan pembinaan yang lebih panjang dan kompleks yang merangkumi pelbagai klausa dan menghuraikan idea. Rentak penulisan semula jadi kita mencipta variasi.

Teks yang dijana AI biasanya menunjukkan burstiness yang lebih rendah. Model cenderung menghasilkan ayat dengan panjang dan kerumitan yang serupa. Rentaknya terasa monoton. Setiap perenggan mungkin mengandungi ayat dengan panjang yang hampir sama, menggunakan struktur tatabahasa yang serupa.

Corak statistik ini membentuk asas kebanyakan kaedah pengesanan semasa. Pengesan menganalisis kedua-dua perplexity dan burstiness bersama-sama, membina anggaran kebarangkalian sama ada teks dijana oleh mesin.

Sistem Pengelas

Di sebalik metrik ini terdapat pengelas — model pembelajaran mesin yang dilatih untuk mengkategorikan teks. Jurutera memasukkan ke pengelas set data besar tulisan manusia yang disahkan dan output AI yang disahkan. Pengelas belajar mengenali corak dalam setiap kategori, menetapkan sempadan antara rupa teks manusia secara statistik berbanding rupa teks AI.

Apabila anda menghantar teks ke pengesan AI, pengelas membandingkan penulisan anda dengan corak yang dipelajari ini dan mengeluarkan skor kebarangkalian.

Kaedah 2: Pengesanan Tanda Air (Kaedah Tersembunyi)

Walaupun analisis linguistik mendapat perhatian paling banyak, kaedah pengesanan kedua beroperasi di latar belakang: pengesanan tanda air. Pendekatan ini mencari penanda tidak kelihatan yang tertanam dalam teks yang dijana AI.

Apa Itu Tanda Air AI?

Tanda air AI adalah aksara atau corak tersembunyi yang sistem AI sisipkan ke dalam outputnya. Penanda ini tidak kelihatan kepada pembaca manusia tetapi boleh dikesan oleh perisian. Jenis biasa termasuk:

  • Ruang lebar sifar (U+200B): Aksara yang tidak mengambil ruang visual tetapi wujud dalam data teks
  • Penyambung lebar sifar (U+200D): Aksara tidak kelihatan yang digunakan untuk menyambung elemen teks
  • Sempang lembut (U+00AD): Penanda pemenggalan tersembunyi
  • Penyambung perkataan (U+2060): Penanda tidak kelihatan yang menghalang pemecahan baris
  • Aksara pemformatan Unicode: Pelbagai aksara tidak kelihatan daripada standard Unicode

Apabila anda menyalin teks dari ChatGPT atau alat AI lain, aksara tidak kelihatan ini sering ikut bersama. Mereka tidak menjejaskan bagaimana teks kelihatan di skrin, tetapi mereka mencipta cap jari yang boleh dikesan.

Bagaimana Tanda Air Ditanam

Sistem AI mungkin menanam tanda air semasa proses penjanaan. Satu teknik melibatkan pembiasan pemilihan token, di mana model sedikit memihak perkataan tertentu berbanding sinonim, mewujudkan corak statistik. Satu lagi melibatkan penyisipan aksara tidak kelihatan pada selang atau kedudukan tertentu.

Ini mewujudkan tandatangan yang kekal walaupun seseorang mengedit teks. Tukar beberapa perkataan, dan tanda air mungkin masih boleh dikesan. Ini menjadikan pengesanan berasaskan tanda air sangat berterusan.

Masalah yang Disebabkan oleh Tanda Air

Tanda air mewujudkan masalah di luar pengesanan AI:

  • Ralat pemformatan apabila menampal ke aplikasi berbeza
  • Pemindahan antara dokumen, berpotensi menandakan kandungan yang anda telah edit dengan banyak
  • Kekal walaupun selepas penulisan semula yang besar
  • Ketidakkonsistenan dalam pemprosesan teks dan fungsi carian

Untuk pelajar dan profesional yang bekerja dengan kandungan berbantukan AI, memahami cara melihat dan membuang tanda air AI menjadi penting. Tidak seperti corak linguistik yang memerlukan penulisan semula, tanda air boleh dibersihkan daripada teks sambil mengekalkan kandungan yang kelihatan.

Sejauh Mana Tepat Pengesan AI?

Persoalan ketepatan adalah kritikal, dan jawapan jujurnya adalah: tidak setepat yang ramai sangka.

Kadar Positif Palsu

Positif palsu berlaku apabila teks yang ditulis manusia ditandakan sebagai dijana AI. Penyelidikan dari Universiti Stanford mendapati bahawa pengesan AI salah mengklasifikasikan lebih 61% esei yang ditulis oleh penutur bukan asli Inggeris sebagai dijana AI. Untuk penutur asli Inggeris, kadar positif palsu biasanya antara 2-10%, bergantung pada pengesan dan gaya penulisan.

Ini berlaku kerana penutur bukan asli sering menggunakan perbendaharaan kata yang lebih mudah dan struktur ayat yang lebih boleh diramal. Pengesan mentafsir penulisan "perplexity rendah" ini sebagai dijana mesin apabila sebenarnya ia adalah ciri semula jadi seseorang yang menulis dalam bahasa kedua mereka.

Konteks Malaysia

Di Malaysia, situasi ini membawa cabaran tersendiri. Banyak universiti dan syarikat Malaysia menggunakan pengesan yang dibangunkan terutamanya untuk bahasa Inggeris, yang boleh meningkatkan kadar ralat dengan ketara apabila menganalisis teks dalam Bahasa Melayu.

Bahasa Melayu akademik mempunyai ciri-ciri tersendiri — struktur ayat yang berbeza, penggunaan kata pinjaman, dan gaya formal yang khas — yang mungkin disalahtafsir sebagai corak AI oleh pengesan yang tidak dioptimumkan untuk bahasa ini. Tambahan pula, pelajar Malaysia yang menulis dalam bahasa Inggeris sebagai bahasa kedua mungkin menghadapi kadar positif palsu yang lebih tinggi.

Kadar Negatif Palsu

Negatif palsu berlaku apabila teks yang dijana AI lulus sebagai manusia. Apabila model bahasa bertambah baik, mereka menjadi lebih baik dalam meniru corak penulisan manusia. Pengubahsuaian prompt mudah seperti "tulis dalam gaya perbualan" atau "pelbagaikan panjang ayat anda" boleh mengurangkan kadar pengesanan dengan ketara.

Alat parafrasa dan penyuntingan ringan juga mengurangkan ketepatan. Jika seseorang menjana teks dengan AI, kemudian mengeditnya secara manual, pengesanan menjadi lebih sukar.

Nombor Ketepatan

Ujian bebas mencadangkan bahawa pengesan AI terkemuka mencapai ketepatan 84-96% di bawah keadaan ideal. Walau bagaimanapun, "keadaan ideal" bermaksud teks AI yang tidak diedit dengan panjang yang mencukupi (biasanya 250+ perkataan) dalam bahasa Inggeris. Ketepatan dunia sebenar berbeza-beza berdasarkan panjang teks, penyuntingan, perkara subjek, dan gaya penulisan.

Tiada pengesan mencapai ketepatan 100%, dan kebanyakan pembekal mengakui alat mereka harus digunakan sebagai petunjuk dan bukannya bukti muktamad.

Siapa Menggunakan Pengesan AI dan Mengapa?

Pendidikan

Sekolah dan universiti mewakili pangkalan pengguna terbesar untuk pengesanan AI. Pengajar menggunakan alat ini untuk mengekalkan integriti akademik, memeriksa sama ada pelajar menghantar kerja asal atau kandungan yang dijana AI. Perkhidmatan seperti Turnitin telah mengintegrasikan pengesanan AI ke dalam platform semakan plagiarisme sedia ada mereka.

Untuk pelajar yang bimbang tentang positif palsu, memahami kedua-dua kaedah pengesanan menyediakan pilihan yang boleh diambil tindakan. Gaya penulisan mempengaruhi analisis linguistik, manakala membersihkan aksara tidak kelihatan menangani pengesanan tanda air.

Penerbitan dan Penciptaan Kandungan

Penerbit, platform kandungan, dan agensi SEO semakin menyaring penyerahan untuk kandungan AI. Garis panduan carian Google menekankan kandungan asal yang dicipta manusia, menjadikan pengesanan relevan untuk sesiapa sahaja yang menerbitkan dalam talian.

Penulis kandungan web yang menggunakan AI untuk draf sering memeriksa kerja mereka sebelum menerbitkan. Matlamatnya bukan semestinya untuk menyembunyikan bantuan AI tetapi untuk memastikan kandungan akhir dibaca sebagai autentik dan mengelakkan penalti berkaitan pengesanan.

Pengambilan Pekerja

Jabatan HR dan perekrut menggunakan pengesanan AI untuk mengesahkan bahawa bahan permohonan mencerminkan keupayaan penulisan sebenar calon. Surat permohonan atau sampel penulisan yang sepenuhnya dijana AI mungkin tidak mewakili cara seseorang sebenarnya akan berkomunikasi dalam peranan tersebut.

Penyelidikan dan Kewartawanan

Jurnal akademik, organisasi berita, dan institusi penyelidikan menyaring penyerahan untuk mengekalkan integriti penerbitan. Ini menjadi sangat penting apabila teks yang dijana AI menjadi semakin canggih.

Pengesan AI vs. Penyemak Plagiarisme

Alat-alat ini melayani tujuan yang berbeza dan berfungsi secara berbeza, walaupun sering digunakan bersama.

AspekPengesan AIPenyemak Plagiarisme
TujuanMenentukan sama ada teks dijana oleh AIMenentukan sama ada teks disalin dari sumber sedia ada
KaedahMenganalisis corak penulisan dan tanda airMembandingkan teks dengan pangkalan data kandungan sedia ada
OutputSkor kebarangkalian penjanaan AIPeratusan padanan dengan sumber khusus
HadTidak boleh mengesahkan ketepatan maklumatTidak boleh mengesan kandungan AI yang diparafrasa

Penyemak plagiarisme kadangkala menandakan kandungan AI apabila ia sepadan rapat dengan corak dalam pangkalan data mereka, tetapi ia tidak direka untuk pengesanan AI. Sebaliknya, pengesan AI tidak mengenal pasti kandungan yang disalin. Menggunakan kedua-dua alat bersama memberikan analisis yang lebih lengkap.

Mengapa Pengesan AI Kadangkala Gagal

Memahami mod kegagalan membantu anda mentafsir keputusan dan bertindak balas dengan sewajarnya.

Variasi Gaya Penulisan

Penulisan formal, teknikal, atau akademik sering menunjukkan ciri-ciri serupa dengan output AI. Kertas saintifik, dokumen undang-undang, dan manual teknikal cenderung kepada perplexity rendah dan struktur yang konsisten. Teks yang ditulis manusia ini mungkin mencetuskan pengesanan AI.

Begitu juga, penulis yang secara semula jadi menggunakan bahasa yang mudah dan jelas mungkin melihat kadar positif palsu yang lebih tinggi daripada mereka yang mempunyai gaya yang lebih pelbagai.

Sampel Teks Pendek

Kebanyakan pengesan AI memerlukan teks yang besar untuk menganalisis dengan berkesan. Dengan sampel pendek (di bawah 200 perkataan), pengesan kekurangan data yang mencukupi untuk menetapkan corak. Keputusan menjadi tidak boleh dipercayai, sering menunjukkan ketidakpastian yang tinggi.

Kandungan yang Diedit atau Bercampur

Apabila manusia mengedit teks yang dijana AI dengan ketara, atau apabila dokumen mengandungi kedua-dua bahagian AI dan manusia, pengesanan menjadi rumit. Pengelas melihat isyarat bercampur dan mungkin menghasilkan keputusan yang tidak konsisten.

Bahasa Bukan Inggeris

Kebanyakan pengesan dilatih terutamanya pada teks Inggeris. Ketepatan pengesanan menurun dengan ketara untuk bahasa lain, dan kadar positif palsu meningkat.

Cara Menangani Kebimbangan Pengesanan AI

Jika anda bimbang tentang pengesanan AI, menangani kedua-dua kaedah memberikan liputan lengkap.

Untuk Analisis Linguistik

Menulis semula dan mengedit menangani kebimbangan perplexity dan burstiness. Pelbagaikan panjang ayat anda secara sedar. Sertakan beberapa ayat yang lebih pendek. Kemudian tulis yang lebih panjang yang menghuraikan idea dengan pelbagai klausa. Tambah suara peribadi, pendapat, atau perspektif unik yang biasanya tidak dimiliki AI.

Baca teks anda dengan kuat. Jika ia berbunyi monoton atau terlalu lancar, tambah variasi. Sertakan soalan, seruan, atau serpihan ayat di mana sesuai.

Untuk Pengesanan Tanda Air

Tanda air tidak kelihatan kekal walaupun selepas penyuntingan tetapi boleh dibuang dengan alat khusus. Pembuang tanda air mengimbas teks untuk aksara lebar sifar, penanda unicode, dan elemen tersembunyi lain, kemudian membersihkannya tanpa menjejaskan kandungan yang kelihatan.

Pendekatan ini sangat berguna apabila anda telah mengedit kandungan draf AI dengan banyak dan ingin memastikan tiada penanda tidak kelihatan yang kekal.

Untuk Kandungan ChatGPT Khususnya

ChatGPT dan model OpenAI lain adalah antara sistem AI yang paling biasa dikesan. Jika anda bekerja dengan kandungan yang dijana ChatGPT, menangani kedua-dua gaya penulisan dan sebarang tanda air tertanam memberikan liputan lengkap.

Soalan Lazim

Bagaimana pengesan AI mengesan penulisan AI?

Pengesan AI menggunakan dua pendekatan utama. Pertama, mereka menganalisis corak linguistik seperti perplexity (betapa boleh diramal teks) dan burstiness (variasi dalam struktur ayat). Kedua, mereka mencari tanda air tidak kelihatan — aksara tersembunyi yang sistem AI mungkin tanam dalam teks yang dijana. Kebanyakan pengesan menggabungkan kaedah-kaedah ini untuk menganggarkan kebarangkalian kandungan dijana oleh mesin.

Bolehkah pengesan AI salah?

Ya. Tiada pengesan AI mencapai ketepatan 100%. Positif palsu (menandakan teks manusia sebagai AI) berlaku terutamanya dengan penutur bukan asli Inggeris, penulisan formal, dan sampel pendek. Negatif palsu (tidak mengesan teks AI) berlaku apabila kandungan diedit atau apabila penulis menggunakan prompt yang menggalakkan variasi semula jadi.

Apa itu perplexity dalam pengesanan AI?

Perplexity mengukur betapa boleh diramal atau mengejutkan sesuatu teks. Perplexity rendah bermaksud pilihan perkataan mengikut corak biasa. Perplexity tinggi menunjukkan bahasa yang luar biasa atau tidak dijangka. Teks yang dijana AI biasanya mempunyai perplexity rendah kerana model dilatih untuk menghasilkan output yang boleh diramal dan berbunyi semula jadi. Penulisan manusia cenderung kepada perplexity yang lebih tinggi dengan pilihan perkataan yang lebih pelbagai.

Apa itu tanda air AI dalam teks?

Tanda air AI adalah aksara tidak kelihatan yang ditanam dalam teks yang dijana. Ini termasuk ruang lebar sifar, penyambung lebar sifar, sempang lembut, dan penanda unicode lain yang tidak dipaparkan secara visual tetapi wujud dalam data teks. Alat pengesanan boleh mencari penanda ini walaupun teks yang kelihatan telah diedit.

Bolehkah saya membuang penanda pengesanan AI daripada teks?

Tanda air boleh dibuang menggunakan alat khusus yang mengimbas dan menghapuskan aksara tidak kelihatan. Corak linguistik memerlukan penyuntingan manual untuk ditangani. Mempelbagaikan struktur ayat, menambah suara peribadi, dan menulis semula frasa yang boleh diramal boleh mengurangkan penandaan daripada analisis linguistik.

Adakah pengesan AI boleh dipercayai untuk tujuan akademik?

Pengesan AI menyediakan anggaran kebarangkalian, bukan bukti muktamad. Kebanyakan institusi pendidikan menganggap keputusan pengesanan sebagai titik permulaan untuk siasatan dan bukannya bukti konklusif. Memandangkan had ketepatan dan kadar positif palsu, bergantung semata-mata pada output pengesan untuk keputusan akademik menimbulkan kebimbangan keadilan.

Kesimpulan

Teknologi pengesanan AI terus berkembang bersama model bahasa yang ia direka untuk mengesan. Memahami cara alat-alat ini berfungsi meletakkan anda dalam kedudukan yang lebih baik untuk mentafsir keputusan dan bertindak balas dengan sewajarnya.

Pandangan utama adalah bahawa pengesanan AI melibatkan dua kaedah yang berbeza. Analisis linguistik memeriksa corak penulisan yang boleh anda tangani melalui penyuntingan dan variasi semula jadi. Pengesanan tanda air mencari penanda tersembunyi yang boleh dibersihkan daripada teks tanpa mengubah kandungan yang kelihatan.

Sama ada anda seorang pelajar yang menghantar kerja kursus, seorang profesional yang mencipta kandungan, atau hanya ingin tahu tentang teknologi, mengetahui apa yang sebenarnya diukur oleh pengesan AI membantu anda membuat keputusan yang bermaklumat.

Artikel Berkaitan

Bersedia untuk Membuang Tanda Air AI?

Cuba alat percuma kami untuk membuang tanda air AI. Kesan dan bersihkan aksara halimunan daripada teks dan dokumen anda dalam beberapa saat.

Cuba Penyingkir Tanda Air GPT