Công nghệ thông tin

DetectGPT (The Chatbot killer) - Công cụ phát hiện văn bản viết bằng ChatGPT

Kiên Trung•26/02/2024 14:30

Một nhóm các nhà nghiên cứu tại Đại học Stanford đã đề xuất một phương pháp mới gọi là DetectGPT nhằm mục đích trở thành một trong những công cụ đầu tiên chống lại văn bản được tạo ra bởi AI trong giáo dục đại học.

Mục lục

DetectGPT là gì
Tại sao cần sử dụng công cụ DetectGPT?
Cách DetectGPT nhận biết văn bản do AI tạo ra
Bước 1: Perturb
Bước 2: Score
Bước 3: Compare

DetectGPT là gì

Về cơ bản, DetectGPT là một công cụ được thiết kế để phát hiện nội dung do ChatGPT và các công cụ tương tự tạo ra. Theo các nhà nghiên cứu, văn bản được tạo bằng LLM như ChatGPT “chiếm các vùng cong âm của hàm xác suất nhật ký của mô hình”.

Dựa vào nhược điểm này, các nhà nghiên cứu đã xác định một tiêu chí mới để đánh giá xem một đoạn văn có được tạo bằng LLM hay không. DetectGPT sẽ sử dụng xác suất nhật ký để tìm hiểu xem đoạn văn nhất định có được tạo bằng LLM hay không. Theo các nhà nghiên cứu, DetectGPT có độ chính xác là 95%.

Được biết, nhu cầu về DetectGPT và các công cụ tương tự khác đang ở mức cao sau khi chứng kiến mối lo ngại của các tổ chức giáo dục trên toàn thế giới về việc học sinh sử dụng các công cụ này để hoàn thành bài báo và bài tập về nhà.

Các sinh viên đã được cảnh báo rằng việc kiểm tra ngẫu nhiên sẽ được thực hiện để phát hiện nội dung được tạo ra có phải do ChatGPT hay không, và những sinh viên bị phát hiện sử dụng các công cụ đó sẽ bị phạt nặng.

Các trường học và cao đẳng khác nhau trên thế giới cũng đã bắt đầu hạn chế nội dung được tạo bằng các công cụ như vậy.

Tại sao cần sử dụng công cụ DetectGPT?

Các mô hình ngôn ngữ lớn (large language models - LLM) đã được chứng minh là có thể tạo ra các phản hồi trôi chảy và chất lượng cho nhiều người dùng.

Các mô hình như GPT-3, PaLM và ChatGPT có thể trả lời một cách thuyết phục những câu hỏi phức tạp về khoa học, toán học, các sự kiện lịch sử và hiện tại, và các xu hướng xã hội.

Mặc dù các mô hình ngôn ngữ lớn vẫn còn một số hạn chế, nhưng khả năng của LLM đã có thể sử dụng để thay thế con người trong một số trường hợp; ví dụ như, viết báo và tiểu luận.

Điều này dẫn đến một số vấn đề trong xã hội, ví dụ như, làm cho tính công bằng khi đánh giá học sinh khó khăn hơn, làm giảm hiệu quả học tập của học sinh, và có thể làm phổ biến các bài báo thuyết phục khác nhưng không chính xác.

Thật không may, con người chỉ hoạt động tốt hơn một chút so với ‘chance' (vì đây là bài toán phân lớp, xác suất đúng là 50%), khi phân loại văn bản là do máy tạo ra (machine-generated) hay do con người viết (human-written text).

Để giáo viên và những người đọc tin tức có thể tự tin hơn khi xem xét các văn bản, thì các công cụ dùng để nhận biết văn bản do AI tạo ra là khá cần thiết.

Cách DetectGPT nhận biết văn bản do AI tạo ra

Ví dụ, ký hiệu X là đoạn văn bản ban đầu, là đoạn văn bản đầu vào mà chúng ta cần xác định liệu đoạn văn bản này là do con người viết hay là do máy tạo ra.

Công cụ DetectGPT có 3 bước chính như sau:

Bước 1: Perturb

Perturb tạm dịch là ‘nhiễu loạn'. Ở bước này, công cụ DetectGPT sẽ tạo ra các phiên bản khác của X, tạm gọi là X1, X2, … Xn. Những đoạn văn bản X1, X2, … Xn này, vẫn có nội dung giống X. Điều khác biệt ở đây là những đoạn văn bản này đã được thay đổi một số từ hoặc xóa một số từ.

Ví dụ như trong hình bên dưới đây, chúng ta có thể thấy rằng việc thay cụm từ ‘made a move' thành từ ‘moved' sẽ không làm thay đổi nghĩa của câu.

3 bước mô tả cách thức hoạt động của công cụ DetectGPT. (Ảnh: chụp màn hình từ hình 1 từ file pdf của nghiên cứu về DetectGPT).

Bước 2: Score

Mỗi mô hình ngôn ngữ sau khi huấn luyện xong, sẽ có lưu lại một bộ tham số, ở đây tạm gọi là tham số của mô hình.

Từ đoạn văn bản X (đoạn văn bản gốc), và các đoạn văn bản tạo ra ở bước 1, X1, X2, … Xn; chúng ta sẽ sử dụng bộ tham số của mô hình để tính ‘log probability’ (probability dịch sang tiếng Việt là xác suất) cho các đoạn văn bản này.

Bước 3: Compare

Ở bước này, DetectGPT sẽ tiến thành so sánh ‘log probability’ của đoạn văn bản gốc X, và ‘log probability’ của các đoạn văn bản X1, X2, … Xn.

DetectGPT hoạt động dựa trên giả thiết như sau:

Nếu văn bản là do máy tạo ra thì ‘log probability’ của các đoạn văn bản X1, X2, … Xn sẽ luôn luôn nhỏ hơn ‘log probability’ của đoạn văn bản gốc X. (Biểu đồ đỏ của hình dưới đây). Bạn có thể thấy ‘log probability’ của đoạn văn bản X sẽ nằm trên đỉnh của ngọn núi, còn ‘log probability’ của các đoạn văn bản X1, X2, … Xn sẽ nằm ở hai bên của ngọn núi.

Trong khi đó, nếu văn bản là do con người viết, thì ‘log probability’ của các đoạn văn bản X1, X2, … Xn sẽ nằm lộn xộn ở các nơi, và không theo quy luật nào cả khi chúng ta so sánh chúng với ‘log probability’ của đoạn văn bản X. (Biểu đồ xanh của hình dưới đây).

Mô tả sự khác nhau giữa ‘log probability’ của văn bản do máy tạo ra và văn bản do con người viết. (Ảnh: chụp màn hình từ hình 2 từ file pdf của nghiên cứu về DetectGPT).

Giả thiết này đã được nhóm tác giả kiểm chứng qua các thực nghiệm trong nghiên cứu, và cho thấy giả thiết này cho ra kết quả tốt hơn các nghiên cứu khác.

DetectGPT (The Chatbot killer) - Công cụ phát hiện văn bản viết bằng ChatGPT

DetectGPT là gì

Tại sao cần sử dụng công cụ DetectGPT?

Cách DetectGPT nhận biết văn bản do AI tạo ra

Bước 1: Perturb

Bước 2: Score

Bước 3: Compare

Bài liên quan

Đọc tiếp

Đọc tiếp

Nổi bật

Đọc nhiều