Mô hình AI có thể cạnh tranh với bác sĩ trong suy luận y khoa phức tạp
VHO - Một nghiên cứu mới cho thấy các mô hình trí tuệ nhân tạo (AI) có thể đạt hiệu quả ngang, thậm chí vượt bác sĩ trong nhiều nhiệm vụ suy luận y khoa, từ chẩn đoán đến đưa ra quyết định điều trị, đặc biệt trong các tình huống cấp cứu.

Theo Euro News, các nhà nghiên cứu tại Trường Y Harvard và Trung tâm Y tế Beth Israel Deaconess đã tiến hành so sánh trực tiếp giữa bác sĩ và các mô hình AI trong nhiều bài toán lập luận lâm sàng.
Kết quả cho thấy các mô hình ngôn ngữ lớn (LLM) hoạt động hiệu quả hơn trong nhiều nhiệm vụ, bao gồm ra quyết định tại phòng cấp cứu dựa trên dữ liệu sẵn có, xác định chẩn đoán khả dĩ và đề xuất các bước xử trí tiếp theo.
“Chúng tôi đã thử nghiệm mô hình AI với hầu hết các tiêu chuẩn và nó vượt trội so với cả các mô hình trước đó lẫn mức nền của bác sĩ”, ông Arjun Manrai, đồng tác giả chính của nghiên cứu, cho biết.
Tuy nhiên, ông cũng nhấn mạnh rằng điều này không đồng nghĩa AI sẽ tự động cải thiện chất lượng chăm sóc: “Cách thức và bối cảnh triển khai AI vẫn chưa được nghiên cứu đầy đủ, và chúng ta cần các thử nghiệm tiền cứu nghiêm ngặt để đánh giá tác động trong thực tế lâm sàng”.
Thử nghiệm trong môi trường cấp cứu
Trong nghiên cứu, các nhà khoa học đánh giá mô hình suy luận o1-preview của OpenAI (ra mắt năm 2024) bằng cách cung cấp hàng loạt ca lâm sàng, bao gồm dữ liệu từ hội nghị ca bệnh và hồ sơ thực tế tại khoa cấp cứu.
AI vượt trội bác sĩ trong phần lớn thí nghiệm, đặc biệt ở các nhiệm vụ như lập luận quản lý, phân tích lâm sàng, ghi chép hồ sơ và xử lý tình huống cấp cứu với thông tin hạn chế.
Theo ông Peter Brodeur, đồng tác giả nghiên cứu, các mô hình hiện nay đã tiến gần tới “giới hạn đánh giá” truyền thống: “Trước đây, chúng ta dùng các bài trắc nghiệm, nhưng giờ các mô hình gần như đạt điểm tuyệt đối, khiến việc đo lường tiến bộ trở nên khó khăn”.
Trong một thử nghiệm cụ thể, các mô hình như o1 và GPT-4o được yêu cầu đánh giá bệnh nhân qua nhiều giai đoạn tại phòng cấp cứu, từ phân loại ban đầu đến quyết định nhập viện. Ở mỗi bước, mô hình chỉ được cung cấp thông tin tương ứng thời điểm đó và phải đưa ra chẩn đoán cũng như hướng xử trí.
Khoảng cách lớn nhất giữa AI và bác sĩ xuất hiện ở giai đoạn đầu, khi thông tin còn hạn chế. Khi có thêm dữ liệu, cả AI và bác sĩ đều cải thiện độ chính xác chẩn đoán.
Các tác giả cho rằng việc ứng dụng AI rộng rãi có thể giúp giảm chi phí do sai sót chẩn đoán, chậm trễ điều trị và hạn chế tiếp cận dịch vụ y tế.
Cần thận trọng khi triển khai
Dù kết quả khả quan, các nhà nghiên cứu nhấn mạnh cần thêm các thử nghiệm trong môi trường thực tế để đánh giá đầy đủ hiệu quả và rủi ro. Đồng thời, hệ thống y tế cần đầu tư hạ tầng và xây dựng khung pháp lý nhằm tích hợp AI một cách an toàn vào quy trình lâm sàng.
“Một mô hình có thể chẩn đoán chính xác nhưng lại đề xuất các xét nghiệm không cần thiết, gây rủi ro cho bệnh nhân”, Brodeur lưu ý, đồng thời khẳng định con người vẫn phải là tiêu chuẩn đánh giá cuối cùng về độ an toàn.
Nghiên cứu cũng có những hạn chế nhất định, khi chủ yếu tập trung vào phiên bản o1-preview, trong khi các mô hình mới hơn như o3 đã được phát triển.
Các tác giả cho rằng cần thêm nghiên cứu để làm rõ sự khác biệt giữa các mô hình cũng như cách kết hợp hiệu quả giữa bác sĩ và AI trong thực hành y khoa.

RSS