Chuyển tới nội dung chính

Chụp ảnh bài toán và để AI giải — công nghệ OCR hoạt động như thế nào?

Bạn chỉ cần chụp ảnh bài toán trong sách giáo khoa — MathPal sẽ nhận diện chữ viết, hiểu đề bài và giải thích từng bước. Đây là cách công nghệ OCR + AI hoạt động bên trong.

Bạn đang ngồi làm bài tập, gặp một bài khó trong sách giáo khoa. Thay vì gõ lại từng ký tự vào ô tìm kiếm, bạn chỉ cần chụp một tấm ảnh — và MathPal hiểu ngay bạn đang hỏi gì.

Nghe có vẻ đơn giản, nhưng phía sau tính năng này là cả một chuỗi kỹ thuật phức tạp.

OCR là gì?

OCR (Optical Character Recognition — Nhận dạng ký tự quang học) là công nghệ cho phép máy tính "đọc" chữ từ ảnh. Bạn đã dùng OCR mà không biết: khi Google Lens dịch biển hiệu nước ngoài, hay khi bạn scan tài liệu thành file Word.

Nhưng OCR cho bài toán khác OCR thông thường ở một điểm cực kỳ khó: ký hiệu toán học.

x² + 2x - 3 = 0

Với chữ viết tay của học sinh, dấu ² có thể trông giống số 2, dấu giống chữ v, phân số trông như hai dòng chữ không liên quan.

Tại sao nhận diện bài toán khó hơn nhận diện chữ thường?

1. Ký hiệu toán học đặc biệt

Toán học dùng hàng trăm ký hiệu không có trong bảng chữ cái thông thường: \sum, \int, \sqrt{}, ab\frac{a}{b}, v\vec{v}... Một model OCR thông thường sẽ bỏ qua hoặc nhận nhầm phần lớn trong số này.

2. Cấu trúc 2 chiều

Chữ thường đọc từ trái sang phải, trên xuống dưới. Nhưng toán học có cấu trúc đặc biệt:

  • Số mũ nằm phía trên và nhỏ hơn
  • Phân số có tử số trên, mẫu số dưới, dấu gạch giữa
  • Tích phân có cận trên và cận dưới

3. Chữ viết tay của học sinh

Học sinh viết nhanh, không chuẩn, mỗi người một kiểu. Dấu + đôi khi trông như chữ t, số 0 giống chữ O.

MathPal xử lý ảnh như thế nào?

MathPal sử dụng mô hình AI đa phương thức (multimodal) — có khả năng hiểu đồng thời cả hình ảnh lẫn văn bản.

Khi bạn gửi ảnh bài toán:

  1. Tiền xử lý ảnh: Tăng độ tương phản, căn chỉnh góc nghiêng, loại nhiễu
  2. Nhận diện vùng toán học: Phân biệt đâu là đề bài, đâu là hình vẽ, đâu là bảng số
  3. Chuyển đổi sang LaTeX: Biểu diễn nội dung toán học dưới dạng chuẩn mà AI có thể xử lý
  4. Hiểu ngữ nghĩa: Không chỉ đọc ký tự mà hiểu bài đang hỏi gì, dạng toán nào
  5. Giải và giải thích: Đưa ra lời giải từng bước rõ ràng

Giới hạn hiện tại

Công nghệ nhận diện ảnh chưa hoàn hảo. MathPal có thể gặp khó khăn với:

  • Ảnh quá tối, mờ, hoặc chụp nghiêng nhiều
  • Chữ viết tay quá cẩu thả
  • Hình vẽ hình học phức tạp (đường tròn nội tiếp, tam giác nhiều đường phụ)

Trong những trường hợp này, bạn có thể gõ đề bài trực tiếp — MathPal vẫn hiểu và giải thích như thường.


Thử ngay

Lần sau khi gặp bài toán khó, đừng mất thời gian gõ lại — chỉ cần chụp ảnh và gửi cho MathPal. AI sẽ đọc đề, hiểu bài, và giải thích từng bước như một gia sư thật sự.

Đội ngũ MathPal

AI Math Tutor — giải thích từng bước, hoạt động 24/7.