Học độ đo tương tự với ứng dụng tra cứu ảnh
Bài viết Học độ đo tương tự với ứng dụng tra cứu ảnh trình bày một giải pháp nhằm thu hẹp khoảng cách ngữ nghĩa trong CBIR bằng việc học độ đo tương tự từ thông tin phản hồi của người dùng dựa trên kỹ thuật lan truyền nhãn trên đồ thị. » Xem thêm
Tóm tắt nội dung tài liệu
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
HỌC ĐỘ ĐO TƯƠNG TỰ VỚI ỨNG DỤNG TRA CỨU ẢNH
Ngô Trường Giang1, Nguyễn Hữu Đức1
1
Khoa Công nghệ Thông tin, Trường đại học Thủy lợi, email: giangnt@tlu.edu.vn
1. GIỚI THIỆU này là số lượng mẫu được người dùng gán
nhãn thường rất ít, điều này ảnh hưởng độ
Trong tra cứu ảnh dựa trên nội dung
chính xác của bộ phân lớp. Các phương pháp
(Content Based Image Retrieval - CBIR), trở
tiếp cận theo học truyền dẫn khắc phục vấn đề
ngại lớn nhất đó là khoảng cách ngữ nghĩa
này bằng cách khai thác cả dữ liệu được gán
giữa các đặc trưng mức thấp và các khái
nhãn và không được gán nhãn [1]. Những
niệm mức cao. Những ảnh có đặc trưng
cách tiếp cận đó thường dựa trên học đa tạp
giống nhau nhưng khái niệm ngữ nghĩa rất
để lan truyền điểm số xếp hạng hoặc định
khác nhau và ngược lại [4]. Để hạn chế trở
nghĩa mô hình lan truyền sử dụng dữ liệu
ngại này, phản hồi liên quan (Relevance
chưa được gán nhãn để đo độ liên quan giữa
Feedback - RF) được sử dụng để cải thiện
ảnh truy vấn với các ảnh trong cơ sở dữ liệu.
hiệu năng của hệ thống CBIR. Nói chung,
Một phương pháp điển hình theo tiếp cận này
RF nhằm mục đích cải thiện hiệu năng tra
được đề xuất bởi Rota [5]. Tác giả đề xuất sử
cứu thông qua việc học những điều chỉnh của
dụng bước ngẫu nhiên được dùng trong ngữ
người dùng dựa trên những kết quả tra cứu.
cảnh phân đoạn ảnh để áp dụng vào tra cứu
Theo cách này, hệ thống cần phải thực hiện
ảnh. Những ảnh liên quan và không liên quan
thông qua một số vòng lặp. Trong mỗi vòng
được gán nhãn bởi người sử dụng tại mỗi
lặp, hệ thống sẽ trả lại một danh sách ngắn
vòng phản hồi sẽ được sử dụng như là những
các ảnh tương tự nhất với ảnh truy vấn dựa
"hạt giống" cho bước ngẫu nhiên. Xác suất
trên khoảng cách Euclidean. Sau đó, các ảnh
để bước ngẫu nhiên bắt đầu từ một ảnh đi tới
này sẽ được đưa cho người sử dụng gán nhãn
ảnh có liên quan trước khi gặp phải ảnh
liên quan hoặc không liên quan với ảnh truy
không liên quan sẽ được sử dụng để xếp
vấn. Sử dụng những ảnh đã được gán nhãn
hạng các ảnh chưa được gán nhãn trong cơ
này làm dữ liệu huấn luyện, những kỹ thuật
sở dữ liệu. Do bước ngẫu nhiên với các ràng
học máy sẽ được áp dụng để phân lớp tất cả
buộc được sử dụng ở đây vẫn là phương
các ảnh trong cơ sở dữ liệu thành hai lớp liên
pháp chính quy, nên phương pháp này vẫn có
quan và không liên quan với ảnh truy vấn.
những hạn chế xuất phát từ chính những hạn
Hàm phân lớp sau đó được sử dụng như hàm
chế của bước ngẫu nhiên.
xếp hạng để đo độ liên quan của ảnh trong cơ
Bài báo này trình bày một giải pháp nhằm
sở dữ liệu và xếp hạng chúng theo thứ tự liên
quan với ảnh truy vấn [3,4,5]. thu hẹp khoảng cách ngữ nghĩa trong CBIR
Có hai hướng tiếp cận dựa trên phản hồi bằng việc học độ đo tương tự từ thông tin
liên quan cho CBIR: Quy nạp và truyền phản hồi của người dùng dựa trên kỹ thuật lan
dẫn[4]. Các phương pháp tiếp cận quy nạp sử truyền nhãn trên đồ thị. Giải pháp đề xuất gần
dụng một bộ phân lớp được huấn luyện theo với ý tưởng trong [5] đó là chuyển bài toán
cách có giám sát để phân biệt giữa các ảnh có phản hồi liên quan về bài toán đồ thị, nhưng
liên quan và không liên quan, và xếp hạng thay vì chỉ tập trung vào sự khác biệt bên
các ảnh dựa trên mức độ liên quan của trong các nhãn, giải pháp tiếp cận giải quyết
chúng. Hạn chế chính của các phương pháp bài toán theo hướng tìm mô hình lan truyền
87
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
cho mỗi nhãn trên đồ thị. Mỗi ảnh trong cơ sở ở đây z là hằng số chuẩn hóa. Likelihood
dữ liệu được xem như một đỉnh của đồ thị và của mỗi ảnh được định nghĩa bởi phân bố hỗn
trọng số cạnh là độ tương tự giữa hai ảnh. Sau hợp p xi xmy , yk từ mỗi ảnh phản hồi xmy với
k k
mỗi vòng lặp phản hồi, các ảnh được người
dùng gán nhãn sẽ được xem như các đỉnh
một phân bố
p xmyk , yk . Phân bố
khởi động của bước ngẫu nhiên trên đồ thị. yk
m
p xi x , yk cho biết độ liên quan giữa một
Xác suất trạng thái ổn định của bước ngẫu ảnh xi và ảnh phản hồi xmy từ người dùng. Xác
k
nhiên sẽ được tính toán, sau đó sẽ được sử
suất trạng thái ổn định của bước ngẫu nhiên sẽ
dụng để ước lượng likelihood của mỗi đỉnh. được sử dụng để mô hình hóa phân bố này.
Ước lượng này sau đó được sử dụng để xếp Giải pháp có thể mô tả tóm tắt như sau:
hạng các ảnh liên quan tới ảnh truy vấn. Bước 1: Xây dựng đồ thị trọng số với các
đỉnh là các ảnh trong cơ sở dữ liệu.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Bước 2: Tính toán xác suất trạng thái ổn
Kí hiệu x1y ,..., xLy là các ảnh đã được gán
1 L
định của bước ngẫu nhiên khởi động tại một
nhãn bởi thông tin phản hồi từ người dùng, đỉnh được gán nhãn bởi người dùng xmy và k
và xL 1 ,..., xL U là những ảnh chưa được gán quay trở lại đỉnh xi trong đồ thị này. Xác
nhãn, với xi X x1 , x2 ..., xL U biểu diễn suất trạng thái ổn định được dùng để định
một ảnh bởi vec tơ d chiều. Bài toán phản nghĩa. phân bố hỗn hợp p xi xmy , yk .
k
hồi liên quan của hệ thống CBIR có thể phát Bước 3: Ước lượng likelihood p xi yk
biểu dưới dạng bài toán lan truyền nhãn trên
đồ thị, trong đó mỗi ảnh xi X là một đỉnh theo (2) và cuối cùng thu được xác suất hậu
nghiệm p yk xi theo (1) của mỗi đỉnh biểu
của đồ thị và được gán một nhãn
yk Y y1 , y2 ..., yK . Từ quan điểm của lý diễn ảnh chưa được gán nhãn có liên quan
đến khái niệm truy vấn. Xác suất hậu nghiệm
thuyết quyết định, một khi biết được xác suất
sau đó được xem như là độ tương tự giữa các
hậu nghiệm p yk xi , có thể dễ dàng gán cho
ảnh chưa được gán nhãn với ảnh truy vấn.
xi một nhãn phù hợp.
Trong tiếp cận lan truyền, mô hình phân 3. KẾT QUẢ NGHIÊN CỨU
bố liên hợp p yk xi giữa ảnh và nhãn có thể 3.1. Trích chọn đặc trưng
phát biểu riêng biết theo xác suất tiên nghiệm
Nghiên cứu được thử nghiệm trên tập dữ
nhãn p yk và likelihood p xi yk . Xác suất liệu ảnh Wang[2] bao gồm 1000 ảnh được
hậu nghiệm có thể được tính toán bởi: chia thành 10 lớp, mỗi lớp gồm 100 ảnh
p xi yk p yk liên quan. Đây là một trong số tập dữ liệu
p yk xi K
(1) được sử dụng rộng rãi cho đánh giá các hệ
px y p y
n 1
n n thống tra cứu ảnh. Trong thử nghiệm, ba
kiểu đặc trưng là màu, kết cấu và hình dạng
Giả sử X y x1y , x2y ,..., xMy ( X y X ) là
k k k k k
k sẽ được sử dụng. Đặc trưng màu được biểu
một tập M k ảnh được người dùng gán với diễn bởi vecto 9 chiều mô tả momen màu;
nhãn yk . Khi đó likelihood p xi yk có thể Đặc trưng kết cấu được biểu diễn bởi một
vecto đặc trưng 9 chiều; Đặc trưng hình
thu được bởi:
dạng sử dụng biểu đồ hướng cạnh được
p xi yk
1 Mk
p xi xmyk , yk p xmyk yk
z i 1
biểu diễn bởi vecto đặc trưng 18 chiều. Tất
cả các đặc trưng này được kết hợp thành
px
Mk
1 một vecto đặc trưng 36 chiều và được
i xmyk , yk (2)
z *Mk m 1 chuẩn hóa về dạng phân phối chuẩn.
88
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
3.2. Đánh giá hiệu năng của giải pháp là chuyển bài toán phản hồi
liên quan về bài toán đồ thị, nhưng thay vì
Trong thí nghiệm, 50 ảnh truy vấn được
chọn ngẫu nhiên từ các lớp của cơ sở dữ liệu, chỉ tập trung vào sự khác biệt bên trong các
mỗi lớp 5 ảnh. Với mỗi truy vấn, bốn vòng nhãn, giải pháp tiếp cận giải quyết bài toán
lặp phản hồi sẽ được thực hiện. Tại mỗi vòng theo hướng tìm mô hình lan truyền cho mỗi
phản hồi, những điều chỉnh của người dùng nhãn trên đồ thị để ước lượng khả năng được
về sự liên quan được mô phỏng một cách tự gán nhãn cho mỗi đỉnh. Ước lượng này sẽ
động. Hai mươi ảnh kết quả tra cứu đầu tiên được xem như là độ tương tự của các ảnh
được tự động gán nhãn liên quan hoặc không chưa được gán nhãn so với ảnh truy vấn.
liên quan dựa vào thông tin lớp. Các ảnh Thực nghiệm được thực hiện trên tập dữ liệu
trong cùng một lớp được xem là liên quan và Wang đã chỉ ra tính hiệu quả của giải pháp.
số còn lại được xem là không liên quan. Tất
cả các ảnh được gán nhãn trong vòng lặp
phản hồi sẽ được sử dụng để cập nhật
likelihood và xác suất hậu nghiệm, dùng để
làm độ đo tương tự dùng để xếp hạng ảnh.
Trong nghiên cứu này, độ đo Average
Precision được định nghĩa bởi NISTTREC
video sẽ được sử dụng để đánh giá hiệu năng
của giải pháp. Bảng 1 chỉ ra sự biến thiên của
giá trị AP theo số vòng lặp phản hồi với số
lượng ảnh trả về khác nhau 20, 40, 60, 80, và Hình 1. So sánh kết quả trả về sau các vòng
100 của giải pháp đề xuất trong 4 vòng phản phản hồi liên quan, giữa hai giải pháp.
hồi tương ứng. (Hình 1) biểu diễn kết quả
sau 4 vòng phản hồi trong phạm vi 20 ảnh trả 5. TÀI LIỆU THAM KHẢO
về giữa hai phương pháp. Ở đây, giá trị AP
thu được tại vòng lặp phản hồi RF0 cho biết [1] Belahyane I., Mammass M., Abioui H.,
giá trị AP được tính toán tại kết quả tra cứu Idarrou A. (2020) Graph-Based Image
đầu tiên của mỗi truy vấn trước khi quá trình Retrieval: State of the Art. In: Image and
phản hồi liên quan hoạt động. Sau vòng lặp Signal Processing. ICISP 2020.
đầu tiên, so với những kết quả tra cứu mà [2] James Z. Wang, Jia Li, Gio Wiederhold.
không có phản hồi liên quan, hiệu năng của (2001). SIMPLIcity: Semantics-sensitive
giải pháp đã được cải thiện đáng kể, và giải Integrated Matching for Picture Libraries.
pháp đề xuất cho kết quả tốt hơn, đặc biệt IEEE Trans. on Pattern Analysis and
trong các vòng phản hồi sớm. Machine Intelligence.
[3] Kundu, Malay & Chowdhury, Manish &
Bảng 1. Giá trị AP cho các vòng phản hồi Rota Bulo, Samuel. (2015). A Graph-Based
Relevance Feedback Mechanism in
20 40 60 80 100 Content-Based Image Retrieval.
RF0 0.52 0.40 0.30 0.22 0.19 Knowledge-Based Systems.
RF1 0.75 0.60 0.35 0.27 0.23 [4] Li J., Allinson N.M. (2013). Relevance
RF2 0.80 0.66 0.50 0.44 0.38 Feedback in Content-Based Image
RF3 0.85 0.70 0.55 0.46 0.43 Retrieval: A Survey, Handbook on Neural
Information Processing. Intelligent Systems
RF4 0.88 0.75 0.61 0.55 0.51
Reference Library. Springer.
[5] S. Rota Bu, M. Rabbi, and M. Pelillo.
4. KẾT LUẬN
(2011). Contentbased image retrieval with
Bài báo trình bày giải pháp áp dụng mô relevance feedback using random walks.
hình học lan truyền trên đồ thị để học độ đo Pattern Recognition.
tương tự cho ứng dụng tra cứu ảnh. Ý tưởng
89
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
90