Học độ đo tương tự với ứng dụng tra cứu ảnh

Bài viết Học độ đo tương tự với ứng dụng tra cứu ảnh trình bày một giải pháp nhằm thu hẹp khoảng cách ngữ nghĩa trong CBIR bằng việc học độ đo tương tự từ thông tin phản hồi của người dùng dựa trên kỹ thuật lan truyền nhãn trên đồ thị. » Xem thêm

10-06-2022 22 2

Download

Xem online

Tóm tắt nội dung tài liệu

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 HỌC ĐỘ ĐO TƯƠNG TỰ VỚI ỨNG DỤNG TRA CỨU ẢNH Ngô Trường Giang1, Nguyễn Hữu Đức1 1 Khoa Công nghệ Thông tin, Trường đại học Thủy lợi, email: giangnt@tlu.edu.vn 1. GIỚI THIỆU này là số lượng mẫu được người dùng gán nhãn thường rất ít, điều này ảnh hưởng độ Trong tra cứu ảnh dựa trên nội dung chính xác của bộ phân lớp. Các phương pháp (Content Based Image Retrieval - CBIR), trở tiếp cận theo học truyền dẫn khắc phục vấn đề ngại lớn nhất đó là khoảng cách ngữ nghĩa này bằng cách khai thác cả dữ liệu được gán giữa các đặc trưng mức thấp và các khái nhãn và không được gán nhãn [1]. Những niệm mức cao. Những ảnh có đặc trưng cách tiếp cận đó thường dựa trên học đa tạp giống nhau nhưng khái niệm ngữ nghĩa rất để lan truyền điểm số xếp hạng hoặc định khác nhau và ngược lại [4]. Để hạn chế trở nghĩa mô hình lan truyền sử dụng dữ liệu ngại này, phản hồi liên quan (Relevance chưa được gán nhãn để đo độ liên quan giữa Feedback - RF) được sử dụng để cải thiện ảnh truy vấn với các ảnh trong cơ sở dữ liệu. hiệu năng của hệ thống CBIR. Nói chung, Một phương pháp điển hình theo tiếp cận này RF nhằm mục đích cải thiện hiệu năng tra được đề xuất bởi Rota [5]. Tác giả đề xuất sử cứu thông qua việc học những điều chỉnh của dụng bước ngẫu nhiên được dùng trong ngữ người dùng dựa trên những kết quả tra cứu. cảnh phân đoạn ảnh để áp dụng vào tra cứu Theo cách này, hệ thống cần phải thực hiện ảnh. Những ảnh liên quan và không liên quan thông qua một số vòng lặp. Trong mỗi vòng được gán nhãn bởi người sử dụng tại mỗi lặp, hệ thống sẽ trả lại một danh sách ngắn vòng phản hồi sẽ được sử dụng như là những các ảnh tương tự nhất với ảnh truy vấn dựa "hạt giống" cho bước ngẫu nhiên. Xác suất trên khoảng cách Euclidean. Sau đó, các ảnh để bước ngẫu nhiên bắt đầu từ một ảnh đi tới này sẽ được đưa cho người sử dụng gán nhãn ảnh có liên quan trước khi gặp phải ảnh liên quan hoặc không liên quan với ảnh truy không liên quan sẽ được sử dụng để xếp vấn. Sử dụng những ảnh đã được gán nhãn hạng các ảnh chưa được gán nhãn trong cơ này làm dữ liệu huấn luyện, những kỹ thuật sở dữ liệu. Do bước ngẫu nhiên với các ràng học máy sẽ được áp dụng để phân lớp tất cả buộc được sử dụng ở đây vẫn là phương các ảnh trong cơ sở dữ liệu thành hai lớp liên pháp chính quy, nên phương pháp này vẫn có quan và không liên quan với ảnh truy vấn. những hạn chế xuất phát từ chính những hạn Hàm phân lớp sau đó được sử dụng như hàm chế của bước ngẫu nhiên. xếp hạng để đo độ liên quan của ảnh trong cơ Bài báo này trình bày một giải pháp nhằm sở dữ liệu và xếp hạng chúng theo thứ tự liên quan với ảnh truy vấn [3,4,5]. thu hẹp khoảng cách ngữ nghĩa trong CBIR Có hai hướng tiếp cận dựa trên phản hồi bằng việc học độ đo tương tự từ thông tin liên quan cho CBIR: Quy nạp và truyền phản hồi của người dùng dựa trên kỹ thuật lan dẫn[4]. Các phương pháp tiếp cận quy nạp sử truyền nhãn trên đồ thị. Giải pháp đề xuất gần dụng một bộ phân lớp được huấn luyện theo với ý tưởng trong [5] đó là chuyển bài toán cách có giám sát để phân biệt giữa các ảnh có phản hồi liên quan về bài toán đồ thị, nhưng liên quan và không liên quan, và xếp hạng thay vì chỉ tập trung vào sự khác biệt bên các ảnh dựa trên mức độ liên quan của trong các nhãn, giải pháp tiếp cận giải quyết chúng. Hạn chế chính của các phương pháp bài toán theo hướng tìm mô hình lan truyền 87
Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 cho mỗi nhãn trên đồ thị. Mỗi ảnh trong cơ sở ở đây z là hằng số chuẩn hóa. Likelihood dữ liệu được xem như một đỉnh của đồ thị và của mỗi ảnh được định nghĩa bởi phân bố hỗn trọng số cạnh là độ tương tự giữa hai ảnh. Sau hợp p  xi xmy , yk  từ mỗi ảnh phản hồi xmy với k k mỗi vòng lặp phản hồi, các ảnh được người dùng gán nhãn sẽ được xem như các đỉnh một phân bố   p xmyk , yk . Phân bố khởi động của bước ngẫu nhiên trên đồ thị.  yk m  p xi x , yk cho biết độ liên quan giữa một Xác suất trạng thái ổn định của bước ngẫu ảnh xi và ảnh phản hồi xmy từ người dùng. Xác k nhiên sẽ được tính toán, sau đó sẽ được sử suất trạng thái ổn định của bước ngẫu nhiên sẽ dụng để ước lượng likelihood của mỗi đỉnh. được sử dụng để mô hình hóa phân bố này. Ước lượng này sau đó được sử dụng để xếp Giải pháp có thể mô tả tóm tắt như sau: hạng các ảnh liên quan tới ảnh truy vấn. Bước 1: Xây dựng đồ thị trọng số với các đỉnh là các ảnh trong cơ sở dữ liệu. 2. PHƯƠNG PHÁP NGHIÊN CỨU Bước 2: Tính toán xác suất trạng thái ổn Kí hiệu  x1y ,..., xLy  là các ảnh đã được gán 1 L định của bước ngẫu nhiên khởi động tại một nhãn bởi thông tin phản hồi từ người dùng, đỉnh được gán nhãn bởi người dùng xmy và k và  xL 1 ,..., xL U  là những ảnh chưa được gán quay trở lại đỉnh xi trong đồ thị này. Xác nhãn, với xi  X   x1 , x2 ..., xL U  biểu diễn suất trạng thái ổn định được dùng để định một ảnh bởi vec tơ d chiều. Bài toán phản nghĩa. phân bố hỗn hợp p  xi xmy , yk  . k hồi liên quan của hệ thống CBIR có thể phát Bước 3: Ước lượng likelihood p  xi yk  biểu dưới dạng bài toán lan truyền nhãn trên đồ thị, trong đó mỗi ảnh xi  X là một đỉnh theo (2) và cuối cùng thu được xác suất hậu nghiệm p  yk xi  theo (1) của mỗi đỉnh biểu của đồ thị và được gán một nhãn yk  Y   y1 , y2 ..., yK  . Từ quan điểm của lý diễn ảnh chưa được gán nhãn có liên quan đến khái niệm truy vấn. Xác suất hậu nghiệm thuyết quyết định, một khi biết được xác suất sau đó được xem như là độ tương tự giữa các hậu nghiệm p  yk xi  , có thể dễ dàng gán cho ảnh chưa được gán nhãn với ảnh truy vấn. xi một nhãn phù hợp. Trong tiếp cận lan truyền, mô hình phân 3. KẾT QUẢ NGHIÊN CỨU bố liên hợp p  yk xi  giữa ảnh và nhãn có thể 3.1. Trích chọn đặc trưng phát biểu riêng biết theo xác suất tiên nghiệm Nghiên cứu được thử nghiệm trên tập dữ nhãn p  yk  và likelihood p  xi yk  . Xác suất liệu ảnh Wang[2] bao gồm 1000 ảnh được hậu nghiệm có thể được tính toán bởi: chia thành 10 lớp, mỗi lớp gồm 100 ảnh p  xi yk  p  yk  liên quan. Đây là một trong số tập dữ liệu p  yk xi   K (1) được sử dụng rộng rãi cho đánh giá các hệ  px y  p y  n 1 n n thống tra cứu ảnh. Trong thử nghiệm, ba kiểu đặc trưng là màu, kết cấu và hình dạng Giả sử X y   x1y , x2y ,..., xMy  ( X y  X ) là k k k k k k sẽ được sử dụng. Đặc trưng màu được biểu một tập M k ảnh được người dùng gán với diễn bởi vecto 9 chiều mô tả momen màu; nhãn yk . Khi đó likelihood p  xi yk  có thể Đặc trưng kết cấu được biểu diễn bởi một vecto đặc trưng 9 chiều; Đặc trưng hình thu được bởi: dạng sử dụng biểu đồ hướng cạnh được p  xi yk   1 Mk   p xi xmyk , yk p xmyk yk z i 1   biểu diễn bởi vecto đặc trưng 18 chiều. Tất cả các đặc trưng này được kết hợp thành  px  Mk 1 một vecto đặc trưng 36 chiều và được  i xmyk , yk (2) z *Mk m 1 chuẩn hóa về dạng phân phối chuẩn. 88
Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 3.2. Đánh giá hiệu năng của giải pháp là chuyển bài toán phản hồi liên quan về bài toán đồ thị, nhưng thay vì Trong thí nghiệm, 50 ảnh truy vấn được chọn ngẫu nhiên từ các lớp của cơ sở dữ liệu, chỉ tập trung vào sự khác biệt bên trong các mỗi lớp 5 ảnh. Với mỗi truy vấn, bốn vòng nhãn, giải pháp tiếp cận giải quyết bài toán lặp phản hồi sẽ được thực hiện. Tại mỗi vòng theo hướng tìm mô hình lan truyền cho mỗi phản hồi, những điều chỉnh của người dùng nhãn trên đồ thị để ước lượng khả năng được về sự liên quan được mô phỏng một cách tự gán nhãn cho mỗi đỉnh. Ước lượng này sẽ động. Hai mươi ảnh kết quả tra cứu đầu tiên được xem như là độ tương tự của các ảnh được tự động gán nhãn liên quan hoặc không chưa được gán nhãn so với ảnh truy vấn. liên quan dựa vào thông tin lớp. Các ảnh Thực nghiệm được thực hiện trên tập dữ liệu trong cùng một lớp được xem là liên quan và Wang đã chỉ ra tính hiệu quả của giải pháp. số còn lại được xem là không liên quan. Tất cả các ảnh được gán nhãn trong vòng lặp phản hồi sẽ được sử dụng để cập nhật likelihood và xác suất hậu nghiệm, dùng để làm độ đo tương tự dùng để xếp hạng ảnh. Trong nghiên cứu này, độ đo Average Precision được định nghĩa bởi NISTTREC video sẽ được sử dụng để đánh giá hiệu năng của giải pháp. Bảng 1 chỉ ra sự biến thiên của giá trị AP theo số vòng lặp phản hồi với số lượng ảnh trả về khác nhau 20, 40, 60, 80, và Hình 1. So sánh kết quả trả về sau các vòng 100 của giải pháp đề xuất trong 4 vòng phản phản hồi liên quan, giữa hai giải pháp. hồi tương ứng. (Hình 1) biểu diễn kết quả sau 4 vòng phản hồi trong phạm vi 20 ảnh trả 5. TÀI LIỆU THAM KHẢO về giữa hai phương pháp. Ở đây, giá trị AP thu được tại vòng lặp phản hồi RF0 cho biết [1] Belahyane I., Mammass M., Abioui H., giá trị AP được tính toán tại kết quả tra cứu Idarrou A. (2020) Graph-Based Image đầu tiên của mỗi truy vấn trước khi quá trình Retrieval: State of the Art. In: Image and phản hồi liên quan hoạt động. Sau vòng lặp Signal Processing. ICISP 2020. đầu tiên, so với những kết quả tra cứu mà [2] James Z. Wang, Jia Li, Gio Wiederhold. không có phản hồi liên quan, hiệu năng của (2001). SIMPLIcity: Semantics-sensitive giải pháp đã được cải thiện đáng kể, và giải Integrated Matching for Picture Libraries. pháp đề xuất cho kết quả tốt hơn, đặc biệt IEEE Trans. on Pattern Analysis and trong các vòng phản hồi sớm. Machine Intelligence. [3] Kundu, Malay & Chowdhury, Manish & Bảng 1. Giá trị AP cho các vòng phản hồi Rota Bulo, Samuel. (2015). A Graph-Based Relevance Feedback Mechanism in 20 40 60 80 100 Content-Based Image Retrieval. RF0 0.52 0.40 0.30 0.22 0.19 Knowledge-Based Systems. RF1 0.75 0.60 0.35 0.27 0.23 [4] Li J., Allinson N.M. (2013). Relevance RF2 0.80 0.66 0.50 0.44 0.38 Feedback in Content-Based Image RF3 0.85 0.70 0.55 0.46 0.43 Retrieval: A Survey, Handbook on Neural Information Processing. Intelligent Systems RF4 0.88 0.75 0.61 0.55 0.51 Reference Library. Springer. [5] S. Rota Bu, M. Rabbi, and M. Pelillo. 4. KẾT LUẬN (2011). Contentbased image retrieval with Bài báo trình bày giải pháp áp dụng mô relevance feedback using random walks. hình học lan truyền trên đồ thị để học độ đo Pattern Recognition. tương tự cho ứng dụng tra cứu ảnh. Ý tưởng 89
Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 90