« بازگشت

مهنوش زندی

مهنوش زندی


تاریخ انتشار : Publish : نسخه قابل چاپ Print

پایان­نامه برای دریافت درجه کارشناسی ارشد در رشته مهندسی کامپیوتر گرایش هوش مصنوعی        

 

 

عنوان:

رتبه‌بندی صفحات وب در جستجوی مفهومی به کمک روابط ساختاری و معنایی بین مفاهیم

 

 

استاد راهنما:

دکتر محرم منصوری زاده

 

 

اساتید مشاور:

دکتر میرحسین دزفولیان

دکتر آزاده شاکری

 

اساتید داور :

دکتر حسن ختن لو

دکتر مهدی سخایی نیا

 

نگارش:

مهنوش زندی

 

 

خرداد 1395

 

 

 

چكيده:

هدف از این پژوهش، رتبه‌بندی صفحات وب با استفاده از اطلاعات مفهومی و معنایی بین مفاهیم می‌باشد. یکی از روش‌های موثر و متداول رتبه‌بندی، مدل فضای برداری است. درمدل فضای برداری، اسناد به شکل بردارهایی هستند که هر مولفه آن، وزن مربوط به واژه خاصی است. در این مدل، واژگان با استفاده از روش‌هایی وزن‌دهی می‌شوند. در صورت وجود واژه در سند متناسب با روش در نظر گرفته شده،  وزن‌دهی شده و در صورت عدم وجود واژه در سند، وزن صفر می‌گیرند. درصورتی که می‌دانیم واژگان می‌توانند تعدادی معادل‌ معنایی داشته باشند که با مدل فضای برداری، آنها در نظر گرفته نمی‌شوند . جهت رفع چنین نقطه ضعفی،  تاکنون روش‌های جستجوی معنایی متعددی ارائه شده‌اند. یکی از این روش‌های متداول، گسترش پرس‌وجو یا اضافه نمودن واژگان دارای معنی مشترک با آن واژه به پرس‌وجو است. این واژگان بایستی با دقت به معنا و مفهوم خود در متن زمینه آن واژه انتخاب شوند؛ در غیر اینصورت تنها اثر آن منحرف ساختن بردار پرس‌وجو از بردار پرس‌وجوی بهینه است.

 الگوریتم Rocchio  با استفاده از k  سند اول مرحله اول رتبه‌بندی، سعی در بهبود دقت سیستم با استفاده از روش گسترش پرس‌وجو در مرحله دوم بازیابی دارد. روش پیشنهادی با استفاده از همین الگوریتم،  بوسیله انتخاب آگاهانه‌تر و دقیق‌تر واژگانی که قصد اضافه شدن به پرس‌وجو را دارند، به بهبود دقت سیستم بازیابی اطلاعات کمک می‌کند. برای اینکار با استفاده از توابع سنجش میزان نزدیکی دو واژه و بررسی روابط معنایی بین دو واژه به کمک ابزارهای محاسبه شباهت معنایی Wordnet-Similarity و وردنت و اعمال یکسری محدودیت‌ها، سعی در گزینش واژگان مناسبتر داریم. پس از انتخاب واژگان محتمل‌تر،  مساله دیگر وزن‌دهی آنهاست.  اینکار بوسیله مدل Generative Mixture Model با پارامترهای ثابت، انجام شد. از آنجاییکه روش‌های معنایی جهت افزایش دقت سیستم ایجاد شدند، از معیار MAP جهت ارزیابی نتایج استفاده شده است. نتایج، افزایش دو درصدی دقت سیستم را نسبت به روش پایه بازخورد شبه-مرتبط نشان می‌دهد.

   واژه‌های کلیدی: رتبه بندی، روابط مفهومی، روابط معنایی، مدل فضای برداری، گسترش پرس‌وجو، پرس‌وجو، شباهت معنایی، متن زمینه بازیابی اطلاعات، بازخورد شبه-مرتبط.

 

 

Abstract:

This thesis is about ranking the web pages using conceptual and semantic data among concepts. In vector space model, documents are vectors in which each element is weight of a word. In this model, the words are weighted using some weighting methods. In case of being a special word in the document, it will be weighted corresponding to the considered method, or else its weight will be zero. However, we know words can have some Synset words that this model doesn’t consider them. In order to avoiding this problem, so far different methods have been proposed. One of the popular methods is query expansion with adding similar sense words to query words. These words must be chosen according to their senses and concepts in their contexts. If not, query vector may deviate the optimal query vector.

Rocchio’s algorithm tries to use k numbers of retrieved documents in the first retrieval phase to improve system precision using query expansion in the second retrieval phase. The proposed method performs this process by choosing more accurate words. The words choose using proximity term function and semantic relations between words with Wordnet-Similarity toolkit plus applying some restrictions on the value of semantic similarity. After choosing the words, weighting was done using Generative Mixture model with constant parameter. To this end, the MAP measure has been used for evaluating the semantic methods. Therefore, we use this measure for evaluation. Results show two percent improvement in precision compared to the Pseudo Relevance Feedback baseline method.

 

Key Words:  Ranking, concept relation, semantic relation, vector space model, query expansion, query, semantic similar, context, information retrieval system, Pseudo relevance feedback.



 مهنوش زندی
ایران تهران
Meh.zandi@gmail.com

                                                09354334772

هدف :

استخدام در زمینه ی توسعه نرم افزار

استخدام جهت تحقیق و پیاده سازی در زمینه های هوش مصنوعی

استخدام در زمینه امنیت اطلاعات

 

مهارت های فنی:

§        آشنایی با زبان های ,JavaScript, JQuery , Pascal , QBasic ,Delphi, C#

§        تسلط بر C , C++ , UML , PHPوMYSQL ,Matlab, SQL ,Pythonو JavaSE
,
 آشنایی و کار با JavaEE (JSP , Servlet , Hibernate,Tomcat)  

§        کار با IReport(Jasper Report)

نرم افزارها و تکنولوژی ها :

·        Database: MYSQL

·        Platform : MS-DOS, Windows NT, 2000, XP,Vista, Seven(7),Linux (Ubuntu,Kubuntu), MacOSX(Basic)

·        Methodologies: RUP ,Object Oriented Analysis & Design

·        Framework: , Turbo C , Microsoft Visual Studio ,Rational Rose ,Dream Weaver Microsoft SQL ,Eclipse 1.6.0 , Django(For Python), Intellij, NetBeans, Matlab, MSQL Workbench5.5

 

پروژه کارشناسی:

§        طراحی سایتی جهت مدیریت پروژه های شرکت
  ابزار: Django Framework

§        تبدیل FireFox  CSS   به Internet Explorer CSS

           ابزار : DreamWeaver

 

پروژه های ­کارشناسی ارشد :

§        پروژه پایانی : رتبه بندی صفحات وب در جستجوی مفهومی به کمک روابط ساختاری و معنایی بین مفاهیم

کار با وردنت و زبان برنامه نویسی  Java و ابزار بازیابی متن Lemur4.12 تحت linux با   WordnetSQL (با پایگاه داده  MySql)

§        پروژه های درسی :

1.      پروژه درس پردازش زبان­های طبیعی : Word Sense Disambiguation  

کار با WordNet با زبان برنامه نویسی Java

2.      پروژه درس پردازش تصاویر دیجیتال و شبکه عصبی: Face Recognition