مهنوش زندی

تاریخ انتشار : Publish : نسخه قابل چاپ Print

پایان­نامه برای دریافت درجه کارشناسی ارشد در رشته مهندسی کامپیوتر گرایش هوش مصنوعی        

 

 

عنوان:

رتبه‌بندی صفحات وب در جستجوی مفهومی به کمک روابط ساختاری و معنایی بین مفاهیم

 

 

استاد راهنما:

دکتر محرم منصوری زاده

 

 

اساتید مشاور:

دکتر میرحسین دزفولیان

دکتر آزاده شاکری

 

اساتید داور :

دکتر حسن ختن لو

دکتر مهدی سخایی نیا

 

نگارش:

مهنوش زندی

 

 

خرداد 1395

 

 

 

چكيده:

هدف از این پژوهش، رتبه‌بندی صفحات وب با استفاده از اطلاعات مفهومی و معنایی بین مفاهیم می‌باشد. یکی از روش‌های موثر و متداول رتبه‌بندی، مدل فضای برداری است. درمدل فضای برداری، اسناد به شکل بردارهایی هستند که هر مولفه آن، وزن مربوط به واژه خاصی است. در این مدل، واژگان با استفاده از روش‌هایی وزن‌دهی می‌شوند. در صورت وجود واژه در سند متناسب با روش در نظر گرفته شده،  وزن‌دهی شده و در صورت عدم وجود واژه در سند، وزن صفر می‌گیرند. درصورتی که می‌دانیم واژگان می‌توانند تعدادی معادل‌ معنایی داشته باشند که با مدل فضای برداری، آنها در نظر گرفته نمی‌شوند . جهت رفع چنین نقطه ضعفی،  تاکنون روش‌های جستجوی معنایی متعددی ارائه شده‌اند. یکی از این روش‌های متداول، گسترش پرس‌وجو یا اضافه نمودن واژگان دارای معنی مشترک با آن واژه به پرس‌وجو است. این واژگان بایستی با دقت به معنا و مفهوم خود در متن زمینه آن واژه انتخاب شوند؛ در غیر اینصورت تنها اثر آن منحرف ساختن بردار پرس‌وجو از بردار پرس‌وجوی بهینه است.

 الگوریتم Rocchio  با استفاده از k  سند اول مرحله اول رتبه‌بندی، سعی در بهبود دقت سیستم با استفاده از روش گسترش پرس‌وجو در مرحله دوم بازیابی دارد. روش پیشنهادی با استفاده از همین الگوریتم،  بوسیله انتخاب آگاهانه‌تر و دقیق‌تر واژگانی که قصد اضافه شدن به پرس‌وجو را دارند، به بهبود دقت سیستم بازیابی اطلاعات کمک می‌کند. برای اینکار با استفاده از توابع سنجش میزان نزدیکی دو واژه و بررسی روابط معنایی بین دو واژه به کمک ابزارهای محاسبه شباهت معنایی Wordnet-Similarity و وردنت و اعمال یکسری محدودیت‌ها، سعی در گزینش واژگان مناسبتر داریم. پس از انتخاب واژگان محتمل‌تر،  مساله دیگر وزن‌دهی آنهاست.  اینکار بوسیله مدل Generative Mixture Model با پارامترهای ثابت، انجام شد. از آنجاییکه روش‌های معنایی جهت افزایش دقت سیستم ایجاد شدند، از معیار MAP جهت ارزیابی نتایج استفاده شده است. نتایج، افزایش دو درصدی دقت سیستم را نسبت به روش پایه بازخورد شبه-مرتبط نشان می‌دهد.

   واژه‌های کلیدی: رتبه بندی، روابط مفهومی، روابط معنایی، مدل فضای برداری، گسترش پرس‌وجو، پرس‌وجو، شباهت معنایی، متن زمینه بازیابی اطلاعات، بازخورد شبه-مرتبط.

 

 

Abstract:

This thesis is about ranking the web pages using conceptual and semantic data among concepts. In vector space model, documents are vectors in which each element is weight of a word. In this model, the words are weighted using some weighting methods. In case of being a special word in the document, it will be weighted corresponding to the considered method, or else its weight will be zero. However, we know words can have some Synset words that this model doesn’t consider them. In order to avoiding this problem, so far different methods have been proposed. One of the popular methods is query expansion with adding similar sense words to query words. These words must be chosen according to their senses and concepts in their contexts. If not, query vector may deviate the optimal query vector.

Rocchio’s algorithm tries to use k numbers of retrieved documents in the first retrieval phase to improve system precision using query expansion in the second retrieval phase. The proposed method performs this process by choosing more accurate words. The words choose using proximity term function and semantic relations between words with Wordnet-Similarity toolkit plus applying some restrictions on the value of semantic similarity. After choosing the words, weighting was done using Generative Mixture model with constant parameter. To this end, the MAP measure has been used for evaluating the semantic methods. Therefore, we use this measure for evaluation. Results show two percent improvement in precision compared to the Pseudo Relevance Feedback baseline method.

 

Key Words:  Ranking, concept relation, semantic relation, vector space model, query expansion, query, semantic similar, context, information retrieval system, Pseudo relevance feedback.



 مهنوش زندی
ایران تهران
Meh.zandi@gmail.com

                                                09354334772

هدف :

استخدام در زمینه ی توسعه نرم افزار

استخدام جهت تحقیق و پیاده سازی در زمینه های هوش مصنوعی

استخدام در زمینه امنیت اطلاعات

 

مهارت های فنی:

§        آشنایی با زبان های ,JavaScript, JQuery , Pascal , QBasic ,Delphi, C#

§        تسلط بر C , C++ , UML , PHPوMYSQL ,Matlab, SQL ,Pythonو JavaSE
,
 آشنایی و کار با JavaEE (JSP , Servlet , Hibernate,Tomcat)  

§        کار با IReport(Jasper Report)

نرم افزارها و تکنولوژی ها :

·        Database: MYSQL

·        Platform : MS-DOS, Windows NT, 2000, XP,Vista, Seven(7),Linux (Ubuntu,Kubuntu), MacOSX(Basic)

·        Methodologies: RUP ,Object Oriented Analysis & Design

·        Framework: , Turbo C , Microsoft Visual Studio ,Rational Rose ,Dream Weaver Microsoft SQL ,Eclipse 1.6.0 , Django(For Python), Intellij, NetBeans, Matlab, MSQL Workbench5.5

 

پروژه کارشناسی:

§        طراحی سایتی جهت مدیریت پروژه های شرکت
  ابزار: Django Framework

§        تبدیل FireFox  CSS   به Internet Explorer CSS

           ابزار : DreamWeaver

 

پروژه های ­کارشناسی ارشد :

§        پروژه پایانی : رتبه بندی صفحات وب در جستجوی مفهومی به کمک روابط ساختاری و معنایی بین مفاهیم

کار با وردنت و زبان برنامه نویسی  Java و ابزار بازیابی متن Lemur4.12 تحت linux با   WordnetSQL (با پایگاه داده  MySql)

§        پروژه های درسی :

1.      پروژه درس پردازش زبان­های طبیعی : Word Sense Disambiguation  

کار با WordNet با زبان برنامه نویسی Java

2.      پروژه درس پردازش تصاویر دیجیتال و شبکه عصبی: Face Recognition
زبان برنامه نویسی
Matlab

3.      پروژه درس بازیابی اطلاعات (دانشگاه تهران) : یادگیری رتبه بندی
زبان برنامه نویسی
C++ با ابزار Lemur 4.12

دوره های تخصصی :

§        دوره رمز نگاری در دانشگاه خواجه نصیر به همراه مدرک معتبر بین المللی

§        دوره آموزش پیشرفته برنامه نویسی جاوا در لایتک شریف

§        یادگیری زبان انگلیس در آموزشگاه زبانسرا

§        پادگیری درس بازیابی اطلاعات در دانشگاه تهران

 

 

 

تحصیلات :

دانشگاه  غیرانتفاعی علم و فرهنگ                                                   1386-1391

§        مقطع : کارشناسی کامپیوتر نرم افزار

§        معدل : 16:30

دانشگاه بوعلی سینا همدان

§        مقطع : کارشناسی ارشد هوش مصنوعی                                  شروع 1392 

§        معدل : 17:10

 

سوابق کاری :

§        نصب و پشتیبانی شبکه های همایش اجلاس سران کشور 1391(اجرایی گروه IT)

§        طراحی سایت با استفاده از زبان برنامه نویسی PHP در شرکت "ایده اندیش مبین" (دوره کارآموزی)

§        اسمبل کردن و نصب نرم افزار کیس های شرکت تجهیزات پزشکی "ایده آل سیستم پارس"

§        توسعه دهنده نرم افزار با استفاده از زبان برنامه نویسی JAVA در شرکت زرین

 

فعالیت های مورد علاقه:

§        تحلیل و طراحی و توسعه ی نرم افزار

§        پژوهش در زمینه های بهینه سازی و کاربردی

§        تحقیق و پیاده سازی Text minning و Data minning

 

 

 

فهرست پروژهای نرم افزار دوره کارشناسی:

زمان

توضیحات

زبان و تکنولوژی

عنوان پروژه

ردیف

پائیز 1387

Fundamentals of Programming

Turbo C

بازی گرافیکی

1

پائیز 1388

Object Oriented

Microsoft Visual Studio 2010

سیستم کتابخاته

2

پائیز 1388

OO Analysis & Design

C++

سیستم انبار سوپر مارکت

3

بهار 1389

پایگاه داده

Microsoft SQL 2005

تحلیل و طراحی سیستم پایگاه داده دانشگاه

4

بهار 1389

UML

Rational Rose

تحلیل و طراحی پایگاه داده شرکت بیمه

5

 تابستان 1390

راه اندازی سایت و پشتیبانی

PHP -Dreamweaver

طراحی سایت و ادمین سایت

6

تابستان 1392

پروژه کاری

javaSE NetBeans

Search Engine

 

بهار 1392

پروژه تعریفی جاوا

Java - Eclipse

PhoneBook

7

بهار 1391

پروژه کارشناسی

Python-Django

طراحی سایت مدیریت پروژه های شرکت

7