مهنوش زندی
مهنوش زندی
پایاننامه برای دریافت درجه کارشناسی ارشد در رشته مهندسی کامپیوتر گرایش هوش مصنوعی
عنوان:
رتبهبندی صفحات وب در جستجوی مفهومی به کمک روابط ساختاری و معنایی بین مفاهیم
استاد راهنما:
دکتر محرم منصوری زاده
اساتید مشاور:
دکتر میرحسین دزفولیان
دکتر آزاده شاکری
اساتید داور :
دکتر حسن ختن لو
دکتر مهدی سخایی نیا
نگارش:
مهنوش زندی
خرداد 1395
چكيده: هدف از این پژوهش، رتبهبندی صفحات وب با استفاده از اطلاعات مفهومی و معنایی بین مفاهیم میباشد. یکی از روشهای موثر و متداول رتبهبندی، مدل فضای برداری است. درمدل فضای برداری، اسناد به شکل بردارهایی هستند که هر مولفه آن، وزن مربوط به واژه خاصی است. در این مدل، واژگان با استفاده از روشهایی وزندهی میشوند. در صورت وجود واژه در سند متناسب با روش در نظر گرفته شده، وزندهی شده و در صورت عدم وجود واژه در سند، وزن صفر میگیرند. درصورتی که میدانیم واژگان میتوانند تعدادی معادل معنایی داشته باشند که با مدل فضای برداری، آنها در نظر گرفته نمیشوند . جهت رفع چنین نقطه ضعفی، تاکنون روشهای جستجوی معنایی متعددی ارائه شدهاند. یکی از این روشهای متداول، گسترش پرسوجو یا اضافه نمودن واژگان دارای معنی مشترک با آن واژه به پرسوجو است. این واژگان بایستی با دقت به معنا و مفهوم خود در متن زمینه آن واژه انتخاب شوند؛ در غیر اینصورت تنها اثر آن منحرف ساختن بردار پرسوجو از بردار پرسوجوی بهینه است. |
الگوریتم Rocchio با استفاده از k سند اول مرحله اول رتبهبندی، سعی در بهبود دقت سیستم با استفاده از روش گسترش پرسوجو در مرحله دوم بازیابی دارد. روش پیشنهادی با استفاده از همین الگوریتم، بوسیله انتخاب آگاهانهتر و دقیقتر واژگانی که قصد اضافه شدن به پرسوجو را دارند، به بهبود دقت سیستم بازیابی اطلاعات کمک میکند. برای اینکار با استفاده از توابع سنجش میزان نزدیکی دو واژه و بررسی روابط معنایی بین دو واژه به کمک ابزارهای محاسبه شباهت معنایی Wordnet-Similarity و وردنت و اعمال یکسری محدودیتها، سعی در گزینش واژگان مناسبتر داریم. پس از انتخاب واژگان محتملتر، مساله دیگر وزندهی آنهاست. اینکار بوسیله مدل Generative Mixture Model با پارامترهای ثابت، انجام شد. از آنجاییکه روشهای معنایی جهت افزایش دقت سیستم ایجاد شدند، از معیار MAP جهت ارزیابی نتایج استفاده شده است. نتایج، افزایش دو درصدی دقت سیستم را نسبت به روش پایه بازخورد شبه-مرتبط نشان میدهد.
واژههای کلیدی: رتبه بندی، روابط مفهومی، روابط معنایی، مدل فضای برداری، گسترش پرسوجو، پرسوجو، شباهت معنایی، متن زمینه بازیابی اطلاعات، بازخورد شبه-مرتبط.
Abstract: This thesis is about ranking the web pages using conceptual and semantic data among concepts. In vector space model, documents are vectors in which each element is weight of a word. In this model, the words are weighted using some weighting methods. In case of being a special word in the document, it will be weighted corresponding to the considered method, or else its weight will be zero. However, we know words can have some Synset words that this model doesn’t consider them. In order to avoiding this problem, so far different methods have been proposed. One of the popular methods is query expansion with adding similar sense words to query words. These words must be chosen according to their senses and concepts in their contexts. If not, query vector may deviate the optimal query vector. |
Rocchio’s algorithm tries to use k numbers of retrieved documents in the first retrieval phase to improve system precision using query expansion in the second retrieval phase. The proposed method performs this process by choosing more accurate words. The words choose using proximity term function and semantic relations between words with Wordnet-Similarity toolkit plus applying some restrictions on the value of semantic similarity. After choosing the words, weighting was done using Generative Mixture model with constant parameter. To this end, the MAP measure has been used for evaluating the semantic methods. Therefore, we use this measure for evaluation. Results show two percent improvement in precision compared to the Pseudo Relevance Feedback baseline method.
Key Words: Ranking, concept relation, semantic relation, vector space model, query expansion, query, semantic similar, context, information retrieval system, Pseudo relevance feedback.
مهنوش زندی
ایران – تهران
Meh.zandi@gmail.com
09354334772
هدف :
استخدام در زمینه ی توسعه نرم افزار
استخدام جهت تحقیق و پیاده سازی در زمینه های هوش مصنوعی
استخدام در زمینه امنیت اطلاعات
مهارت های فنی:
§ آشنایی با زبان های ,JavaScript, JQuery , Pascal , QBasic ,Delphi, C#
§ تسلط بر C , C++ , UML , PHPوMYSQL ,Matlab, SQL ,Pythonو JavaSE
, آشنایی و کار با JavaEE (JSP , Servlet , Hibernate,Tomcat)
§ کار با IReport(Jasper Report)
نرم افزارها و تکنولوژی ها :
· Database: MYSQL
· Platform : MS-DOS, Windows NT, 2000, XP,Vista, Seven(7),Linux (Ubuntu,Kubuntu), MacOSX(Basic)
· Methodologies: RUP ,Object Oriented Analysis & Design
· Framework: , Turbo C , Microsoft Visual Studio ,Rational Rose ,Dream Weaver Microsoft SQL ,Eclipse 1.6.0 , Django(For Python), Intellij, NetBeans, Matlab, MSQL Workbench5.5
پروژه کارشناسی:
§ طراحی سایتی جهت مدیریت پروژه های شرکت
ابزار: Django Framework
§ تبدیل FireFox CSS به Internet Explorer CSS
ابزار : DreamWeaver
پروژه های کارشناسی ارشد :
§ پروژه پایانی : رتبه بندی صفحات وب در جستجوی مفهومی به کمک روابط ساختاری و معنایی بین مفاهیم
کار با وردنت و زبان برنامه نویسی Java و ابزار بازیابی متن Lemur4.12 تحت linux با WordnetSQL (با پایگاه داده MySql)
§ پروژه های درسی :
1. پروژه درس پردازش زبانهای طبیعی : Word Sense Disambiguation
کار با WordNet با زبان برنامه نویسی Java
2. پروژه درس پردازش تصاویر دیجیتال و شبکه عصبی: Face Recognition
زبان برنامه نویسی Matlab
3. پروژه درس بازیابی اطلاعات (دانشگاه تهران) : یادگیری رتبه بندی
زبان برنامه نویسی C++ با ابزار Lemur 4.12
دوره های تخصصی :
§ دوره رمز نگاری در دانشگاه خواجه نصیر به همراه مدرک معتبر بین المللی
§ دوره آموزش پیشرفته برنامه نویسی جاوا در لایتک شریف
§ یادگیری زبان انگلیس در آموزشگاه زبانسرا
§ پادگیری درس بازیابی اطلاعات در دانشگاه تهران
تحصیلات :
دانشگاه غیرانتفاعی علم و فرهنگ 1386-1391
§ مقطع : کارشناسی کامپیوتر نرم افزار
§ معدل : 16:30
دانشگاه بوعلی سینا همدان
§ مقطع : کارشناسی ارشد – هوش مصنوعی شروع 1392
§ معدل : 17:10
سوابق کاری :
§ نصب و پشتیبانی شبکه های همایش اجلاس سران کشور 1391(اجرایی گروه IT)
§ طراحی سایت با استفاده از زبان برنامه نویسی PHP در شرکت "ایده اندیش مبین" (دوره کارآموزی)
§ اسمبل کردن و نصب نرم افزار کیس های شرکت تجهیزات پزشکی "ایده آل سیستم پارس"
§ توسعه دهنده نرم افزار با استفاده از زبان برنامه نویسی JAVA در شرکت زرین
فعالیت های مورد علاقه:
§ تحلیل و طراحی و توسعه ی نرم افزار
§ پژوهش در زمینه های بهینه سازی و کاربردی
§ تحقیق و پیاده سازی Text minning و Data minning
فهرست پروژهای نرم افزار دوره کارشناسی:
زمان | توضیحات | زبان و تکنولوژی | عنوان پروژه | ردیف |
پائیز 1387 | Fundamentals of Programming | Turbo C | بازی گرافیکی | 1 |
پائیز 1388 | Object Oriented | Microsoft Visual Studio 2010 | سیستم کتابخاته | 2 |
پائیز 1388 | OO Analysis & Design | C++ | سیستم انبار سوپر مارکت | 3 |
بهار 1389 | پایگاه داده | Microsoft SQL 2005 | تحلیل و طراحی سیستم پایگاه داده دانشگاه | 4 |
بهار 1389 | UML | Rational Rose | تحلیل و طراحی پایگاه داده شرکت بیمه | 5 |
تابستان 1390 | راه اندازی سایت و پشتیبانی | PHP -Dreamweaver | طراحی سایت و ادمین سایت | 6 |
تابستان 1392 | پروژه کاری | javaSE NetBeans | Search Engine |
|
بهار 1392 | پروژه تعریفی جاوا | Java - Eclipse | PhoneBook | 7 |
بهار 1391 | پروژه کارشناسی | Python-Django | طراحی سایت مدیریت پروژه های شرکت | 7 |