نمایه‌سازی توزیع‌شده‌ وب با استفاده از خزنده‌ مهاجر[1]

تعداد بازدید : 180

3/8/2023

نمایه‌سازی توزیع‌شده‌ وب با استفاده از خزنده‌ مهاجر[1]

پاپاپترو، پاپاستاورو وساماراس
مترجم: رستم مظفری‌غربا
کارشناسی ارشد علوم کتابداری و اطلاع‌رسانی

چکیده

به علت سرعت بسیار زیاد در افزایش منابع وب و بسامد بالای تغییرات، نگهداری یک نمایه‌ روزآمد برای مقاصد جستجوگری (موتورهای کاوش) به یک چالش تبدیل می‌شود. روش‌های سنتی خزنده‌ها، دیگر این قابلیت را ندارند که با روزآمد شدن و رشد دائمی وب، همگام شوند. با درک این مسئله، در این مقاله ما یک روش جایگزین، یعنی روش خزنده‌ توزیع‌شده با استفاده از عامل‌های سیار[2] را پیشنهاد می‌کنیم. هدف ما ارائه‌ یک شیوه‌ خزش مقیاس‌پذیراست که میزان بهره‌گیری از شبکه را کم کند، با تغییرات منابع هماهنگ باشد، درک زمانی را به کار گیرد، و به سهولت قابل ارتقا باشد
‌کلیدواژه‌ها: خزنده‌ مهاجر (وب)، موتور کاوش، عامل متحرک‌ (وب)، خزش وب، نمایه‌سازی توزیع‌شده، روزآمدسازی، یوسیمیکرا‌ (سیستم خزنده وب)

1. مقدمه
در نتیجه‌ ماهیت پویا و رشدیابنده‌ وب، نمایه‌سازی آن به یک چالش تبدیل شده است. منابع وبی که به صورت مستقیم در دسترس هستند (و از آن با عنوان وب سطحی[3] یاد شده)، بیش‌تر از 5/2 میلیارد مدرک است، در حالی که منابع وب غیرمستقیم[4] (اسنادی که به نحو پویا تولید می‌شوند) در حدود سه برابر این مقدار تخمین زده شده است (Lyman| et al.| 2003). بعلاوه، حدود 40 درصد از محتویات وب هر ماه دچار تغییر می‌شود (Kahle| 1996)، در حالی که هیچ موتور کاوشی تاکنون نتوانسته بیش از 16 درصد از این مقدار تخمین زده شده‌ وب را زیرپوشش قرار دهد (Lawrence| & Giles| 1999).
خزیدن در وب (یا خزیدن سنتی) از سال 1993، اقدام غالب در نمایه‌سازی وب توسط موتورهای کاوش معروف و سازمان‌های تحقیقاتی بوده است، اما با وجود منابع وسیع رایانشی و شبکه‌ای که به درون وب ریخته می‌شوند، خزیدن سنتی نمی‌تواند به طور مؤثر با پویایی وب، همگام گردد. به بیان دقیق‌تر، مدل خزیدن سنتی به دلایل زیر موفق نیست:
1. پردازش داده‌های حاصل از خزیدن، باعث تنگنای شدید پردازش در سایت موتور کاوش می‌شود.
2. تلاش برای ضبط کردن هزاران سند در ثانیه باعث ایجاد تنگنا در شبکه[5] می‌شود.
3. اسناد معمولاً بدون فشرده‌سازی، توسط خزنده ضبط می‌شوند و این امر باعث بروز تنگنا در شبکه می‌شود. عموماً فشرده‌سازی چندان آسان نمی‌باشد، زیرا مستقل از کار خزیدن است و نمی‌توان الزاماً به وسیله‌ خزنده به آن اقدام کرد. به علاوه، خزنده‌ها همه‌ محتویات یک سند- شامل اطلاعات غیرمفیدی از قبیل توضیحات کد و برنامه- را که به‌ندرت در نمایه‌سازی اسناد، لازم می‌آیند نیز ضبط می‌‌کنند.
به دلیل نبود روش خزیدن مقیاس‌پذیر، در چند سال اخیر تحقیقات مهمی انجام شده است. خزیدن متمرکز[6] (Chakrabarti et al. |1999) به عنوان یک روش جایگزین پیشنهاد شد، اما هیچ نوآوری در معماری را موجب نشد، زیرا بر اساس همان کارکردهای تمرکز گرایانه‌ خزیدن سنتی بنا شده بود. به‌عنوان نخستین تلاش برای ایجاد ماهیت تمرکزگرایانه‌ خزیدن سنتی، چند روش توزیع‌شده پیشنهاد شده‌اند (مانند «هاروِِِِِِِِِِِِسِت» (Bowman| et al.| 1994) و «گراب» (Kordless| Lajesus| & Ozra| 2001).
در این مقاله، ما «یوسی میکرا»[7] را معرفی می‌کنیم؛ سیستم خزنده‌ای که از مفاهیمی همانند آنچه در خزیدن موبایل توزیع‌شده (که در (Fiedler & Hammer| 1999| 2000) معرفی شده) یافت می‌شود استفاده می‌کند. «یوسی میکرا» این مفاهیم را توسعه می‌دهد و مفاهیم جدیدی را معرفی می‌کند تا مدل مؤثرتری برای خزیدن توزیع‌شده در وب بسازد که قادر باشد بی‌درنگ خود را با تغییرات منابع وب، هماهنگ کند.
«یوسی‌میکرا» با به‌کارگیری فناوری «عامل‌های سیار» یک راهبرد خزیدن کاملاً توزیع‌شده را پیشنهاد می‌کند. اهداف این پیشنهاد عبارت‌اند از:
الف) به حداقل رساندن مقدار به کارگیری شبکه؛
ب) هماهنگ‌شدن با تغییرات منابع، با اجرای نظارت درون- سایتی؛
ج) اجتناب از اضافه‌بار غیرضروری سرورهای وب با به‌کارگیری تحقق هم‌زمـانی[8]؛
د) قابلیت ارتقا در زمان اجرا.

2. سیستم خزنده‌ «یوسی میکرا»
نیروی محرک «یوسی‌میکرا» استفاده از عامل‌های سیاری است که از موتور کاوش به سرور‌های وب مهاجرت می‌کنند و برای خزش، پردازش، و نظارت بر منابع وب برای روز‌آمد‌سازی، در آنجا باقی می‌مانند. از آنجا که«یوسی‌میکرا» در سرور وبی که باید مورد خزش قرار بگیرد نیازمند به اجرا درآمدن نوع خاصی از کارپایه‌ عامل‌های سیار می‌باشد، در حال حاضر در محیط دانشگاهی داوطلب که در سطح چند قاره گسترده شده‌اند [به صورت آزمایشی] در حال اجرا می‌باشد.
«یوسی‌میکرا» (شکل1) از سه زیر‌سیستم تشکیل می‌شود: الف) زیرسیستم «هماهنـگ کننـده»[9]؛ ب) زیر‌سیـستم «عامـل‌های سیار»[10] ؛ ج) یک «موتور کاوش همگانی» که پرسش‌های کاربر را در پایگاه اطلاعاتی که توسط زیر‌سیستم هماهنگ‌کننده نگهداری می‌شود، جستجو می‌کند.
زیرسیستم هماهنگ‌کننده در سایت «موتور کاوش» قرار دارد و مسئولیت‌های آن عبارت‌اند از: الف) نگهداری پایگاه اطلاعاتی جستجو، ب) ارائه‌ ثبت‌نام برخط[11] برای وب‌سایت‌های جدیدی که می‌خواهند در «یوسی‌میکرا» مشارکت کنند، ج) اجرای «زیر‌سیستم عامل‌های سیار». «زیرسیستم عامل‌های سیار» مسئول خزیدن در وب می‌باشد و از دو گونه از این عامل‌ها، یعنی «خزنده‌های مهاجر» (یا خزنده‌های سیار[12]) و «حامل‌های داده‌ها» تشکیل می‌شود. شکل 2 «یوسی‌میکرا» را در حین کار نشان می‌دهد.
همان گونه که در بالا ذکر شد، هسته‌ سیستم خزنده‌ «یوسی‌میکرا»، «خزنده‌های مهاجر مبتنی بر جاوا» هستند. خزنده‌های مهاجر بر پایه قابلیت ماهوی سیار خود توانایی انجام کارهای زیر را دارند.

1. گسیل‌شدن: به سوی سرورهای وب جدیدی که می‌خواهند در «یوسی‌میکرا» مشارکت کنند؛
2. خزیدن: یک خزنده‌ مهاجر می‌تواند (چه از طریق «اچ‌تی‌تی‌پی» یا سیستم فایلی) یک خزش محلی کامل انجام دهد؛
3. پردازش: مدارکی که مورد خزش قرار گرفته‌اند به کلید‌واژه‌هایی تقلیل داده می‌شوند و این کلیدواژه‌ها بر اساس ویژگی‌های بصری (فونت و رنگ)، موقعیت و فراوانی تکرار، و به منظور ایجاد یک نمایه‌ کلیدواژه‌ای در محل از محتویات سرور وب، رتبه‌بندی می‌شوند؛
4. فشرده‌سازی: نمایه‌ محتویات سرور وب، در محل فشرده می‌شوند تا زمان انتقال بین خزنده‌ مهاجر و زیرسیستم هماهنگ‌کننده به حداقل برسد؛
5. انتقال داده‌ها: نمایه‌ فشرده‌شده، توسط حامل‌های داده‌ها به زیر سیستم هماهنگ‌کننده منتقل می‌شود. در آنجا، [نمایه‌ فشرده‌شده] مجدداً به حالت اولیه برگردانده می‌شود و در پایگاه اطلاعاتی جستجو، ادغام می‌گردد. دلیل استفاده از عامل‌های سیار برای انتقال داده‌ها بر روی دیگر رابطهای برنامه نویسی کاربردی[13] شبکه‌ (مانند RMI| COBRA Sockets [14]) کاربرد ناهمزمانی، انعطاف‌پذیری و هوشمندی آن‌ها به منظور اطمینان از انتقال مستمر داده‌ها می‌باشد.
6. نظارت: خزنده‌ مهاجر می‌تواند تغییرات به وقوع پیوسته در محتویات سرور وب را تشخیص دهد. تغییرات تشخیص داده‌شده بلافاصله پردازش، فشرده‌سازی، و به زیر‌سیستم هماهنگ‌کننده منتقل می‌شوند.
7. ارتقا‌های بی‌درنگ: کدهای جدید مربوط به انجام هر یک از کارهای مذکور در بالا به آسانی قابل استفاده است، زیرا معماری خزش در «یوسی‌میکرا» بر پایه‌ جاوا می‌باشد.

3. ارزیابی «یوسی میکرا»
به مقایسه‌ عملکرد سیستم خزنده‌ «یوسی‌میکرا» با خزیدن سنتی در خصوص الف) حجم داده‌های انتقال داده‌شده در اینترنت، ب) کل زمان لازم برای انجام فرآیند خزیدن در یک سری از مدارک می‌پردازیم. در آغاز کار، فقط این دو متریک ساده ]یعنی حجم و زمان[ را مورد مطالعه قرار می‌دهیم و با پارامترهایی مانند بسامد تغییرات مدارک، آزمایش نمی‌کنیم. از آنجا که این امکان وجود نداشت که سرورهای تجاری وب را در آزمایش‌های خود داخل کنیم، یک مجموعه‌ ده‌تایی از سرورهای دانشگاهی وب را که در چندین قاره پراکنده بودند در محیط توزیع‌شده‌ داوطلبانه‌ دانشگاهی خود به خدمت گرفته‌ایم. هرسرور وبی، میزبان حدود 200 مدرک با میانگین حجم 25 کیلو بایت بود. اعداد قبلی بیانگر این بود که2/46 مگابایت از داده‌ها باید به وسیله‌ خزیدن سنتی وشیوه‌ «یوسی‌میکرا» پردازش شوند. به دلیل محدودیت فضا، یافته‌های خود در خصوص حجم داده‌های انتقال داده شده را ارائه می‌کنیم (یافته‌های ما در مورد زمان مورد نیاز، ]به این یافته‌ها[ شبیه هستند).

جدول1. نتایج عملکرد

Data moved	methodology
46.9Mb	Traditional crawling
48.1Mb	UCYMicra- no processing\| no compression
13.3Mb	UCYMicra- w/processing\| no compression
8.1Mb	UCYMicra- no processing\| w/compression
2.6Mb	UCYMicra- (w/processing and compression)

نتایج عملکرد (جدول1) نشان می‌دهند که «یوسی‌میکرا» (ردیف 5) با تولید تقریباً 20 برابر داده‌های کمتر، عملکرد بهتری نسبت به خزیدن سنتی (ردیف1) دارد. دلیل این امر آن است که خزنده‌های مهاجر، منابع وب را به صورت محلی در سرور وب، پردازش و فشرده می‌کنند. به این ترتیب، فقط نمایه‌ رتبه‌بندی‌شده‌ کلیدواژه‌های فشرده‌شده‌ از محتویات سرور وب، به زیرسیستم هماهنگ‌کننده انتقال داده می‌شود. در شیوه‌ خزیدن سنتی، باید کل محتویات یک سرور وب برای پردازش متمرکز به وسیله‌ خزنده، ضبط شوند. بعلاوه، خزنده‌ سنتی ممکن است نیازمند فشرده‌سازی محتویات یک سرور وب به منظور ضبط آن‌ها باشد، ولی نتواند آن سرور را وادار به این کار کند.
برای بدست آوردن تفسیر بهتری از نتایج عملکرد خود، سه آزمایش دیگر، این بار با تغییر شیوه‌ «یوسی‌میکرا» به منظور انجام دادن (یا انجام ندادن) پردازش و فشرده‌سازی به صورت محلی انجام دادیم. نتایج ما نشان داد که چه با پردازش و چه با فشرده‌سازی، یافته‌های عملکردی باز هم تا حدودی مصداق دارند. اما بدون فعال کردن گزینه‌ پردازش یا فشرده‌سازی، نتایج به دست آمده از میان می‌روند، زیرا «یوسی‌میکرا» با شیوه‌ خزیدن سنتی رقابت می‌کند.

4. کار جاری
کاری که ما در حال حاضر روی آن تمرکز داریم، توسعه‌ «یوسی میکرا» برای پشتیبانی از یک سازوکار خزیدن دوگانه می‌باشد که فناوری‌هایی را، هم از سیستم خزیدن سنتی و هم از سیستم خزیدن کاملاً توزیع‌شده، وام گرفته است. این سیستم خزیدن دوگانه از یک ساختار مدیریت سلسله‌مراتبی پشتیبانی خواهد کرد که شبکه را به صورت محلی در نظر می‌گیرد. الگوریتم‌های کارآمد برای احاله‌ کار، اداره، و تلفیق نتایج کار هم اکنون در حال انجام هستند.

5. منابع

پی‌نوشت‌ها

[1]. Odysseas Papapetrou| Stavros Papastavavrou| and George Samaras (2003). Distributed indexing of the web using migrating crawlers. In Proceedings of the Twelfth International World Wide Web Conference (WWW). Retrived at http://softsys.cs.uoi.gr/dbg (obe/publications/ p304-papapetrou.pdf
[2]. mobile agents
[3]. Surface Web
[4]. indirect Web
[5] . Domian Name System (DNS)
[6]. Focused Crawling
[7]. Ucymicra
[8]. employing time realization
[9]. the Coordinator subsystem
[10]. the Mobile agents subsystem
[11]. Online
[12]. Migrating Crawler
[13]. Application Programing Interface (API)
[14]. Remote Method Invocation

تجمیع شناسنامه کامپیوتر جمع آوری خودکار فروش کاشی مساجد ایجاد شناسنامه تجهیزات کاشی مسجدی هلپ دسک سازمانی هلپ دسک IT Help Desk کاشی سنتی ایرانی مدیریت تجهیزات IT مدیریت تجهیزات آی تی کارتابل درخواست ها کارتابل درخواست های IT جمع آوری خودکار نرم افزارها جمع آوری سیستم های شرکت جمع آوری سیستم های سازمان تجمیع اطلاعات تجمیع اطلاعات IT تجمیع کامپیوترها مدیریت IT سیستم جمع آوری شناسنامه کامپیوتر سیستم مدیریت کلان IT سیستم مدیریت فنآوری اطلاعات ابزار مدیران IT ابزار مدیران فنآوری اطلاعات سامانه تجمیع خودکار شناسنامه جمع آوری سیستم کامپیوتر

آخرین اخبار

مطالعه موردی پیاده سازی برنامه بهبود کیفیت در معاونت پشتیبانی دانشگاه علوم پزشکی و خدمات بهداشتی درمانی تهران

جایگاه و نقش عامل « کیفیت و پاسخگویی به شهروندان » در مدل اقتضایی« حرکت سرامد »

تعیین میزان یادگیرنده بودن وزارت بهداشت، درمان و آموزش پزشکی از دیدگاه مدیران ارشد و میانی ستاد مرکزی- 1383

سیستم آموزشگر هوشمند مبتنی بر هستان شناسی

تاثیر اعتقاد وپشتیبانی مدیران برپایداری سیستم مدیریت تضمین کیفیت

تبصره 35 و عوامل مؤثر بر حرکتهای بهره وری در سازمانها