°Ë»ö¿£Áø¿¡´Â.. À½
¾ßÈÄ
¿¥ÆÄ½º
¶óÀÌÄÚ½º
³×À̹ö
´ÙÀ½
½É¸¶´Ï
À½À½.. ¿©±â±îÁö Á¤µµ¸¸ ¾Ë¾ÆµÎ½Ã¸é µÇ±¸¿ä.
.
Ư¡Àº
¾ßÈÄ : ¿ì¸®³ª¶ó »ç¶÷µéÀÌ °¡Àå ¸¹ÀÌ ÀÌ¿ëÇÏ´Â °Ë»ö»çÀÌÆ®.
°Ë»öÀÌ Ã¼°èÀûÀ¸·Î Àß µÇ¾î ÀÖ´Ù
¿¥ÆÄ½º : ÀÚ¿¬¾î °Ë»öÀÌ °¡´ÉÇÑ »çÀÌÆ®. °Ë»ö·ü top 1¿¡ ¿Ã¶ú´Ù.
¶óÀÌÄÚ½º : ¿ì¸®³ª¶ó 5À§ ¾È¿¡ µå´Â °Ë»ö¿£Áø.
°Ë»öº¸´Ù´Â Ä¿¹Â´ÏƼ¿¡ ÁßÁ¡À» ÁÖ¾ú´Ù.
³×À̹ö : ³Ø¼Ä¡¶ó´Â ¼¹ö¸¦ µÎ¾î ´õ Á¤È®ÇÑ °Ë»öÀ» Áö¿øÇÏ°Ô µÇ¾ú´Ù.
µðÀÚÀεµ ÁÁ°í, Ä¿¹Â´ÏƼµµ ´ëü·Î ÁÁ´Ù.
´ÙÀ½ : ÆÄÀ̾ À̶ó´Â °Ë»ö¿£ÁøÀ» °®°í ÀÖ´Â °÷ÀÌ´Ù.
°Ë»öÀÇ ¾çÀº ¸¹Áö ¾ÊÁö¸¸, ÇѸÞÀÏ·Î À¯¸íÇØÁø °÷ÀÌ´Ù.
·Îº¿ ¿¡ÀÌÀüÆ®¿Í ±× Ȱ¿ë
¿¡ÀÌÀüÆ®¶õ 1ºÎ¿¡¼ ¼³¸íµÈ ¹Ù¿Í °°ÀÌ »ç¶÷ÀÌ ÇÒ ÀÛ¾÷À» ´ë½ÅÇÏ¿© ÁÖ´Â ¿ªÇÒÀ» ÇÑ´Ù. Á¦2ºÎ¿¡¼´Â ·Îº¿(robot), ½ºÆÄÀÌ´õ(spider), À¥ ¹ú·¹(Web Worm), Web crawlers(Âü°í : WebCrawler´Â ƯÁ¤ ·Îº¿ À̸§ÀÌ´Ù), WebAnts ¶ó°íµé ºÒ¸®´Â ÀÎÅÍ³×Æ® »óÀÇ ·Îº¿ ¿¡ÀÌÀüÆ®¿¡ ´ëÇÑ ¼³¸íÀ» ÇϰíÀÚ ÇÑ´Ù. ·Îº¿ ¿¡ÀÌÀüÆ®´Â ³×Æ®¿öÅ©ÀÇ ºÎÇÏÀ» ¿Ã¸°´Ù´Â Ãø¸é¿¡¼ ¹®Á¦°¡ ÀÖ±â´Â Çϳª ÇöÀç ÀÎÅÍ³×Æ® »óÀÇ °Ë»öÀ» À§Çؼ´Â Çʼö ºÒ°¡°áÇÑ ÇÁ·Î±×·¥À̰í, ÀÌ·Î ÀÎÇÏ¿© ¸¹Àº »ç¶÷µéÀÌ °Ë»ö ¿£ÁøÀ» »ç¿ëÇÏ¿© ¿øÇÏ´Â Á¤º¸¸¦ ½±°Ô ãÀ» ¼ö ÀÖ´Ù. ÇöÀç ±¹³»¿¡¼µµ ¾à 10¿©°³ÀÇ ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ÀÌ¿ëÇÑ °Ë»ö ¿£ÁøÀÌ ÀÌ¹Ì ¼ºñ½º¸¦ Çϰí ÀÖ°í, ¾ÕÀ¸·ÎÀÇ ¼ºñ½º¸¦ À§ÇÏ¿© ½ÃÇèÁß¿¡ ÀÖ´Ù. ÄÚ½ÃÅ©(Ãæ³²´ë), ±îÄ¡³×(´ë±¸´ë), ½É¸¶´Ï(Çѱ۰ú ÄÄÇ»ÅÍ), ÀÎÅÍ³Ý Á¤º¸ ŽÁ¤(Çѱ¹Åë½Å)Àº °¡Àå ¸¹ÀÌ »ç¿ëµÇ°í ÀÖ´Â °Ë»ö ¿£ÁøÀ̰í, ³Ýµð·ºÅ丮(¿¬±¸°³¹ß Á¤º¸¼¾ÅÍ), ¿ÍÄ«³ë(°è¸í´ë)´Â ÃÖ±Ù ¼Ò°³µÈ °Ë»ö ¿£ÁøÀ̸ç, 10¿ù 1ÀÏ¿¡´Â »ï¼º¿¡¼ "¸¶´ç¹ß" °Ë»ö ¿£ÁøÀ» ¼Ò°³ÇÒ ¿¹Á¤ÀÌ´Ù.
ÀÌ·¸°Ô ·Îº¿ ¿¡ÀÌÀüÆ®°¡ ¸¹Àº Ȱµ¿À» Çϰí ÀÖÀ¸¸ç ÀÌ·Î ÀÎÇÏ¿© ¿ì¸®°¡ ¿øÇÏ´Â Á¤º¸¸¦ ã´Âµ¥ µµ¿òÀÌ µÇÁö¸¸, ¸¹Àº ¹®Á¦Á¡ÀÌ ÁöÀûµÇ±âµµ ÇÑ´Ù. Á¦2ºÎ "·Îº¿ ¿¡ÀÌÀüÆ®¿Í ±× Ȱ¿ë"¿¡¼´Â ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ ´Ù¾çÇÑ À̿뿡 ´ëÇÏ¿© »ìÆìº¸°í ÇöÀç "·Îº¿ ¹èÁ¦¿¡ ´ëÇÑ Ç¥ÁØ" - ½ÇÁ¦·Î Ç¥ÁØÀº ¾Æ´Ï´Ù - À» ¼Ò°³ÇÔÀ¸·Î½á ȨÆäÀÌÁö °ü¸®ÀÚ ¶Ç´Â À¥¼¹ö °ü¸®ÀÚµéÀÌ ÀÚÁÖ ¹æ¹®ÇÏ´Â ·Îº¿ ¿¡ÀÌÀüÆ®¿¡ ´ëÇÏ¿© ÀÚ½ÅÀÇ ¼¹ö¿Í ÀڷḦ º¸È£ÇÏ´Â ¹æ¹ý¿¡ ´ëÇÏ¿© ¼Ò°³ÇϰíÀÚ ÇÑ´Ù.
1. ·Îº¿ ¿¡ÀÌÀüÆ®¶õ ¹«¾ùÀΰ¡?
·Îº¿ ¿¡ÀÌÀüÆ® = ºê¶ó¿ìÀú
·Îº¿ ¿¡ÀÌÀüÆ®¶õ À¥À» ¼øÈ¸ÇÏ¸ç °¢ ȨÆäÀÌÁöµéÀÇ Á¤º¸¸¦ ¼öÁýÇÏ´Â ÇÁ·Î±×·¥ÀÌ´Ù. À¥¼¹ö¿¡ Á¢¼ÓÇÏ¿© µ¥ÀÌŸ(HTML ÈÀÏ)¸¦ °¡Á®¿À´Â(fetch)ÇÏ´Â ±â´ÉÀûÀÎ Ãø¸éÀ¸·Î¸¸ ºÁ¼´Â À¥ºê¶ó¿ìÀú¿Í °°Àº ±â´ÉÀ» ÇÏ´Â ¼ÀÀÌ´Ù. ´ÜÁö À¥ºê¶ó¿ìÀú´Â °¡Á®¿Â µ¥ÀÌŸ¸¦ ¿¹»Ú°Ô ȸ鿡 º¸¿©ÁÖ°í ȸ鿡 ÇÏÀÌÆÛ ¸µÅ©°¡ ÀÖ°í »ç¿ëÀÚ°¡ ¸µÅ©¸¦ Ŭ¸¯ÇÏ¸é ´ëÇ× È¨ÆäÀÌÁö°¡ ¶Ç º¸ÀÌ´Â ±â´ÉÀÌ ÀÖ´Â °ÍÀ̰í, ·Îº¿ ¿¡ÀÌÀüÆ®´Â ¿¹»Ú°Ô º¸¿©ÁÖ´Â ´ë½Å HTMLÀ» ºÐ¼®Çϰí URL ºÎºÐÀ» ÃßÃâÇÏ¿© ´Ù¸¥ URL·Î Á¢±ÙÇÏ°Ô ÇÏ´Â ±â´ÉÀÌ ÀÖÀ» »ÓÀÌ´Ù. ÀÚµ¿ÀûÀ¸·Î ȨÆäÀÌÁö¸¦ ã¾Æ´Ù´Ï¹Ç·Î ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ÀÌ¿ëÇÑ´Ù¸é »ç¶÷ÀÌ ÇÒ ¼ö ÀÖ´Â ÀÏÀÌÁö¸¸ ±ÍÂúÀº ´Ù¾çÇÑ ÀÏÀ» ÇÒ ¼ö ÀÖ´Ù.
°¡·É ¾î´À ȨÆäÀÌÁöÀÇ ³»¿ëÀÌ ³»°¡ ¿øÇÏ´Â ³»¿ëÀÌÁö¸¸ ¸µÅ© µÇ¾î ÀÖ´Â ¹®¼°¡ ±²ÀåÈ÷ ¸¹°í HTML ¾È¿¡ ¼ö¸¹Àº ±×¸²µéÀÌ ÀÖÀ» ¶§ °ú¿¬ ¸ð´ÏÅÍ ¾Õ¿¡ ¾É¾Æ Çϳª¾¿ ÀúÀåÇÏ´Â °úÁ¤ÀÌ ÇÊ¿äÇÑ °ÍÀΰ¡??? ¶Ç´Â ȨÆäÀÌÁöÀÇ °ü¸®ÀÚ°¡ ÀÚ½ÅÀÌ °ü¸®Çϴ ȨÆäÀÌÁö¸¦ Çϳª¾¿ Á¢¼ÓÇØ º¸¸é¼ À߸øµÈ URLÀÌ ÀÖÀ¸¸é ã¾Æ°¡¼ ÀÏÀÏÀÌ °íÄ¥ °ÍÀΰ¡???
·Îº¿ ¿¡ÀÌÀüÆ®´Â ÀÌ¿Í °°ÀÌ À¥ÆäÀÌÁö¸¦ µ¹¾Æ´Ù´Ï¸é¼ ÇÒ ¼ö ÀÖ´Â ´Ù¾çÇÑ ÀϵéÀ» ÀÚµ¿ÀûÀ¸·Î ÇØ Áִµ¥ Àǹ̰¡ ÀÖ´Ù. ÇöÀç ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ÀÌ¿ëÇÑ °Ë»ö¿£Áøµµ ¸¶Âù°¡Áö·Î »ç¶÷ÀÌ ÀÏÀÏÀÌ Ã£¾Æ ´Ù´Ï¸é¼ °Ë»öÀ» À§ÇÑ À妽º¸¦ ¸¸µå´Â °ÍÀÌ ¾Æ´Ï¶ó ·Îº¿ ¿¡ÀÌÀüÆ®°¡ ÀÚµ¿ÀûÀ¸·Î µ¹¾Æ´Ù´Ï¸é¼ ¿øÇÏ´Â Á¤º¸¸¦ ¼öÁýÇÏ´Â °ÍÀÌ´Ù.
2. ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ ¿ëµµ
ÇöÀç ·Îº¿ ¿¡ÀÌÀüÆ®·Î ÇÒ ¼ö ÀÖ´Â ÀϵéÀº ´ÙÀ½°ú °°Àº °ÍÀÌ ÀÖ´Ù.
¢¹ Åë°è ºÐ¼®(Statistical Analysis)
¢¹ À¯Áö º¸¼ö(Maintenance)
¢¹ ¹Ì·¯¸µ(Mirroring)
¢¹ ¸®¼Ò½º ¹ß°ß(Resource discovery)
¢¹ º¹ÇÕÀûÀÎ »ç¿ë(Combined Uses)
2. 1 Åë°è ºÐ¼®(Statistical Analysis)
·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ ÃÖÃÊÀÇ »ç¿ë ¸ñÀûÀº Àü¼¼°è¿¡ À¥¼¹ö°¡ ¸î°³³ª ÀÖ´ÂÁö ¾Ë¾Æº¸±â À§ÇÔÀ̾ú´Ù.À¥ÀÌ ¼Ò°³µÈ ¸¹Àº À¥¼¹öµéÀÌ »ý°Ü³ª±â ½ÃÀÛÇÏ¿´°í, ¾î´ÀÁ¤µµ Ȱ¼ºÈµÈ 1993³â¿¡ MITÀÇ Mattew Gray(
mkgray@mit.edu,
http://www.mit.edu:8001/people/mkgray/mkgray.html)´Â "World-Wide Web Wanderer" ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ÀÌ¿ëÇÏ¿© °ú¿¬ Àü¼¼°è¿¡ ¸î °³ÀÇ À¥¼¹ö°¡ ÀÖ´ÂÁö ¾Ë¾Æº¸±â ½ÃÀÛÇÏ¿´´Ù.
Month
# of Web sites
% .com sites
Hosts* per Web Server
6/93
130
1.5
13,000(3,846)
12/93
623
4.6
3,472(693)
6/94
2,738
13.5
1,095 (255)
12/94
10,022
18.3
451 (99)
6/95
23,500
31.3
270 (46)
1/96
100,000
50.0
94 (17)
6/96
230,000 (est)
NA
41
Ç¥1. Matthew GrayÀÇ Result of Summary
http://www.mit.edu/people/mkgray/net/web-growth-summary.htmlMatthew Gray »Ó¸¸ ¾Æ´Ï¶ó ¿ö½ÌÅÏ ´ëÇÐÀÇ Brian Pinkertonµµ À¥¼¹öÀÇ ¼ö¸¦ Á¶»ç ÇÏ¿´´Ù. 1994³â 5¿ù ÇöÀç ¾à 3800¿©°³ÀÇ À¥¼¹ö°¡ ÀÖ¾úÀ½À» ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ÅëÇÏ¿© ¾Ë ¼ö ÀÖ¾ú°í ÀÌÈÄ¿¡ Åë°è ºÐ¼®¿ë ÇÁ·Î±×·¥À» ¼Ä¡¿£Áø¿ë ·Îº¿ ¿¡ÀÌÀüÆ®·Î ¹Ù²Ù¾î ÇöÀç WebCrawler (
http://webcrawler.com/)¶ó´Â ¼Ä¡¿£ÁøÀ» ¿î¿µÁßÀÌ´Ù.
À¥¼¹öÀÇ ¼ö¸¸ °è»êÇÏ´Â ·Îº¿ ¿¡ÀÌÀüÆ® »Ó¸¸ ¾Æ´Ï¶ó ¾î¶² À¥¼¹ö¸¦ »ç¿ëÇÏ´ÂÁö Á¶»çÇÏ´Â ·Îº¿ ¿¡ÀÌÀüÆ®µµ ÀÖ´Ù. ±¹³»¿¡¼µµ Çѱ¹³»ÀÇ À¥¼¹ö°¡ ¾î¶² ¼¹ö ÇÁ·Î±×·¥À» »ç¿ëÇϰí ÀÖ´ÂÁö ¾Ë¾Æº¸´Â Á¶»ç¸¦ ½ÃÇàÇÏ¿´´Âµ¥ 1996³â 3¿ù 8ÀÏ ÇöÀç NCSA ¼¹ö°¡ °¡Àå ¸¹ÀÌ »ç¿ëµÇ´Â °ÍÀ¸·Î Á¶»ç µÇ¾ú´Ù. À̶§ »ç¿ëÇÑ ·Îº¿ ¿¡ÀÌÀüÆ®´Â libwww-perl/0.40À» ÀÌ¿ëÇÏ¿© ÀÛ¼º µÇ¾ú´Âµ¥ Á¶»ç¹æ¹ýÀ¸·Î´Â libwww-perlÀ» ÀÌ¿ëÇÏ¿© HEAD ¸Þ¼Òµå·Î ±¹³»ÀÇ WWW ¼¹ö¸¦ Á¢±ÙÇÏ¿© Çì´õ Á¤º¸¸¦ °¡Á®¿Í ºÐ¼®ÇÏ´Â ¹æ¹ýÀ¸·Î WWW ¼¹öÀÇ Á¾·ù¿Í ¹öÀüÀ» Áß½ÉÀ¸·Î Á¶»çÇÏ¿´´Ù.
ÀÌ·¸µí ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ÀÌ¿ëÇÏ¿© À¥¼¹öÀÇ ¹ß°ß, ¼¹öÀÇ ¼ö Ä«¿îÆ®, ¼¹ö´ç ¹®¼ÀÇ Æò±Õ¼ö, ÈÀÏ Å¸ÀÔÀÇ ºÐÆ÷µîÀÇ Åë°è Á¶»ç¸¦ ÇÒ ¼ö ÀÖ´Ù.
2.2 À¯Áö º¸¼ö(Maintenance)
À¥¼¹ö¸¦ ¿î¿µÇÏ´Ù º¸¸é À¥¼¹öÀÇ À¯Áö º¸¼ö¿© ¿©·¯°¡Áö ¾î·Á¿òÀÌ µû¸¥´Ù. À¥¼¹ö °ü¸®ÀÚ´Â °³°³ÀÎÀÌ °¡Áö°í ÀÖ´Â ÈÀÏ¿¡ ´ëÇÏ¿© ÀÏÀÏÀÌ ¾î¶² ºÎºÐÀÌ À߸ø µÇ¾úÀ¸¸ç ¾îµð¿¡ µ¥µå¸µÅ©(dead links)°¡ ¹ß»ýÇÏ¿´´ÂÁö ¾Ë ¼ö ¾ø´Ù. µ¥µå¸µÅ©¶õ ¿ø·¡ÀÇ URLÀÌ º¯°æµÇ°Å³ª ¾ø¾îÁ® ¹ö¸²À¸·Î½á ±âÁ¸ÀÇ »ç¿ëÀÚ°¡ ¾Ë°í ÀÖ´Â URL·Î½á Á¢±ÙÀÌ ºÒ°¡´ÉÇÑ °æ¿ì¸¦ ¸»ÇÑ´Ù. À̶§ À¯¿ëÈ÷ »ç¿ëÇÒ ¼ö Àִ°ÍÀÌ ·Îº¿ ¿¡ÀÌÀüÆ®ÀÌ´Ù. ½±°Ô ¾Ë ¼ö ÀÖ´Â À¯Áöº¸¼ö¿ë ·Îº¿ ¿¡ÀÌÀüÆ®´Â ¹Ù·Î ³Ý½ºÄÉÀÌÇÁ ºê¶ó¿ìÀú ¾È¿¡ ³»ÀåµÇ¾î ÀÖ´Ù. ³Ý½ºÄÉÀÌÇÁ ºê¶ó¿ìÀúÀÇ Bookmark¸¦ º¸¸é File->What's New ºÎºÐÀÌ ÀÖ´Ù. ÀÌ ¸Þ´ºÀÇ ±â´ÉÀº ÇöÀç ºÏ¸¶Å· µÇ¾î ÀÖ´Â URLÀ» ºê¶ó¿ìÀú°¡ Á¢±ÙÇÏ¿© º¯°æµÈ ºÎºÐÀÌ ÀÖ´ÂÁö check ÇØ ÁØ´Ù. ¸¸¾à URLÀÇ ³»¿ëÀÌ ºÏ¸¶Å· ÇÏ¿´´ø ½ÃÁ¡ ÀÌÈÄ¿¡ º¯°æµÇ¾ú´Ù¸é ºÏ¸¶Å© ³»ÀÇ URLÀÇ Å¸ÀÌÆ² ¼³¸í ¿·ÀÇ ¸¶Å©°¡ º¯°æµÈ´Ù.
URL-minder(
http://www.netmind.com/URL-minder/URL-minder.html)¿¡¼´Â ȨÆäÀÌÁö¸¦ µî·ÏÇØ ³õÀ¸¸é º¯°æ µÇ¾úÀ» ¶§ µî·ÏÇÑ »ç¿ëÀÚ¿¡°Ô º¯°æ µÇ¾ú´Ù´Â Å뺸¸¦ ÇØ ÁØ´Ù. ÀÌ ¿ª½Ã ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ÀÌ¿ëÇÏ¿© µî·ÏµÈ ȨÆäÀÌÁö¸¦ °Ë»çÇÏ¿© º¯°æ µÇ¾ú´Ù¸é - º¯°æµÈ °ÍÀ» ¾Ë ¼ö ÀÖ´Â ¹æ¹ýÀº ´Ù¾çÇÏ´Ù. Last-modified Çʵ带 ÂüÁ¶ÇÏ¿© ¾Ë ¼ö ÀÖÀ¸¸ç Last-modified¸¦ Áö¿øÇÏÁö ¾Ê´Â ¼¹ö´Â ȨÆäÀÌÁöÀÇ »çÀÌÁ ºñ±³ÇÏ¿© »çÀÌÁî°¡ ¿¹Àü¿¡ µî·ÏÇÑ °Í°ú Ʋ·ÁÁö¸é º¯°æµÇ¾ú´Ù°í »ý°¢ÇÑ´Ù. - ±× ȨÆäÀÌÁö¸¦ µî·ÏÇÑ »ç¿ëÀÚ¿¡°Ô º¯°æµÇ¾ú´Ù°í Å뺸ÇÑ´Ù.
¶Ç ÇϳªÀÇ À¯Áöº¸¼ö °ü·Ã ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ »ìÆìº¸ÀÚ. ³×µ¨¶õµåÀÇ Hans de Graaff°¡ °³¹ßÇÑ checkbotÀº ¼¹öÀÇ HTML ÈÀÏÀ» µû¶ó°¡¸é¼ °¢ ÆäÀÌÁöÀÇ ¹®Á¦Á¡À» ÁöÀûÇÏ´Â ÇÁ·Î±×·¥ÀÌ´Ù. checkbotÀ» ½ÇÇàÇϱâ À§Çؼ´Â perl 5.002 ¹öÀü ÀÌ»óÀÌ ÀÖ¾î¾ß Çϸç, LWP 5.01. (libwww-perl 5 module)ÀÌ ÀÖ¾î¾ß ½ÇÇà °¡´ÉÇÏ´Ù.
% ./checkbot -u
http://www.comeng.chungnam.ac.kr/ -m "comeng" -f comeng.html
À§ÀÇ ¿¹´Â checkbotÀ» ÀÌ¿ëÇÏ¿© Ãæ³²´ëÇб³ ÄÄÇ»ÅͰøÇаú ³»ÀÇ ¼¹öµé¿¡ ´ëÇÑ Ã¼Å©ÇÑ °á°úÀÌ´Ù. ±× °á°ú´Â
http://kclee.comeng.chungnam.ac.kr/~dolphin/LWP/checkbot/comeng.html¿¡¼ ã¾Æ º¼ ¼ö ÀÖ´Ù.
2.2 ¹Ì·¯¸µ(Mirroring)
·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ ¶Ç´Ù¸¥ ¿ëµµ´Â ´Ù¸¥ »ç¶÷ÀÇ È¨ÆäÀÌÁöÀÇ ³»¿ëÀ» º¹»çÇØ¿À´Â ¹Ì·¯¸µÀÌ´Ù. ¹°·Ð ÀúÀÚÀÇ Çã¶ôÀ» ¹Þ¾Æ¾ß ÇÏÁö¸¸ °¢°¢ÀÇ ÆäÀÌÁöµéÀ» °¡Á®¿À´Â °æ¿ì ±× ³»¿ëÀÌ ¸¹°í, ±×¸²ÀÌ ¸¹ÀÌ ÀÖ´Ù¸é ±× ±×¸², HTMLÀ» ÀÏÀÏÀÌ °¡Á®¿À´Â °ÍÀÌ Èûµé´Ù. ¿¹¸¦ µé¾î ¾î¶² ´ëÇÐÀÇ °ÀÇ ³ëÆ®°¡ Àִµ¥ °ÀǺ°·Î ¼ö½Ê~¼ö¹é ÆäÀÌÁö¿Í ¼ö¸¹Àº À̹ÌÁö°¡ ÀÖÀ»¶§ À¥ ºê¶ó¿ìÀú·Î ÇÑÆäÀÌÁö¾¿ Á¢±ÙÇÏ¿© Save¸¦ ÇÑ´Ù´Â °ÍÀº ¼ö¸¹Àº ½Ã°£À» ÇÊ¿ä·Î ÇÑ´Ù. À̶§ À¯¿ëÇÏ°Ô »ç¿ëµÉ ¼ö ÀÖ´Â °ÍÀÌ À¥ ¹Ì·¯¸µ ÅøÀÌ´Ù. ¸¹Àº À¥ ¹Ì·¯¸µ ÅøÀÌ ³ª¿Í ÀÖÁö¸¸, ÀϹÝÀûÀ¸·Î ¹Ì·¯¸µ ÅøÀº À¥ ÆäÀÌÁöµéÀ» Á¢±ÙÇÏ°í ·ÎÄÿ¡ÀúÀåÇÏ´Â ÇÁ·Î±×·¥ÀÌ´Ù. ÇöÀç °¡Àå ¸¹ÀÌ »ç¿ëÇϰí ÀÖ´Â ¹Ì·¯¸µ ÅøÀº WebCopy(
http://www.inf.utfsm.cl/~vparada/webcopy.html), w3mir(
http://www.ifi.uio.no/~janl/w3mir.html) µîÀ¸·Î À̵é ÇÁ·Î±×·¥Àº À¥ ÆäÀÌÁöµéÀ» Á¢±ÙÇÏ°í ·ÎÄÿ¡ ÀúÀåÇÏ´Â ±â´ÉÀ» °¡Áö°í ÀÖ´Ù.
WebCopy v0.98b7 96/06/08 (C) 1994-1996 by Victor Parada
vparada@inf.utfsm.cl Copy remote files (recursively) using http protocol.
Usage: webcopy [options] http://host:port/path/file [http://proxy:port]
Options (can be combined):
-o output to stdout -tdelay set delay seconds
-v verbose mode -wpath set working directory
-q query transfer -xfile set default index.html
-s suppress log -zfile post 'file' or query string
-rdepth recurse (-r = -il) -c allow links to CGI script-xs (require -paf)
-i include images -a allow absolute references
-l hypertext links -f allow full URL references
-m imagemaps -p allow other paths (-d recommended)
-n don't use proxy -d keep directory path in URL for local file
-u use local copy of file if exists
-g get a new copy of file even if exists (use after -o)
-yusr:pw use 'usr:pw' for authentication (also -Y)
-ke1:e2:... only files with such extensions (-K to kill (ignore) these)
-h this help (ignores other options specified)
±×¸² 4. Webcopy »ç¿ë ¹æ¹ý
2.4 ¸®¼Ò½º ¹ß°ß(Resource discovery)
¼Ä¡ ¿£Áø¿¡ »ç¿ëÇÏ´Â ¿ëµµ·Î¼ ÀÚµ¿Àû, ÁÖ±âÀûÀ¸·Î À¥ÆÛÀÌÁö¸¦ Ç×ÇØÇÏ¸ç µ¥ÀÌŸ¸¦ ¼öÁýÇÏ´Â ¿ëµµ·Î »ç¿ëµÇ´Â°ÍÀ» ÀǹÌÇÑ´Ù. ¾Æ·¡ ±×¸²Àº ÀÎÅͳݻóÀÇ ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ÀÌ¿ëÇÑ °Ë»ö ¿£ÁøÀÇ ÀϹÝÀûÀÎ ÇüÅÂÀÌ´Ù. ·Îº¿ ¿¡ÀÌÀüÆ®´Â URL µ¥ÀÌŸº£À̽º¸¦ ÂüÁ¶ÇÏ¿© WWW ¼¹ö¸¦ Ç×ÇØÇÏ¸ç ÆäÀÌÁö¸¦ ¼öÁýÇϰí, Index Builder´Â ¼öÁýµÈ ÀڷḦ ó¸®ÇÏ¿© °Ë»öÇÒ ¼ö ÀÖ´Â ÇüÅ·Πº¯È¯ÇÑ´Ù. ¼Ä¡ ¿£ÁøÀº »ç¿ëÀÚ¿Í º¯ÈµÈ ÇüÅÂÀÇ ÀÚ·á°£¿¡ Ű¿öµå¸¦ ¹Þ¾Æ °Ë»ö ÇÒ ¼ö ÀÖ´Â Áß°£ÀÚ ¿ªÇÒÀ» ÇÑ´Ù.
¸®¼Ò½ºÀÇ ¹ß°ßÀÇ ¿ëµµ·Î¼ ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ µ¿ÀÛ¿ø¸®¸¦ ¾Ë¾Æº¸¸é ´ÙÀ½°ú °°´Ù.
(1) ·Îº¿ ¿¡ÀÌÀüÆ® ÇÁ·Î±×·¥À» ½ÇÇàÇÑ´Ù. À̶§ ±âº»ÀûÀ¸·Î óÀ½À¸·Î Á¢±ÙÀ» ½ÃµµÇÒ URLÀÌ ÁÖ¾îÁ®¾ß ÇÑ´Ù.
(2) URLÀÇ È£½ºÆ® À̸§(¿¹¸¦ µé¾î,
http://www.www-kr.org/~userid°¡ ÁÖ¾îÁø URLÀ̶ó¸é ÀÌÁß¿¡¼
www.www-kr.org)À» ÃßÃâÇÏ¿© http://È£½ºÆ®À̸§/robots.txtÀÇ URLÀ» Á¢±ÙÇÑ´Ù.
(3) robots.txt ÆÄÀÏÀÇ ³»¿ëÀ» ¹Þ´Â´Ù.
(4) robots.txtÀÇ ÆÄÀÏ ³»¿ëÀ» ºÐ¼®ÇÏ¿© ±× È£½ºÆ®¿¡¼ Á¢±ÙÇÏÁö ¸»¾Æ¾ß ÇÒ URLÀ» ¾Ë¾Æ³½´Ù.
(5) ¸¸¾à ÁÖ¾îÁø URLÀÌ robots.txt¿¡ Á¢±ÙÇÏÁö ¸»¾Æ¾ß ÇÒ URLÀ̶ó°í ÀûÇôÁ® ÀÖÁö ¾Ê´Ù¸é, ´Ù½Ã URL·Î Á¢±ÙÇÑ´Ù.
(6) (3)¹ø°ú °°Àº ¹æ¹ýÀ¸·Î ÇØ´ç URLÀÇ ³»¿ëÀ» ¹Þ´Â´Ù.
(7) (6)¹ø¿¡¼ Àü´Þ¹ÞÀº ÆÄÀÏÀ» ºÐ¼®ÇÏ¿© URLÀ» ÃßÃâÇÑ´Ù. À̶§¿¡´Â »ó´ë URL°ú Àý´ë URL·Î ³ª´µ´Âµ¥ ¸ðµç URLÀ» Àý´ë URL·Î º¯È¯ÇÑ´Ù. Áï, »ó´ë URL(/dir/index.html)À» Àý´ë URL(http://È£½ºÆ®À̸§/dir/index.html)·Î ¹Ù²Û´Ù. ÃßÃâÇÑ URLÀº ´ÙÀ½ ¹æ¹®¶§ ÂüÁ¶ÇÒ ¼ö ÀÖµµ·Ï URL µ¥ÀÌŸº£À̽º¿¡ ÀúÀåÇÑ´Ù. ¶ÇÇÑ URL µ¥ÀÌŸº£À̽º¿¡ ÀúÀåÇÒ¶§¿¡´Â ¸î °³ÀÇ URLÀ» ÃßÃøÇÏ¿© ÇÔ²² ÀúÀåÇϱ⵵ ÇÑ´Ù. °¡·É http://host/dir/subdir/file.htmlÀÌ ÀúÀåÇÒ URLÀ̶ó¸é, ±× URL »Ó¸¸ ¾Æ´Ï¶ó http://host/dir/subdir/, http://host/dir/, http://host/µµ ȨÆäÀÌÁöÀÇ ³»¿ëÀÌ ÀÖÀ¸¸®¶ó°í ÃßÃøÀÌ °¡´ÉÇÏ´Ù. ¸¶Áö¸·À¸·Î URL µ¥ÀÌŸº£À̽º¿¡ ÃßÃâÇÑ URLÀ» ÀúÀåÇÒ¶§¿¡´Â ÀÌ¹Ì µî·ÏµÈ URLÀÎÁö ¾Æ´ÑÁö °Ë»çÇÏ¿© Áߺ¹ÀÌ ¾ÈµÇµµ·Ï ÇÑ´Ù.
(8) (6)¹ø¿¡¼ Àü´Þ¹ÞÀº ÆÄÀÏÀ» ºÐ¼®ÇÏ¿© Ű¿öµå¸¦ ÃßÃâÇϰí ÇÊ¿äÇÑ Á¤º¸¸¦ ÀúÀåÇÑ´Ù.
(9) URL µ¥ÀÌŸº£À̽º¿¡¼ ´ÙÀ½ ¹æ¹®ÇÒ URLÀ» °¡Áö°í (2)(¶Ç´Â (5)) ~ (8)¹ø±îÁöÀÇ °úÁ¤À» ¹Ýº¹ÇÑ´Ù.
2.5 º¹ÇÕÀûÀÎ »ç¿ë(Combined Uses)
ÇöÀç ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ »ç¿ëÀº ´ÜÀÏ ¸ñÀûÀ¸·Î »ç¿ëÇϱ⠺¸´Ù´Â ÇÑ ¹øÀÇ ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ µ¿ÀÛÀ¸·Î ´Ù¾çÇÑ ÀÛ¾÷À» Çϰí ÀÖ´Ù. ´Ü¼øÈ÷ Åë°èÀû ¸ñÀûÀ¸·Î ȨÆäÀÌÁöÀÇ ¼ö¸¸À» °Ë»çÇϱ⠺¸´Ù´Â ¼Ä¡ ¿£ÁøÀ» Á¦°øÇÏ¸é¼ ÀÚ½ÅÀÌ º¸À¯ÇÑ URL µ¥ÀÌŸº£À̽º ¼ö¸¦ °Ë»çÇÏ¿© ÇöÀç ¼öÁýÇÑ È¨ÆäÀÌÁöÀÇ ¼ö¸¦ ¾Ë·ÁÁִ°¡ Çϸé, ¾î¶² ·Îº¿ ¿¡ÀÌÀüÆ®´Â ƯÁ¤ ȨÆäÀÌÁöÀÇ ³»¿ëÀ» Â÷·ÊÂ÷·Ê ¹æ¹®Çϰí, ±× ³»¿ëÀ» ºÐ¼®ÇÏ¿© ¾Ë·ÁÁܰú µ¿½Ã¿¡ ƯÁ¤ ÆäÀÌÁö ÀڷḸÀ» °¡Áö°í Ű¿öµå¿¡ ÀÇÇÑ °Ë»öÀÌ °¡´ÉÇÏ°Ô Çϱ⵵ ÇÑ´Ù. ArchitextSpider´Â Åë°èÀû ¸ñÀû°ú À妽ÌÀ» À§ÇÑ °ÍÀ̰í, NetCarta WebMap EngineÀº Åë°èÀû ¸ñÀû, À妽Ì, À¯Áöº¸¼ö, ¹Ì·¯¸µÀÇ ¸ðµç ±â´ÉÀ» °¡Áö°í ÀÖ´Ù.
3. ·Îº¿ ¿¡ÀÌÀüÆ® ¸¸µé±â
·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ¸¸µå´Â ¹æ¹ýÀº ´Ù¾çÇÏ°Ô ½ÃµµµÇ°í ÀÖ´Ù. ÇöÀç ·Îº¿ ¿¡ÀÌÀüÆ®¿ëÀ¸·Î µû·Î ³ª¿Â ¶óÀ̺귯¸®´Â ¾øÁö¸¸, HTTP¸¦ µû¸£´Â ¶óÀ̺귯¸®¸¦ ÀÌ¿ëÇÏ¸é ·Îº¿ ÇÁ·Î±×·¥À» ÀÛ¼ºÇÒ ¼ö ÀÖ´Ù. ÇöÀç ·Îº¿¿¡ ¸¹ÀÌ ¾²À̰í ÀÖ´Â ¾ð¾î´Â C, Perl, JavaµîÀÌ´Ù.
¶ÇÇÑ ·Îº¿À» ÀÛ¼ºÇϴµ¥ ÀÖ¾î ±âº»ÀûÀ¸·Î ¾Ë¾Æ¾ß ÇÏ´Â °ÍÀÌ HTTP(HyperText Transfer Protocol) ÇÁ·ÎÅäÄݰú HTML(HyperText Markup Language)ÀÇ ÀÌ´Ù. ÈçÈ÷ ¾Ë°í ÀÖ´Â HTTP¿Í URLÀÇ »ç¿ë, HTMLÀÇ °¢Á¾ Tag¸¦ ¾Ë¾Æ¾ß ÇÏ´Â °ÍÀÌ ¾Æ´Ï¶ó HTTPÀÇ ¼¼¼¼ÇÑ ³»¿ëÀ» ¾Ë¾Æ¾ß Çϰí, ¸¹ÀÌ »ç¿ëÇÏÁö´Â ¾Ê´Â HTMLÀÇ Tagµéµµ ·Îº¿ ¿¡ÀÌÀüÆ®°¡ ÀÎ½Ä ÇÒ ¼ö ÀÖµµ·Ï À¯¿¬ÇÑ ÇÁ·Î±×·¥À» ¸¸µé ¼ö ÀÖ´Ù. °¡·É ÇöÀç HTMLÀº ¹öÀü 3.2±îÁö ¼Ò°³ µÇ¾ú´Âµ¥ ·Îº¿ ÇÁ·Î±×·¥ÀÌ Mata Tag³ª ±âŸ Object Tag¿Í °°Àº °ÍÀ» ÀÎ½Ä ÇÒ ¼ö ¾ø´Ù¸é ¼Ò¿ë ¾ø°Ô µÇ´Â °ÍÀÌ´Ù. ÇöÀç HTTP¿Í HTMLÀÇ Á¤º¸´Â ´ÙÀ½¿¡¼ ãÀ» ¼ö ÀÖ´Ù.
HTTP :
HTTP/1.0 (Informational RFC 1945) :
http://ds.internic.net/rfc/rfc1945.txt HTTP/1.1 : ÇöÀç Proposed Standard: Internet Draft 07±îÁö Á¦¾ÈµÇ¾ú´Ù.
http://www.w3.org/pub/WWW/Protocols/¸¦ ÂüÁ¶
HTML
HTML 2.0 (RFC1866) :
http://www.w3.org/pub/WWW/MarkUp/ HTML Tables (RFC1942) :
http://www.w3.org/pub/WWW/TR/WD-tables HTML 3.2 :
http://www.w3.org/pub/WWW/TR/WD-html32.html·Îº¿À» ¸¸µå´Âµ¥ ¸¹ÀÌ ÂüÁ¶ÇÏ´Â °ÍÀÌ W3C(WWW Consortium) Reference Library (
http://www.w3.org/pub/WWW/Library/)ÀÌ´Ù. W3C(
http://www.w3.org/)´Â World Wide Web ConsortiumÀ¸·Î¼ À¥ÀÇ ¿©·¯ °¡Áö Á¤Ã¥À» ¼¼¿ì°í Ç¥ÁØÀ» ÁÖµµÇÏ´Â °÷ÀÌ´Ù. W3C¿¡¼´Â CERN ¼¹ö¸¦ °è¼ÓÇÏ¿© ¸¸µé¾úÀ¸¸ç À¥ÀÇ ¿©·¯ °¡Áö ±â´ÉÀ» API ÇüÅ·Π¸¸µé¾î Á¦°øÇϰí ÀÖ´Ù. W3CÀÇ anonymous ftp¸¦ ÀÌ¿ëÇÏ¿©
ftp://ftp.w3.org/pub/libwww/¿¡¼ ¾òÀ» ¼ö ÀÖ´Ù. libwww¶ó°í ºÒ¸®´Â ÀÌ ¶óÀ̺귯¸®ÀÇ Æ¯Â¡Àº ´ÙÀ½°ú °°´Ù.
¢º libwww 2.17
o written in C and created at CERN
o
ftp://ftp.w3.org/pub/libwww/ o single threaded
o Ãʱâ Lycos¿¡¼ ·Îº¿ ¿¡ÀÌÀüÆ® ¸¸µé ¶§ »ç¿ë
¢º libwww4.0, libwww 4.1b3
o the latest HTTP library offered by the W3C
o written in C
o object-oriented, event-based multithreaded library
libwww¸¦ º¸¸é Robots µð·ºÅ丮¸¦ ¹ß°ßÇÒ ¼ö ÀÖÀ¸¸ç À̸¦ ½ÇÇàÇÏ¸é ·Îº¿ÀÌ µ¿ÀÛÇÏ´Â °ÍÀ» º¼ ¼ö ÀÖ´Ù. ±×·¯³ª »ç¿ëÀÚ°¡ ¿øÇÏ´Â ÇüÅ·Πµ¿ÀÛÇϵµ·Ï ÇÏ·Á¸é ¸¹Àº ÇÁ·Î±×·¥ÀÇ ¼öÁ¤ÀÌ ÇÊ¿äÇÏ´Ù. ¶óÀ̺귯¸®¿¡¼ Á¦°øÇÏ´Â ·Îº¿Àº »ç¿ëÀÚ°¡ ¾î¶² ½ÄÀ¸·Î ·Îº¿À» »ç¿ëÇÒ Áö ¸ð¸£¹Ç·Î ´ÜÁö À¥¼¹ö¿Í Á¢¼ÓÇÏ´Â °úÁ¤¸¸ º¸ÀÏ»Ó ½ÇÁ¦·Î ÀÌ¿ëÇÏ·Á¸é ¼öÁ¤ÀÌ ÇÊ¿äÇÏ´Ù.
W3C´Â ÇöÀç libwwwÀÇ 5.0À» ÁغñÇϰí ÀÖÀ¸¸ç 5.0 ¹öÀü¿¡¼´Â HTTP/1.1À» Áö¿øÇϸç, PICSµî ´Ù¾çÇÑ ±â´ÉÀ» Áغñ ÁßÀÌ´Ù.
libwww¸¦ perl·Î ±¸ÇöÇÑ °Íµµ Á¦°øµÇ°í ÀÖ´Ù. ÇöÀç MOMSpider, Checkbot µî µ¿ÀÛÁßÀÎ ·Îº¿Áß¿¡ ´ë´Ù¼ö ÇÁ·Î±×·¥ÀÌ libwww-perlÀ» ÀÌ¿ëÇÏ¿© ¸¸µé¾î Á³´Ù. libwww-perlÀÇ Æ¯Â¡Àº ´ÙÀ½°ú °°´Ù.
¢º libwww-perl 4.0
o written by Roy Fielding
o
http://www.ics.uci.edu/WebSoft/libwww-perl/ o single-threaded, supports the robot exclusion protocol
¢º libwww-perl 5.0
o complete rewrite for Perl5 written Gisle Aas
o
http://www.sn.no/libwww-perl/ o multiple threaded
ÀÌ·¯ÇÑ libwww, libwww-perl¿Ü¿¡ ·Îº¿À» ÀÛ¼ºÇÏ´Â ¹æ¹ýÀº C¸¦ ÀÌ¿ëÇÑ ¼ÒÄÏ ÇÁ·Î±×·¡¹ÖÀ» ÇÏ´Â ¹æ¹ý°ú Java¸¦ ÀÌ¿ëÇÑ ¹æ¹ýÀÌ ÀÖ´Ù. C¸¦ ÀÌ¿ëÇÑ ¹æ¹ý°ú Java¸¦ ÀÌ¿ëÇÑ ·Îº¿ ÇÁ·Î±×·¡¹Ö ¹æ¹ýÀº Á¦3ºÎ ½ÇÀü ¿¡ÀÌÀüÆ®ÀÇ ¼³°è ¹× ±¸ÇöÀ» ÂüÁ¶Çϱ⠹ٶõ´Ù.
±âŸ ÀÌ¹Ì ±¸ÇöµÈ ·Îº¿ ¿¡ÀÌÀüÆ®¿¡ ´ëÇÑ Á¤º¸´Â
http://info.webcrawler.com/mak/projects/robots/active.html¿¡ ³ª¿Í ÀÖ´Ù. ±×·¯³ª ¼Ò½º¸¦ Á¦°øÇÏ´Â °÷Àº ±ØÈ÷ ÀϺο¡ Áö³ªÁö ¾Ê°í ´ëºÎºÐ ·Îº¿ ÇÁ·Î±×·¥Àº ÀÀ¿ë¿¡ º»¹Ù¿Í °°ÀÌ ´Ù¾çÇÏ°Ô »ç¿ëµÉ ¼ö Àֱ⠶§¹®¿¡ ºñ±³Àû ¼Ò½º ÇÁ·Î±×·¥¿¡ ´ëÇÏ¿© ºñ¹ÐÀ» ¿äÇÑ´Ù.
4. ·Îº¿ ¹èÁ¦ÀÇ Ç¥ÁØ
ÇöÀç ¸¹Àº ·Îº¿ ¿¡ÀÌÀüÆ®µéÀÌ ¸¹ÀÌ Á¦ÀÛµÇ¾î¼ È°¹ßÇÑ È°µ¿À» Çϰí ÀÖ´Ù. Á¤È®ÇÑ Åë°èÀÚ·á´Â ¾øÁö¸¸ »ç¿ëÀÚµéÀÌ ÇÊ¿äÇÑ Á¤º¸¸¦ ã¾Æ´Ù´Ï¸é¼ Á¢±ÙÇϴ ȨÆäÀÌÁöÀÇ ¼öº¸´Ù ·Îº¿ ¿¡ÀÌÀüÆ®°¡ ÀÚµ¿ÀûÀ¸·Î Á¢±ÙÇÏ´Â ¼ö°¡ ¸¹À»Áöµµ ¸ð¸¥´Ù. ¸¸¾à ¾ó¸¶³ª ¸¹Àº ·Îº¿ÀÌ È¨ÆäÀÌÁöÀÇ ³»¿ëÀ» °¡Á®°¡´ÂÁö ¾Ë°íÀÚ ÇÑ´Ù¸é WWW ¼¹öÀÇ ·Î±× ÆÄÀÏÀ» ºÐ¼®ÇÏ¸é ¾Ë ¼ö ÀÖÀ¸¸ç WWW ¼¹ö°¡ User-agent ·Î±ëÀ» Áö¿øÇÑ´Ù¸é ¿¡ÀÌÀüÆ® À̸§¸¸ ÀúÀåÇÑ ÆÄÀÏÀ» ºÐ¼®ÇÏ¿© ¾Ë ¼ö ÀÖ´Ù. ÀϹÝÀûÀ¸·Î À¥ºê¶ó¿ìÀú·Î Á¢±ÙÇÏ¿´´Ù¸é À̹ÌÁö(gif, jpg)ÈÀÏÀ» µ¿½Ã¿¡ °¡Á®°¡°í Á¢±Ùµµ õõÈ÷ ÀÌ·ç¾îÁöÁö¸¸, ·Îº¿ ¿¡ÀÌÀüÆ®°¡ ¹æ¹®ÇÏ¿´´Ù¸é À̹ÌÁö ÆÄÀÏÀº Á¢±ÙÇÏÁö ¾Ê°í ªÀº ½Ã°£¿¡ ¸¹Àº ÆäÀÌÁö¸¦ Á¢±ÙÇÒ °ÍÀÌ´Ù.
ÀÌ·¸µí ¸¹Àº ·Îº¿ ¿¡ÀÌÀüÆ®µéÀÌ µ¿ÀÛÇϴµ¥ ·Îº¿ ¿¡ÀÌÀüÆ®´Â »ç¶÷ÀÌ ¾Æ´Ï±â ¶§¹®¿¡ ¾µµ¥ ¾ø´Â ÆäÀÌÁö¸¦ À¥¼¹ö¸¦ ÅëÇÏ¿© ¸¹ÀÌ °¡Á® °£´Ù. ¿¹¸¦ µé¾î ¸îÀϸ¸ »ç¿ëÇÏ·Á°í ¸¸µç ÆäÀÌÁö¸¦ Á¢±ÙÇÏ´øÁö ¶Ç´Â ³ª¸¸ÀÌ È¥ÀÚ º¸·Á°í ¸¸µç ȨÆäÀÌÁö¸¦ ¿ì¿¬È÷ ·Îº¿ ¿¡ÀÌÀüÆ®°¡ ¹æ¹® ÇÏ¿© ȨÆäÀÌÁöÀÇ ³»¿ëÀ» °¡Á®°¥ ¼öµµ ÀÖ´Â °ÍÀÌ´Ù. ¶ÇÇÑ ·Îº¿ ¿¡ÀÌÀüÆ®°¡ À¥¼¹ö¸¦ ¹æ¹®ÇÏ¿© ȨÆäÀÌÁö¸¦ °¡Á®¿Í URLÀ» ÃßÃâÇÏ¿´À»¶§¿¡ ±× URLÀÌ ¾î´À ¼ø°£ ¸ðµÎ º¯°æµÇ¾ú´Ù°í °¡Á¤ÇØ º¸ÀÚ. ±×·¯³ª URLÀÌ º¯°æ µÇ¾úÀ½¿¡µµ ºÒ±¸ÇÏ°í ·Îº¿ ¿¡ÀÌÀüÆ®´Â ¼ø¼¿¡ ÀÇÇÏ¿© URL µ¥ÀÌŸº£À̽º¿¡¼ URLÀ» Çϳª¾¿ ÃßÃâÇÏ¿© Á¢±ÙÇÏ·Á°í ÇÒ °ÍÀÌ´Ù. ¸¸¾à ÀÌ·¸°Ô µÈ´Ù¸é À߸øµÈ URL¿¡ Áö¼ÓÀûÀ¸·Î(·Îº¿ ¿¡ÀÌÀüÆ®°¡ °¡Áö°í ÀÖ´Â URL µ¥ÀÌŸº£À̽º¿¡ ÀúÀåµÈ ¼ö ¸¸Å) Á¢±Ù ÇÒ °ÍÀÌ´Ù.
¼µÎ¿¡¼µµ ¸»ÇßµíÀÌ À¥ºê¶ó¿ìÀúÀÇ µ¿ÀÛ ¹æ¹ý°ú ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ µ¿ÀÛ ¹æ¹ýÀÌ µ¿ÀÏÇϱ⠶§¹®¿¡ WWW ¼¹öÀÇ ÀÔÀåÀ¸·Î´Â À¥¼¹ö°¡ Á¢±ÙÇÏ¿´´ÂÁö, ·Îº¿ ¿¡ÀÌÀüÆ®°¡ Á¢±ÙÇÏ¿´´ÂÁö ¾Ë ¼ö ÀÖ´Â ¹æ¹ýÀÌ ¾ø´Ù. ¸¸¾à ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ À̸§(User-Agent Çʵ忡 ±â·ÏÇÏ´Â À̸§)À» "Mozilla/3.0 (Win95; I)" À̶ó°í Çϸé WWW ¼¹ö´Â ³Ý½ºÄÉÀÌÇÁ À©µµ¿ì ¹öÀü 3.0ÀÌ Á¢±ÙÇÏ¿´´Ù°í »ý°¢ÇÒ ¼ö ¹Û¿¡ ¾ø´Ù. µû¶ó¼ WWW ¼¹ö°¡ ¿øÇÏÁö ¾Ê´Â ·Îº¿ ¿¡ÀÌÀüÆ®¿¡ ´ëÇÏ¿© ¼±ÅÃÀûÀ¸·Î Á¢±ÙÀ» Çã¿ëÇÏ´Â ¹æ¹ýÀÌ Á¦¾ÈµÇ¾ú´Âµ¥ À̰ÍÀÌ ¹Ù·Î "·Îº¿ ¹èÁ¦¿¡ ´ëÇÑ Ç¥ÁØ(A Standard for Robot Exclusion)"ÀÌ´Ù.
·Îº¿ ¹èÁ¦¿¡ ´ëÇÑ Ç¥ÁØÀº WWW ¼¹ö¿¡ ·Îº¿ ¿¡ÀÌÀüÆ®¿¡ ´ëÇÑ Á¢±Ù Á¤ÀèÀ» ¸í½ÃÇÏ´Â °ÍÀ¸·Î¼ ·Îº¿ ¿¡ÀÌÀüÆ®µéÀÌ ºü¸¥ ¿ä±¸(rapid-fire)¿Í °è¼Ó °°Àº ÆÄÀÏÀ» °Ë»ö ÇÏ´Â µîÀÇ µ¿ÀÛÀ¸·Î ÇÏ¿©±Ý WWW ¼¹öÀÇ È¥¶õÀ» ¹æÁöÇϰí, ÀϽà ÀûÀÎ Á¤º¸³ª side-effect°¡ ÀÖ´Â CGI µîÀÇ Àû´çÄ¡ ¾ÊÀº ºÎºÐÀ» °Ë»öÇÏ´Â °ÍÀ» ¸·¾Æº¸°íÀÚ Martijn Koster(
m.koster@webcrawler.com)¿¡ ÀÇÇÏ¿© Á¦¾ÈµÇ¾ú´Ù. WWW ¼¹öÀÇ ÀÔÀåÀ¸·Î °¡Àå °£´ÜÇÑ ¹æ¹ýÀ¸·Î "/robots.txt"ÈÀÏÀ» »ý¼®ÇÏ´Â °ÍÀÌ´Ù.
robots.txt¿¡ ±â¼úµÇ´Â ·Îº¿ ¹èÀçÀÇ Æ÷¸ËÀº °£´ÜÇÏ´Ù. Çʵå(field)¿Í °ª(value)ÀÇ ½ÖÀ¸·Î ±â¼úµÇ¸ç ÁÖ¼®¹®Àº "#"À¸·Î ó¸®ÇÑ´Ù. ¶ÇÇÑ Çʵå À̸§Àº ´ë¼Ò¹®ÀÚ¸¦ ±¸º°ÇÏÁö ¾Ê´Â´Ù. Çʵå´Â µÎ°¡Áö·Î ³ª´ ¼ö Àִµ¥ ¿¡ÀÌÀüÆ®ÀÇ À̸§À» Àû´Â User-agent Çʵå¿Í, ¹æ¹®ÇÒÁö ¸»¾Æ¾ß ÇÒ URI¸¦ ±â¼úÇÏ´Â Disallow Çʵå·Î ±¸ºÐµÈ´Ù. ¶ÇÇÑ ºó robots.txt´Â ¸ðµç ·Îº¿À» ȯ¿µÇÑ´Ù´Â ÀǹÌÀÌ´Ù.
¡Ü User-agent Çʵå :
- ÇÑ ·¹ÄÚµå´ç Àû¾îµµ ÇÑ Çʵ带 ±â¼ú
- À̸§Àº ´ë¼Ò¹®ÀÚ ±¸º° ¾ø´Â ºÎºÐ¹®ÀÚ¿ ´ëÄ¡
- '*'¸¦ »ç¿ë °¡´É
¡Ü Disallow Çʵå
- ·Îº¿ÀÌ ¹æ¹®ÇÒ ¼ö ¾ø´Â URI¸¦ ¸í¼¼
- Àüü ÆÐ½º ¶Ç´Â ºÎºÐ ÆÐ½º ¼³Á¤ °¡´É
- Ưº°ÇÑ °ªÀ» ÁöÁ¤ÇÏÁö ¾ÊÀ¸¸é ¸ðµç URLÀÇ Á¢±ÙÀÌ °¡´É
´ÙÀ½ÀÇ ¿¹·Î½á ·Îº¿ ¹èÁ¦¿¡ ´ëÇÑ Ç¥ÁØÀ» »ìÆì º¸µµ·Ï ÇÏÀÚ
¿¹1. ¸ðµç ·Îº¿ÀÇ Á¢±ÙÀ» ºÒ°¡´ÉÇÏ°Ô ÇÒ °æ¿ì
# ¸ðµç ·Îº¿ÀÇ Á¢±ÙÀ» ºÒ°¡´ÉÇÏ°Ô ÇÒ °æ¿ì
User-agent: *
Disallow: /
¿¹2. "/cyber/map/" µð·ºÅ丮¿Í "/tmp/" µð·ºÅ丮ÀÇ Á¢±ÙÀ» ºÒ°¡´É ÇÏ°Ô ÇÒ °æ¿ì
# robots.txt for
http://www.site.com/ User-agent: *
Disallow: /cyber/map/
Disallow: /tmp/
¿¹3. User-AgentÀÇ À̸§ÀÌ testbotÀÎ ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ Á¦¿ÜÇÑ ¸ðµç ·Îº¿ ¿¡ÀÌÀüÆ®´Â "/cyber/map/"À¸·Î ½ÃÀÛÇÏ´Â ÆäÀÌÁöÀÇ Á¢±ÙÀ» ºÒ°¡´É ÇÏ°Ô ÇÒ °æ¿ì
# robots.txt for
http://www.site.com/ User-agent: *
Disallow: /cyber/map/
User-agent: testbot
Disallow:
À§ÀÇ ¹æ¹ý°ú °°ÀÌ robots.txtÀÇ ÀÛ¼ºÀº ½±°í °£´ÜÇÏ´Ù. ±×·¯³ª ¸¹Àº »ç¶÷µéÀÌ Æ²¸± ¼ö ÀÖ´Â ºÎºÐÀº ´ÙÀ½°ú °°Àº °ÍÀÌ ÀÖ´Ù.
1. Disallow Çʵå´Â '*'À» Áö¿øÇÏÁö ¾Ê´Â´Ù. µû¶ó¼ "Disallow: /tmp/*"Àº À߸øµÈ °ÍÀÌ¸ç ±× ´ë½Å¿¡ "Disallow: /tmp"¶ó°í ÇÏ¸é µÈ´Ù.
2. Disallow Çʵ忡 µÎ°³ ÀÌ»óÀÇ URI¸¦ ±â¼úÇÏ¸é ¾ÈµÈ´Ù. Áï, /tmp, /testÀÇ Á¢±ÙÀ» ¸·°íÀÚ ÇÑ´Ù¸é °¢°¢ "Disallow: /tmp", "Disallow: /test"¸¦ °¢°¢ ´Ù¸¥ ¶óÀο¡ ±â¼úÇÏ¿©¾ß ÇÑ´Ù.
3. "Disallow: /tmp"´Â /tmp.html°ú /tmp/index.htmlÀÇ Á¢±ÙÀ» ºÒ°¡´ÉÇÏ´Ù´Â ÀǹÌÀÌ´Ù.
4. "Disallow: /tmp/"´Â /tmp/index.htmlÀº Á¢±ÙÀÌ ºÒ°¡´Â ÇÏÁö¸¸, /tmp.htmlÀº Á¢±ÙÀÌ °¡´ÉÇÏ´Ù´Â ÀǹÌÀÌ´Ù.
Áö±Ý±îÁö ¼Ò°³ÇÑ "·Îº¿ ¹èÁ¦¿¡ ´ëÇÑ Ç¥ÁØ"Àº ´ÜÁö Á¦¾ÈÀÏ »ÓÀÌ´Ù. ¸¸¾à ·Îº¿ Á¦ÀÛÀÚ°¡ ÀÌ·¯ÇÑ Á¦¾ÈÀ» ¹«½ÃÇÑ ·Îº¿À» ÀÛ¼ºÇÏ¿´´Ù ÇÒ Áö¶óµµ À¥¼¹öÀÇ °ü¸®ÀÚ´Â TCP/IP Â÷¿ø¿¡¼ Á¢±ÙÀ» ¸·´Â °ÍÀ» Á¦¿ÜÇϰí´Â ¾Æ¹«·± ÇൿÀ» ÃëÇÒ ¼ö ¾ø´Ù. Áï À¥¼¹öÀÇ °ü¸®ÀÚ´Â robots.txtÀ» Ãæ½ÇÈ÷ ÀÛ¼ºÇÏ°í ·Îº¿ Á¦ÀÛÀÚ´Â robots.txt¸¦ ºÐ¼®Çϰí ÀÌÇØÇÏ´Â ÇÁ·Î±×·¥À» ÀÛ¼ºÇÔÀ¸·Î½á À§ÀÇ Á¦¾ÈÀÌ ÁöÄÑÁú ¼ö ÀÖ´Â °ÍÀÌ´Ù. ÇöÀç ±¹³»¿¡´Â "·Îº¿ ¹èÁ¦¿¡ ´ëÇÑ Ç¥ÁØ"À» ÁöŰ´Â ·Îº¿ÀÌ Çϳªµµ ¾ø´Â »óÅÂÀÌ´Ù. (ÀÌ´Â ÇÊÀÚ°¡ ÇöÀç±îÁö ÁöÄѺ» °á°úÀÌ´Ù) ¶ÇÇÑ À¥¼¹ö¿¡¼µµ robots.txt¸¦ Á¦°øÇÏ´Â °÷ÀÌ ¾ó¸¶ µÇÁö ¾Ê´Â´Ù. 1996³â 8¿ù ÇöÀç ¾à 1322°³ÀÇ WWW ¼¹öÁß¿¡¼ ¾à 6±ºµ¥¸¸ÀÌ Á¦´ë·ÎµÈ robots.txt¸¦ Á¦°øÇϰí ÀÖÀ¸¸ç ¾à 12°³ÀÇ È£½ºÆ®´Â ºñ¾î ÀÖ´Â robots.txt¸¦ Á¦°øÇϰí ÀÖ´Ù. ¿Ü±¹ÀÇ °æ¿ì ¾ËŸºñ½ºÅ¸(Altavista)¿Í ¶óÀÌÄÚ½º(Lycos)ÀÇ ÀÚ·á¿¡ ÀÇÇϸé Àü ¼¼°èÀÇ WWW ¼¹öÁß °¢°¢ 5%, 6% ¸¸ÀÌ Á¦°øÇϰí ÀÖ´Ù.
5. ·Îº¿ ÀÛ¼º °¡ÀÌµå ¶óÀÎ
ÇöÀç ¸¹Àº ·Îº¿ ¿¡ÀÌÀüÆ®°¡ µ¿ÀÛÇϰí ÀÖ´Ù. ¶ÇÇÑ ¸¹Àº »ç¶÷µéÀÌ ·Îº¿ ÇÁ·Î±×·¥À» ¿øÇϰí ÀÖ´Ù. Á¤º¸ °Ë»ö ±â¼úÀ» °¡Áö°í ÀÖ´Â »ç¶÷Àº ·Îº¿ ÇÁ·Î±×·¥¸¸ ÀÖÀ¸¸é Lycos³ª Infoseek, Altavista¿Í °°Àº À¯¸í °Ë»ö ¿£ÁøÀ» ¸¸µé ¼ö ÀÖ´Ù. ±×·¯³ª ÇÊÀÚ(¿Ü¿¡µµ ·Îº¿ ¿¡ÀÌÀüÆ®¿¡ ´ëÇÏ¿© ¾Ë°í ÀÖ´Â ¸¹Àº »ç¶÷)´Â ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ¸¸µé±â ÀÌÀü¿¡ ´Ù½ÃÇѹø °í·ÁÇØ º¸±â¸¦ ´çºÎÇÑ´Ù. ±× ÀÌÀ¯´Â ¸¹Àº ·Îº¿ ÇÁ·Î±×·¥À¸·Î ÀÎÇÏ¿© ³×Æ®¿öÅ© ºÎÇϸ¦ °¡Áß ½Ãų ¼ö Àֱ⠶§¹®ÀÌ´Ù. ¸¸¾à ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ²À ¸¸µé Çʿ䰡 ÀÖÀ» °æ¿ì¿¡´Â ´ÙÀ½ÀÇ Ç׸ñµéÀ» À¯ÀÇÇØ¼ ¸¸µé¾î¾ß ÇÒ °ÍÀÌ´Ù. ´ÙÀ½ÀÇ Ç׸ñÀº Martijn Koster°¡ ¸¸µç ·Îº¿ ¿¡ÀÌÀüÆ® ÀÛ¼º °¡ÀÌµå ¶óÀÎ Áß¿¡ ²À ÇÊ¿äÇÑ ³»¿ëÀ» ¼Ò°³ ÇÑ´Ù.
¢º Identy your robots : HTTP ÇÁ·ÎÅäÄÝ¿¡´Â User-agent Çʵ尡 ÀÖ´Ù. ÀϹÝÀûÀ¸·Î User-agent Çʵ忡´Â "¿¡ÀÌÀüÆ® À̸§/¹öÀü (±âŸ ¿É¼Ç)"ÀÌ »ç¿ëµÈ´Ù. User-agent Çʵ带 Áö¿øÇÏ´Â À¥¼¹ö´Â agent_log¸¦ ÅëÇÏ¿© ¾î¶² ºê¶ó¿ìÀú(¿¡ÀÌÀüÆ®)°¡ Á¢±ÙÇÏ¿´´ÂÁö ¾Ë ¼ö ÀÖ´Ù. Áï User-agent Çʵå´Â ºê¶ó¿ìÀúÀÇ À̸§ÀÎ °ÍÀÌ´Ù. ¶§¹®¿¡ User-agent Çʵ忡 Mozilla/3.0 (Win95; I)À̶ó°í ¾º¿© ÀÖÀ¸¸é Win95ÀÇ ³Ý½ºÄÉÀÌÇÁ 3.0 ¹öÀüÀ¸·Î Á¢±ÙÇÏ¿´À¸¸ç, GET/0.5 libwww-perl/0.40´Â libwww-perl 4.0 ¹öÀüÀ» ÀÌ¿ëÇÑ GET ÇÁ·Î±×·¥ÀÌ Á¢±ÙÇÏ¿´´Ù´Â °ÍÀ» ¾Ë ¼ö ÀÖ´Ù. µû¶ó¼ ·Îº¿ Á¦À۽ÿ¡´Â ¹Ýµå½Ã User-agent Çʵ带 ±â·Ï ÇÔÀ¸·Î½á ¾î¶² ¿¡ÀÌÀüÆ®°¡ Á¢±ÙÇÏ¿´´Ù´Â °ÍÀ» ¾Ë ¼ö ÀÖµµ·Ï ÇØ¾ß ÇÑ´Ù. ÇöÀç ¾Ë·ÁÁø ·Îº¿ ÇÁ·Î±×·¥µéÀº
http://info.webcrawler.com/mak/projects/robots/active/html /contact.html¿¡¼ ±× À̸§À» ¾Ë ¼ö ÀÖÀ¸¸ç, ´ëÇ¥ÀûÀÎ ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ À̸§Àº ´ÙÀ½°ú °°´Ù.
Altavista
Scooter/1.0
MetaCrawler
MetaCrawler/1.2b
Harvest
Harvest/1.4.pl2
Lycos
Lycos/x.x
Inforseek
InfoSeek Robot 1.0
Inktomi
Slurp/1.0
½É¸¶´Ï
SimBot/1.0
¿ÍÄ«³ë
WAKANO_Robot/V0.99
¢º Be traceble : ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ¼öÇàÇϴ ȣ½ºÆ®´Â ¹Ýµå½Ã Dynamic IP Number¸¦ »ç¿ëÇÑ SLIPÀ̳ª PPP¸¦ »ç¿ëÇÏÁö ¸»°í °íÁ¤ÀûÀΠȣ½ºÆ®¿¡¼ ¼öÇàÇ϶ó. ÀÌ´Â ¸¸¾à ·Îº¿ ¿¡ÀÌÀüÆ®°¡ ¿Àµ¿ÀÛÀ» ÀÏÀ¸Ä×À» ¶§ ¿¬¶ô ÇÒ ¼ö ÀÖµµ·Ï Çϱâ À§ÇÔÀÌ´Ù.
¢º Identify yourself : HTTPÀÇ From Çʵ带 ÀÌ¿ëÇÏ¿© ÇöÀç ·Îº¿ ¿¡ÀÌÀüÆ®¸¦ ¼öÇàÇÏ°Ô ÇÏ´Â »ç¶÷ÀÇ ¿¬¶ôó¸¦ ¾Ë¸®´Â ¹æ¹ýÀÌ´Ù. ÀÌ ¿ª½Ã ¿Àµ¿ÀÛÀ» ÀÏÀ¸Å³ ¶§¸¦ ´ëºñÇÏ´Â °ÍÀÌ´Ù.
¢º Announce your robots : ³»°¡ ÀÛ¼ºÇÑ ·Îº¿ ¿¡ÀÌÀüÆ®´Â °ø°íÇÏ¿© ¸¹Àº »ç¶÷ÀÌ »õ·Î¿î ·Îº¿ ¿¡ÀÌÀüÆ®°¡ µ¿ÀÛÇÏ´Â °ÍÀ» ¾Ë°Ô ÇÑ´Ù. À̶§ ¹Ýµå½Ã ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ À̸§À» ¼Ò°³ÇÏ¿© robots.txt¿¡¼ ¼±ÅÃÀûÀ¸·Î Á¢±ÙÀ» ºÒÇãÇÒ ¼ö ÀÖ°Ô ÇÑ´Ù. ¾Ë¸®´Â ¹æ¹ýÀº comp.infosystems.
www.providers ´º½º ±×·ì¿¡ ¾Ë¸®°Å³ª,
robots@webcrawler.com¿¡ ¾Ë¸®°Å³ª ¶Ç´Â
http://info.webcrawler.com/mak/projects/robots/active/empty.txt¸¦ ÀÛ¼ºÇÏ¿© Martijn Koster¿¡°Ô ¸ÞÀÏÀ» º¸³½´Ù.
¢º Announce it to the target : ¸¸¾à ¾î¶² ƯÁ¤ ¼¹ö¿¡ Á¢¼ÓÇÏ´Â ¿¡ÀÌÀüÆ®ÀÇ °æ¿ì(¿¹¸¦ µé¾î ¹Ì·¯¸µÀ» ÇÑ´Ù´øÁö, ¶Ç´Â ¸ÞŸ ¼Ä¡ ¿£Áø°ú °°Àº °æ¿ì) ´ë»ó ¼¹ö¿¡ ¾Ë·Á¼ ³»°¡ ÀÛ¼ºÇÑ ÇÁ·Î±×·¥ÀÌ ÁÖ±âÀûÀ¸·Î Á¢¼Ó ÇÒ °¡´É¼º¿¡ ´ëÇÏ¿© ¾Ë·ÁÁà¾ß Çϸç, ¹Ì·¯¸µÀÇ °æ¿ì¿¡´Â ¹Ýµå½Ã Çã¶ôÀ» ¹Þ¾Æ¾ß ÇÑ´Ù.
¢º Be there : ·Îº¿ÀÌ ¿Àµ¿ÀÛ ÇÒ ¶§¿¡ ¿¬¶ô ¹ÞÀ» ¼ö ÀÖµµ·Ï Àå±â°£ ÀÚ¸®¸¦ ºñ¿ì°Å³ª ÁÖ¸»ÀÇ °æ¿ì¿¡´Â ·Îº¿À» ¼öÇà½ÃŰÁö ¾Ê´Â´Ù.
¢º Use HEAD where possible : °¡´ÉÇϸé HEAD Á¤º¸¸¸À» »ç¿ëÇÏ¿© Àü¼ÛµÇ´Â ¾çÀ» ÁÙ¿©¶ó. HEAD¸¦ »ç¿ëÇÏ¸é ¸¶Áö¸· °»½Å ÀÏÀÚ³ª ȨÆäÀÌÁöÀÇ Å©±â¸¦ ¾Ë ¼ö ÀÖ´Ù. Áï, HTML ³»¿ëÀ» ÀüºÎ Àü¼Û ¹ÞÁö ¸»°í HEAD¸¦ ÀÌ¿ëÇÏ¿© º¯°æµÇ¾úÀ» °æ¿ì¿¡¸¸ Àü¼Û ¹Þ´Â Çü½ÄÀ¸·Î °¡´ÉÇÑ Àü¼ÛÀÇ ¾çÀ» ÁÙ¿©¶ó.
¢º Don't Loop or Repeat : flower.comeng.chungnam.ac.kr,
www.comeng.chungnam.ac.kr, 168.188.44.2´Â 3°³ÀÇ ÁÖ¼Ò°¡ µ¿ÀÏÇÑ È£½ºÆ®ÀÌ´Ù. ·Îº¿ ¿¡ÀÌÀüÆ®°¡ µ¿ÀÛÇÒ¶§¿¡´Â µ¿ÀÏÇÑ È£½ºÆ®¿¡ ´ëÇØ¼´Â ÇÑ ¹ø¸¸ Á¢±ÙÇϵµ·Ï ÇÏ¿©¾ß ÇÏ¸ç °°Àº ÆäÀÌÁö¿¡ ´ëÇØ¼ ·Îº¿ ¿¡ÀÌÀüÆ®°¡ ¹Ýº¹ÀûÀ¸·Î Á¢±ÙÇÏ°Ô ÇÏÁö ¸»¾Æ¾ß ÇÑ´Ù.
¢º Don't try query : CGI ÇÁ·Î±×·¡Àº ·Îº¿ÀÌ Á¢±ÙÇÏ¿´À» ¶§, ±× °á°ú¸¦ Àü¼ÛÇÑ´Ù. µû¶ó¼ ¸Å¹ø ´Ù¸¥ °á°ú¸¦ Á¦°øÇÏ´Â CGI³ª ¾î¶² ÁúÀÇ¿¡ ´ëÇÑ °á°ú´Â À妽ÌÀ̳ª Åë°è¸¦ °è»êÇÒ ¶§¿¡ Àǹ̰¡ ¾øÀ» ¼ö ÀÖ´Ù.
°á·ÐÀûÀ¸·Î ·Îº¿À» ÀÛ¼ºÇÒ¶§¿¡ °¡Àå ÁÖÀÇÇØ¾ß ÇÒ°ÍÀÌ ÂªÀº ½Ã°£¿¡ ¸¹Àº Á¢¼ÓÀÌ ÀÌ·ç¾îÁöÁö ¾Êµµ·Ï rapid-fire¿¡ ÁÖÀÇÇÏ´Â °ÍÀÌ´Ù. ¾î¶² ·Îº¿ ¿¡ÀÌÀüÆ®´Â 1ºÐ¿¡ ¼ö¹é¹øÀÇ Á¢¼ÓÀ» ÇÏ´Â °Íµµ ÀÖÀ¸¸ç ¾î¶² ·Îº¿ ¿¡ÀÌÀüÆ®´Â ÇÑ ¹ø Á¢¼Ó ÇÑ È£½ºÆ®¿¡ ´ëÇÏ¿© 5ºÐ À̳»¿¡´Â Á¢¼ÓÇÏÁö ¾Êµµ·Ï ÇÏ´Â °Íµµ ÀÖ´Ù. ·Îº¿ÀÌ ¾ó¸¶³ª ÀÚÁÖ Á¢¼ÓÇÏ°Ô ÇÒ °ÍÀΰ¡´Â ÀüÀûÀ¸·Î ·Îº¿ Á¦ÀÛÀÚ¿¡°Ô ´Þ·Á ÀÖ´Ù. ºü¸¥ ·Îº¿ÀÌ ÁÁ±â´Â ÇÏÁö¸¸, ÀÌ¿¡ ÇÇÇØ¸¦ º¸´Â »ç¶÷µµ ÀÖ´Ù´Â °ÍÀ» ¸í½ÉÇÏ´Â °ÍÀÌ ÁÁ´Ù.
6. ·Îº¿ ¿¡ÀÌÀüÆ®ÀÇ ¹®Á¦Á¡ ¹× °á·Ð
·Îº¿ ¿¡ÀÌÀüÆ®°¡ ´Ù¾çÇÏ°Ô »ç¿ëµÇ°í ÀÖ°í, ¸¹Àº °÷¿¡¼ À¯¿ëÇÏ°Ô »ç¿ëµÇ³ª ¸¹Àº ¹®Á¦Á¡À» ¾È°í ÀÖ´Ù.
ù°·Î ·Îº¿¿¡ ´ëÇÑ Ç¥ÁØÀÇ ºÎÀçÀÌ´Ù. ´Ù¾çÇÑ ·Îº¿À» ÀÛ¼ºµÇ°í, ¶ÇÇÑ ·Îº¿¿¡ ÀÇÇÑ µ¥ÀÌÅͰ¡ °øÀ¯µÇ·Á¸é ·Îº¿¿¡ ´ëÇÑ Ç¥ÁØÀº ÇʼöÀûÀÌ´Ù. ±×·¯³ª ÇöÀç±îÁö ·Îº¿¿¡ ´ëÇÑ Ç¥ÁØÀº ÀüÇô ¾ð±ÞµÈ ¹Ù°¡ ¾ø°í ´ÜÁö Á¢±Ù¿¡ ´ëÇÑ Ç¥Áظ¸ÀÌ Á¦¾ÈµÇ¾úÀ» »ÓÀÌ´Ù.
µÑ°, ·Îº¿ ÇÁ·Î±×·¥Àº ºê¶ó¿ìÀú¿Í ´Þ¸® Clickable Image(Sensitive Map, À̹ÌÁö ¸Ê), FormµîÀº Àº ó¸®ÇÏÁö ¸øÇÑ´Ù. ÀϺΠ¾î¶² ·Îº¿Àº À̹ÌÁöÀÇ Å©±â¸¦ Àоî Á¶¹ÐÇÏ°Ô À¥¼¹ö¿¡ URLÀ» Á¶Á¤ÇÏ¸ç ½ÃµµÇÏ´Â °ÍÀÌ Á¦¾ÈµÇ±âµµ ÇÏ¿´À¸³ª ÀÌ´Â ¼¹öÀÇ ºÎ´ã¸¸ °¡Áß ½Ãų »ÓÀÌ´Ù. ÇöÀç Client-side Image MapÀÌ ¾Æ´Ñ ÀÏ¹Ý ÀûÀÎ À̹ÌÁö ¸ÊÀ» »ç¿ëÇÑ´Ù¸é ·Îº¿ÀÌ ±× Á¤º¸¸¦ ÀÐ°í ÆÇ´ÜÇÒ ´É·ÂÀº ¾ø´Â °ÍÀÌ´Ù. ¶ÇÇÑ »ç¿ëÀÚÀÇ Á¤º¸¸¦ ÀÔ·Â Çϰųª ÇÏ´Â µîÀÇ FormÀ» »ç¿ëÇÑ CGI´Â ·Îº¿ÀÌ ½ÇÇà ÇÒ ¼ö ¾ø´Ù.
¼Â°·Î ·Îº¿Àº BBS ¶Ç´Â ID°¡ ÇÊ¿äÇÑ ½Å¹®ÀÇ Á¢¼Ó°ú °°ÀÌ Á¢±Ù½Ã »ç¿ëÀÚ ID¿Í passwd¸¦ ÇÊ¿ä·Î ÇÏ´Â ¼¹ö´Â Á¢¼ÓÇÏÁö ¸øÇÑ´Ù. ¹°·Ð ƯÁ¤ ¼¹ö¸¸ Á¢¼ÓÇÏ´Â ·Îº¿À̶ó¸é °¡´ÉÇÏÁö¸¸ ±× ¸¹Àº À¥¼¹ö¿¡ ÇϳªÇϳª¾¿ ÇÊ¿äÇÑ ID¸¦ ´Ù ¸¸µé¾î ³õ´Â °ÍÀº ºÒ°¡´É ÇÏ´Ù.
³Ý°·Î robots.txt¸¦ Á¦°øÇÏ´Â °÷ÀÌ Àû´Ù. ÀÌ´Â ·Îº¿ÀÇ ¹®Á¦Á¡ÀÌ ¾Æ´Ï¶ó À¥¼¹ö¿¡¼ Á¦°øÇØ Áà¾ß ÇÏ´Â ¹®Á¦ÀÌ´Ù. À¥¼¹ö °ü¸®ÀÚ´Â °¡´ÉÇÑ robots.txt¿¡ ºÒÇÊ¿äÇÑ Á¤º¸´Â Àû¾î ³õ¾Æ¼ ·Îº¿°ú À¥¼¹öÀÇ ºÎ´ãÀ» ÁÙÀÌ´Â °ÍÀÌ ÁÁ´Ù.
Áö±Ý±îÁö ·Îº¿ ¿¡ÀÌÀüÆ®¿Í ´Ù¾çÇÑ ¿ëµµ, ·Îº¿ÀÇ À¥¼¹ö¿¡ ´ëÇÑ Á¢±Ù Á¤Ã¥ µî¿¡ ´ëÇÏ¿© ¾Ë¾Æ º¸¾Ò´Ù. ¸¹Àº ¹®Á¦Á¡À» ¾È°í Àֱ⵵ ÇÏÁö¸¸ ¼Ä¡ ¿£ÁøÀ» ÅëÇÏ¿© ·Îº¿ ¿¡ÀÌÀüÆ®°¡ ÇÊ¿äÇÑ ÀÌÀ¯´Â »ç¿ëÇÏ´Â ¿©·¯ºÐÀÌ ´õ Àß ¾Ë °ÍÀÌ´Ù. ÇÊÀÚ´Â º» ±â°í¸¦ ÅëÇÏ¿© ÇöÀç À¥¼¹öÀÇ °ü¸®ÀÚ¿Í ·Îº¿ Á¦ÀÛÀÚ¿¡°Ô ÇÊ¿äÇÑ Á¤º¸¸¦ Á¦°øÇϰí, ¾î¶² ¹®Á¦Á¡ÀÌ ÀÖ´ÂÁö Á¦½Ã ÇÏ¿´´Ù. ¾ÕÀ¸·Î ±¹³»ÀÇ À¥¼¹ö °ü¸®ÀÚ¿Í Á¦ÀÛÀÚ°¡ "·Îº¿ ¹èÁ¦¿¡ ´ëÇÑ Ç¥ÁØ"À» ÁöÅ´À¸·Î½á ½Ö¹æ¿¡ µµ¿òÀÌ µÇ¾úÀ¸¸é ÇÑ´Ù.
¸¶Áö¸·À¸·Î ·Îº¿ ¿¡ÀÌÀüÆ®¿¡ ´ëÇÑ ³»¿ëÀº ´ÙÀ½ÀÇ ¸ÞÀϸµ ¸®½ºÆ®¿¡ ³íÀǵǰí ÀÖÀ¸´Ï Âü°íÇϱ⠹ٶõ´Ù.
·Îº¿ ¿¡ÀÌÀüÆ® ¸ÞÀϸµ ¸®½ºÆ®
°¡ÀÔ :
robots-request@webcrawler.com, º»¹®¿¡ subscribe
Å»Åð :
robots-request@webcrawler.com, º»¹®¿¡ unsubscribe
¸ÞÀÏ :
robots@webcrawler.com ¾ÆÅ°À̺ê :
http://info.webcrawler.com/mailing-lists/robots/index.html7. Âü°í¹®Çå(References)
[1] World Wide Web Robots, Wanderers, and Spiders,
URL :
http://info.webcrawler.com/mak/projects/robots/robots.html [2] Guidelines for Robot Writers,
URL :
http://info.webcrawler.com/mak/projects/robots/guidelines.html [3] A standard for Robot Execlusion,
URL :
http://info.webcrawler.com/mak/projects/robots/norobots.html [4] À̰Âù, "±¹³» WWW ¼¹ö Á¶»ç(WWW Server Survey in Korea)"
URL:
http://sharon.comeng.chungnam.ac.kr/~dolphin/Server/compare.html