أرشفة الوب

أرشفة الوب Web archiving هي عملية تجميع أجزاء من الشبكة العالمية لضمان أن المعلومات محفوظة في أرشيف للباحثين والمؤرخين والعامة. عادةً ما يستخدم مؤرشفو الوب برامج زحف الشبكة للالتقاط الآلي نظراً للحجم الهائل وكمية المعلومات على الوب. تعتمد أكبر مؤسسة لأرشفة الوب على نهج الزحف الجماعي وهي واي باك مشين، والتي تسعى جاهدة للحفاظ على أرشيف للوب بأكمله.

الجزء المتزايد من الثقافة البشرية التي تم إنشاؤها وتسجيلها على الوب تجعل من المحتم أن المزيد والمزيد من المكتبات ودور المحفوظات سيتعين عليها مواجهة تحديات أرشفة الوب.[1]تشارك المكتبات الوطنية، الأرشيف الوطني والعديد من اتحادات المنظمات أيضاً في أرشفة محتوى الوب المهم ثقافياً.

تتوفر أيضاً برامج وخدمات أرشفة الوب التجارية للمؤسسات التي تحتاج إلى أرشفة محتوى الوب الخاص بها لأغراض تراثية أو تنظيمية أو قانونية.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

التاريخ والتنمية

في حين أن معالجة وتنظيم الوب كان سائداً منذ منتصف إلى أواخر التسعينيات، كان أرشيف الإنترنت أحد أول مشاريع أرشفة الوب واسعة النطاق، وهي منظمة غير ربحية أنشأها بروستر كيل في عام 1996.[2]فقد أصدر أرشيف الإنترنت محرك البحث الخاص به لعرض محتوى الوب المؤرشف، واي باك مشين، في عام 2001. [2] اعتباراً من عام 2018، كان أرشيف الإنترنت موطناً لـ 40 بيتابايت من البيانات.[3]طور أرشيف الإنترنت أيضاً العديد من الأدوات الخاصة به لجمع وتخزين بياناته، بما في ذلك ثيتابوكس لتخزين كميات كبيرة من البيانات بكفاءة وأمان، و هرتركس، زاحف الوب الذي تم تطويره بالاشتراك مع المكتبات الوطنية لدول الشمال الأوروبي.[2]تم إطلاق مشاريع أخرى في نفس الوقت تقريباً بما في ذلك پاندورا وأرشيف الوب في تسمانيا و كولتورارو 3 في السويد.[4]

من عام 2001 to 2010,[لم يمكن التحقق] قدمت ورشة العمل الدولية لأرشفة الوب (IWAW) منصة لتبادل الخبرات وتبادل الأفكار.[5][6] قام الاتحاد الدولي لحفظ الإنترنت (IIPC)، الذي أنشئ في عام 2003، بتيسير التعاون الدولي في تطوير المعايير والأدوات مفتوحة المصدر لإنشاء أرشيفات الوب.[7]

تأسست مؤسسة ذاكرة الإنترنت التي انتهت صلاحيتها الآن في عام 2004 وأسستها المفوضية الأوروپية من أجل أرشفة الوب في أوروبا.[2] قام هذا المشروع بتطوير وإصدار العديد من الأدوات مفتوحة المصدر، مثل "التقاط الوسائط الغنية والتماسك الزمني والتحليل وتقييم البريد العشوائي واكتشاف تطور المصطلحات."[2] البيانات من المؤسسة موجودة الآن في أرشيف الإنترنت، ولكن لا يمكن الوصول إليها حالياً بشكل عام.[8]

على الرغم من عدم وجود مسؤولية مركزية عن الحفاظ عليه، إلا أن محتوى الوب أصبح بسرعة السجل الرسمي. على سبيل المثال، في عام 2017، فقد أكدت وزارة العدل الأمريكية أن الحكومة تتعامل مع تغريدات الرئيس على أنها بيانات رسمية.[9]


تجميع الشبكة

يقوم خبراء أرشيف الوب عموماً بأرشفة أنواع مختلفة من محتوى الوب بما في ذلك صفحات الوب HTML و أوراق الأنماط و جاڤاسكريپت و الصور و الفيديو. يقومون أيضاً بأرشفة بيانات وصفية حول الموارد التي تم جمعها مثل زمن الوصول، نوع الوسائط، وطول المحتوى. هذه البيانات الوصفية مفيدة في إنشاء الموثوقية و تسلسل الملكية للمجموعة المؤرشفة.

طرق الجمع

الاكتساب عن بعد

تستخدم أكثر تقنيات أرشفة الوب شيوعاً برامج زحف الشبكة لأتمتة عملية تجميع صفحات الوب. عادةً ما تصل برامج زحف الوب إلى صفحات الوب بنفس الطريقة التي يرى بها المستخدمون الذين لديهم مستعرض الوب، وبالتالي توفر طريقة بسيطة نسبياً لجمع محتوى الوب عن بُعد. تتضمن أمثلة برامج زحف الوب المستخدمة لأرشفة الوب ما يلي:

توجد العديد من الخدمات المجانية التي يمكن استخدامها لأرشفة موارد الوب "حسب الطلب"، باستخدام تقنيات زحف الشبكة. تتضمن هذه الخدمات واي باك مشين و وب سايت.

أرشفة قواعد البيانات

تشير أرشفة قواعد البيانات إلى طرق أرشفة المحتوى الأساسي لمواقع الوب القائمة على قواعد البيانات. يتطلب عادةً استخراج محتوى قاعدة البيانات إلى مخطط قياسي، غالباً باستخدام XML. بمجرد تخزين هذا التنسيق القياسي، يمكن توفير المحتوى المؤرشف لقواعد البيانات المتعددة باستخدام نظام وصول واحد. ويتجلى هذا النهج في DeepArc و Xinq الأدوات التي طورتها المكتبة الوطنية الفرنسية و مكتبة أستراليا الوطنية على التوالي. يتيح ديپ آرك تعيين بنية قاعدة بيانات ارتباطية إلى مخطط XML، ويتم تصدير المحتوى إلى مستند XML. تسمح Xinq\شينك بعد ذلك بتسليم هذا المحتوى عبر الإنترنت. على الرغم من أنه لا يمكن الحفاظ على التصميم الأصلي وسلوك موقع الوب تماماً، إلا أن Xinq\شينك تسمح بتكرار وظائف الاستعلام والاسترجاع الأساسية.

أرشفة المعاملات

أرشفة المعاملات هي نهج يحركه الحدث، والذي يجمع المعاملات الفعلية التي تحدث بين مخدم وب و متصفح وب. يتم استخدامه بشكل أساسي كوسيلة للحفاظ على أدلة المحتوى الذي تم عرضه بالفعل على موقع وب معين، في تاريخ معين. قد يكون هذا مهماً بشكل خاص للمنظمات التي تحتاج إلى الامتثال للمتطلبات القانونية أو التنظيمية للإفصاح عن المعلومات والاحتفاظ بها.[10]

يعمل نظام أرشفة المعاملات عادةً عن طريق اعتراض كل طلب HTTP والاستجابة من مخدم الوب، وتصفية كل استجابة لإزالة المحتوى المكرر، وتخزين الاستجابات بشكل دائم على شكل سلسلة بتات.

الصعوبات والقيود

برامج زحف الشبكة

تتأثر أرشيفات الوب التي تعتمد على زحف الشبكة كوسيلة أساسية لجمع الوب بصعوبات زحف الشبكة:

  • قد يطلب معيار استبعاد الروبوتات من برامج الزحف عدم الوصول إلى أجزاء من موقع الوب. قد يتجاهل بعض مؤرشفي الوب الطلب ويزحفون إلى هذه الأجزاء على أي حال.
  • قد تكون أجزاء كبيرة من موقع الوب مخفية في الوب العميق. على سبيل المثال، يمكن أن تقع صفحة النتائج خلف نموذج وب في الوب العميق إذا لم تتمكن برامج الزحف من تتبع ارتباط إلى صفحة النتائج.
  • قد تتسبب مصائد برامج زحف الشبكة (على سبيل المثال، التقويمات) في قيام الزاحف بتنزيل عدد لا نهائي من الصفحات، لذلك يتم تكوين برامج الزحف عادةً للحد من عدد الصفحات الديناميكية التي يزحفون إليها.
  • معظم أدوات الأرشفة لا تلتقط الصفحة كما هي. ويلاحظ أن لافتات الإعلانات والصور غالباً ما يتم تفويتها أثناء الأرشفة.

ومع ذلك، من المهم ملاحظة أن تنسيق أرشيف الوب الأصلي، أي أرشيف وب قابل للتصفح بالكامل، مع روابط العمل، والوسائط، وما إلى ذلك، هو ممكن حقاً فقط باستخدام تقنية الزاحف.

الوب كبير جداً لدرجة أن الزحف إلى جزء كبير منه يتطلب عدداً كبيراً من الموارد التقنية. حيث يتغير الوب بسرعة كبيرة بحيث قد تتغير أجزاء من موقع الوب قبل أن ينتهي الزاحف من الزحف إليه.

قيود عامة

يتم تكوين بعض مخدمات الوب لإرجاع صفحات مختلفة إلى طلبات أرشيف الوب عن تلك التي كانت سترد عليها استجابة لطلبات المتصفح العادية. يتم ذلك عادةً لخداع محركات البحث لتوجيه المزيد من حركة مرور المستخدم إلى موقع وب، وغالباً ما يتم القيام به لتجنب المساءلة، أو لتوفير محتوى محسّن فقط لتلك المتصفحات التي يمكنها عرضه.

لا يتعين على مؤرشفو الوب التعامل مع التحديات التقنية لأرشفة الوب فحسب، بل يجب عليهم أيضاً التعامل مع قوانين الملكية الفكرية. فقد صرح پيتر ليمان[11] على أنه "على الرغم من أن الوب يُنظر إليه عموماً على أنه مصدر ملكية عامة، إلا أنه محمي بحقوق التأليف والنشر؛ وبالتالي، ليس للمحافظين أي حق قانوني لنسخ الوب". ومع ذلك تتمتع المكتبات الوطنية في بعض البلدان[12] بالحق القانوني في نسخ أجزاء من الوب بموجب امتداد الإيداع القانوني.

تسمح بعض أرشيفات الوب الخاصة غير الهادفة للربح والتي يمكن الوصول إليها للجمهور مثل وب سايت، أو أرشيف الإنترنت أو مؤسسة ذاكرة الإنترنت لمالكي المحتوى بإخفاء أو إزالة المحتوى المؤرشف الذي لا يريدون للعامة أن تتمكن من الوصول إليه. لا يمكن الوصول إلى أرشيفات الوب الأخرى إلا من مواقع معينة أو لها استخدام منظم. ينوه WebCite بدعوى قضائية حديثة ضد التخزين المؤقت\إخفاء من قبل شركة غوغل\گوگل، والتي فازت بها جوجل.[13]

الحقوق

في عام 2017، أصدرت هيئة تنظيم الصناعة المالية (FINRA)، وهي منظمة تنظيمية مالية بالولايات المتحدة، إشعاراً يفيد بأن جميع الأعمال التجارية التي تقوم بالاتصالات الرقمية مطلوبة للاحتفاظ بسجل. يتضمن ذلك بيانات موقع الوب ومنشورات وسائل التواصل الاجتماعي والرسائل.[14]قد تمنع بعض قوانين حقوق النشر أرشفة الوب. على سبيل المثال، تقع الأرشفة الأكاديمية بواسطة Sci-Hub خارج حدود قانون حقوق النشر المعاصر. يوفر الموقع وصولاً دائماً إلى الأعمال الأكاديمية بما في ذلك تلك التي ليس لديها ترخيص وصول مفتوح وبالتالي يساهم في أرشفة البحث العلمي الذي قد يضيع بخلاف ذلك.[15][16]

انظر أيضاً

المراجع

  1. ^ "Truman, Gail. 2016. Web Archiving Environmental Scan. Harvard Library Report". Gail Truman. 2016. {{cite journal}}: Cite journal requires |journal= (help)
  2. ^ أ ب ت ث ج Toyoda, M.; Kitsuregawa, M. (مايو 2012). "The History of Web Archiving". Proceedings of the IEEE. 100 (Special Centennial Issue): 1441–1443. doi:10.1109/JPROC.2012.2189920. ISSN 0018-9219.
  3. ^ "Inside Wayback Machine, the internet's time capsule". The Hustle. سبتمبر 28, 2018. sec. Wayyyy back. Retrieved يوليو 21, 2020.
  4. ^ Costa, Miguel; Gomes, Daniel; Silva, Mário J. (سبتمبر 2017). "The evolution of web archiving". International Journal on Digital Libraries. 18 (3): 191–205. doi:10.1007/s00799-016-0171-9. ISSN 1432-5012. S2CID 24303455.[التحقق مطلوب]
  5. ^ "IWAW 2010: The 10th Intl Web Archiving Workshop". www.wikicfp.com. Retrieved أغسطس 19, 2019.
  6. ^ "IWAW - International Web Archiving Workshops". bibnum.bnf.fr. Retrieved أغسطس 19, 2019.
  7. ^ "ABOUT IIPC". IIPC. Retrieved أغسطس 19, 2019.[التحقق مطلوب]
  8. ^ "Internet Memory Foundation : Free Web : Free Download, Borrow and Streaming". archive.org. Internet Archive. Retrieved يوليو 21, 2020.
  9. ^ Regis, Camille (يونيو 4, 2019). "Web Archiving: Think the Web is Permanent? Think Again". History Associates. Retrieved يوليو 14, 2019.
  10. ^ author., Brown, Adrian, 1969-. Archiving websites : a practical guide for information management professionals. ISBN 978-1-78330-053-2. OCLC 1064574312. {{cite book}}: |last= has generic name (help)CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)
  11. ^ Lyman (2002)
  12. ^ "Legal Deposit | IIPC". netpreserve.org. Archived from the original on مارس 16, 2017. Retrieved يناير 31, 2017.
  13. ^ "WebCite FAQ". Webcitation.org. Retrieved سبتمبر 20, 2018.
  14. ^ "Social Media and Digital Communications" (PDF). finra.org. FINRA.
  15. ^ Claburn, Thomas (سبتمبر 10, 2020). "Open access journals are vanishing from the web, Internet Archive stands ready to fill in the gaps". The Register (in الإنجليزية).
  16. ^ قالب:Cite arxiv

قائمة المراجع العامة


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

وصلات خارجية