Files
mdscrap/main.py
Beyhan Oğur 9630a33ec1 first commit
2026-04-26 22:00:50 +03:00

27 lines
735 B
Python
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
import os
from scraper.docs_crawler import DocsCrawler
def main():
print("--- Docs to Markdown Crawler Başlatılıyor ---")
# Başlangıç URL'i (Örn: Next.js dokümantasyonu)
start_url = "https://nextjs.org/docs"
# Test amaçlı sadece ilk 10 sayfayı çekecek şekilde sınırlandıralım
# Gerçek kullanımda max_pages=1000 gibi büyük bir sayı verilebilir.
MAX_PAGES = 5000
crawler = DocsCrawler(
start_url=start_url,
max_pages=MAX_PAGES,
headless=True
)
crawler.crawl()
print("\n--- İşlem Tamamlandı ---")
print(f"Oluşturulan markdown dosyalarını kontrol et: data/md_docs/nextjs.org/")
if __name__ == "__main__":
main()