mdscrap/main.py

import os
from scraper.docs_crawler import DocsCrawler

def main():
    print("--- Docs to Markdown Crawler Başlatılıyor ---")

    # Başlangıç URL'i (Örn: Next.js dokümantasyonu)
    start_url = "https://nextjs.org/docs"

    # Test amaçlı sadece ilk 10 sayfayı çekecek şekilde sınırlandıralım
    # Gerçek kullanımda max_pages=1000 gibi büyük bir sayı verilebilir.
    MAX_PAGES = 5000

    crawler = DocsCrawler(
        start_url=start_url,
        max_pages=MAX_PAGES,
        headless=True
    )

    crawler.crawl()

    print("\n--- İşlem Tamamlandı ---")
    print(f"Oluşturulan markdown dosyalarını kontrol et: data/md_docs/nextjs.org/")

if __name__ == "__main__":
    main()