27 lines
735 B
Python
27 lines
735 B
Python
import os
|
||
from scraper.docs_crawler import DocsCrawler
|
||
|
||
def main():
|
||
print("--- Docs to Markdown Crawler Başlatılıyor ---")
|
||
|
||
# Başlangıç URL'i (Örn: Next.js dokümantasyonu)
|
||
start_url = "https://nextjs.org/docs"
|
||
|
||
# Test amaçlı sadece ilk 10 sayfayı çekecek şekilde sınırlandıralım
|
||
# Gerçek kullanımda max_pages=1000 gibi büyük bir sayı verilebilir.
|
||
MAX_PAGES = 5000
|
||
|
||
crawler = DocsCrawler(
|
||
start_url=start_url,
|
||
max_pages=MAX_PAGES,
|
||
headless=True
|
||
)
|
||
|
||
crawler.crawl()
|
||
|
||
print("\n--- İşlem Tamamlandı ---")
|
||
print(f"Oluşturulan markdown dosyalarını kontrol et: data/md_docs/nextjs.org/")
|
||
|
||
if __name__ == "__main__":
|
||
main()
|