first commit

This commit is contained in:
Beyhan Oğur
2026-04-26 22:00:50 +03:00
commit 9630a33ec1
22 changed files with 820 additions and 0 deletions

26
next.py Normal file
View File

@@ -0,0 +1,26 @@
import os
from scraper.docs_crawler import DocsCrawler
def main():
print("--- Docs to Markdown Crawler Başlatılıyor ---")
# Başlangıç URL'i (Örn: Next.js dokümantasyonu)
start_url = "https://nextjs.org/docs"
# Test amaçlı sadece ilk 10 sayfayı çekecek şekilde sınırlandıralım
# Gerçek kullanımda max_pages=1000 gibi büyük bir sayı verilebilir.
MAX_PAGES = 5000
crawler = DocsCrawler(
start_url=start_url,
max_pages=MAX_PAGES,
headless=True
)
crawler.crawl()
print("\n--- İşlem Tamamlandı ---")
print(f"Oluşturulan markdown dosyalarını kontrol et: data/md_docs/nextjs.org/")
if __name__ == "__main__":
main()