Kunskapsmotorn

Crawling & Discovery:
Hur AI:n hittar din information.

En AI-assistent är bara så bra som den information den har tillgång till. DigiSunds "Discovery Engine" är byggd för att vara både autonom och intelligent. Den hittar inte bara dina sidor – den förstår vilka som är viktiga och vilka som bara är "brus".

Två vägar till en komplett hjärna

När du skriver in din webbadress i DigiSund startar en sökprocess i flera lager. Vi använder inte en enkel "skrapa allt"-metod, utan en sofistikerad algoritm som prioriterar kvalitet framför kvantitet.

1. Sitemap-analys (Guldstandarden)

Det första systemet gör är att leta efter en sitemap (webbplatskarta). Detta är den mest effektiva metoden då det ger oss en officiell lista på alla sidor som du själv anser vara viktiga.

✓ Stöd för WordPress (`wp-sitemap.xml`), Yoast, Wix och Shopify.
✓ Hittar dolda sidor som inte ligger i huvudmenyn.
✓ Blixtsnabb indexering av tusentals sidor på sekunder.

2. Heuristisk Spindling (Fallback)

Om din hemsida saknar en sitemap aktiveras vår "Spindel". Den besöker din startsida och analyserar alla interna länkar för att bygga en egen karta över din webbplats.

✓ Följer logiska länkar som "Tjänster", "Priser" och "Om oss".
✓ Utesluter automatiskt externa länkar (Facebook, Instagram etc).
✓ Hanterar dynamiska sidor och moderna JavaScript-sajter.

Brusreducering: Kvalitet in = Kvalitet ut

En av de största utmaningarna med webbskrapning är "skräpdata". En vanlig hemsida är fylld med menyer, footers, cookie-banners och dolda script som förvirrar en AI. DigiSunds crawler har inbyggda filter som rensar bort detta innan informationen ens når AI-hjärnan.

Vad vi rensar bort automatiskt

Menyer

Navigering som upprepas på varje sida.

Footers

Adressuppgifter i sidfoten rensas från löptexten.

GDPR-banners

Irriterande popups och samtyckestexter.

Kodskräp

Scripts, CSS-klasser och dolda metadata-taggar.

Varför gör vi detta? Genom att rensa bort 70% av en sidas innehåll (som bara är design och kod) sparar vi på din Hjärnkapacitet. Det gör att du får plats med mer riktig fakta för pengarna.

Smart Discovery i realtid

Vår Discovery-motor stannar inte vid första skanningen. Varje gång du lägger till en ny URL manuellt i kontrollpanelen, gör systemet en omedelbar analys för att se om den sidan i sin tur länkar till andra viktiga källor.

Fält / Inställning	Förklaring
Filtrering av filtyper ID: Regex-filter	Vi exkluderar automatiskt filer som .jpg, .png, .zip och .pdf från den automatiska skrapningen. För att låta AI:n läsa dina PDF-filer laddar du istället upp dem via kontrollpanelen. Läs hur här.
Domän-låsning ID: Origin-validation	Vår crawler lämnar aldrig din domän. Om du länkar till din Facebook eller en samarbetspartner, kommer AI:n att ignorera dessa för att hålla fokus på din verksamhet.
User-Agent ID: Crawler-Identity	Vi identifierar oss som en modern webbläsare för att säkerställa att vi får se samma innehåll som en mänsklig besökare, inklusive text som genereras dynamiskt.

Logiken i discoverLinks()

För den tekniskt nyfikne: Vår upptäcktsprocess kallas för en Breadth-First Search (BFS) med ett djupstopp.

Sitemap Priority: Vi testar först `/sitemap_index.xml` följt av `/sitemap.xml`. Om en sitemap hittas, avbryts den heuristiska spindlingen omedelbart för maximal precision.
Cheerio Parsing: Vi använder Cheerio för att bygga ett virtuellt DOM-träd av din sida. Detta tillåter oss att extrahera titlar (`h1-h6`) och brödtext separat för att bibehålla strukturen i AI-hjärnan.
Deduplicering: Innan en sida sparas kör vi en MD5-hash på innehållet. Om du har två olika länkar som går till identiskt innehåll, kommer systemet bara att lagra den ena.

Säkerhet & Etik

DigiSund respekterar din integritet. Vi skannar endast sidor som är publikt tillgängliga. Vi försöker aldrig "bryta oss in" bakom inloggningsväggar eller dolda mappar. Om du har sidor du inte vill att AI:n ska läsa, kan du enkelt inaktivera dem med ett klick i kontrollpanelen.

Tips för bästa resultat: Se till att dina viktigaste sidor har tydliga rubriker (H1, H2). Det hjälper crawlern att förstå strukturen, vilket i sin tur gör att assistenten svarar med högre auktoritet.

Hemsidan är skannad. Men vad med era PDF-filer?

Lär dig hur du laddar upp interna dokument som prislistor och manualer.

Nästa: PDF & Dokument

Crawling & Discovery: Hur AI:n hittar din information.