Crawling & Discovery:
Hur AI:n hittar din information.
En AI-assistent är bara så bra som den information den har tillgång till. DigiSunds "Discovery Engine" är byggd för att vara både autonom och intelligent. Den hittar inte bara dina sidor – den förstår vilka som är viktiga och vilka som bara är "brus".
Två vägar till en komplett hjärna
När du skriver in din webbadress i DigiSund startar en sökprocess i flera lager. Vi använder inte en enkel "skrapa allt"-metod, utan en sofistikerad algoritm som prioriterar kvalitet framför kvantitet.
1. Sitemap-analys (Guldstandarden)
Det första systemet gör är att leta efter en sitemap (webbplatskarta). Detta är den mest effektiva metoden då det ger oss en officiell lista på alla sidor som du själv anser vara viktiga.
- ✓ Stöd för WordPress (`wp-sitemap.xml`), Yoast, Wix och Shopify.
- ✓ Hittar dolda sidor som inte ligger i huvudmenyn.
- ✓ Blixtsnabb indexering av tusentals sidor på sekunder.
2. Heuristisk Spindling (Fallback)
Om din hemsida saknar en sitemap aktiveras vår "Spindel". Den besöker din startsida och analyserar alla interna länkar för att bygga en egen karta över din webbplats.
- ✓ Följer logiska länkar som "Tjänster", "Priser" och "Om oss".
- ✓ Utesluter automatiskt externa länkar (Facebook, Instagram etc).
- ✓ Hanterar dynamiska sidor och moderna JavaScript-sajter.
Brusreducering: Kvalitet in = Kvalitet ut
En av de största utmaningarna med webbskrapning är "skräpdata". En vanlig hemsida är fylld med menyer, footers, cookie-banners och dolda script som förvirrar en AI. DigiSunds crawler har inbyggda filter som rensar bort detta innan informationen ens når AI-hjärnan.
Vad vi rensar bort automatiskt
Smart Discovery i realtid
Vår Discovery-motor stannar inte vid första skanningen. Varje gång du lägger till en ny URL manuellt i kontrollpanelen, gör systemet en omedelbar analys för att se om den sidan i sin tur länkar till andra viktiga källor.
| Fält / Inställning | Förklaring |
|---|---|
| Filtrering av filtyper ID: Regex-filter | Vi exkluderar automatiskt filer som .jpg, .png, .zip och .pdf från den automatiska skrapningen. För att låta AI:n läsa dina PDF-filer laddar du istället upp dem via kontrollpanelen. Läs hur här. |
| Domän-låsning ID: Origin-validation | Vår crawler lämnar aldrig din domän. Om du länkar till din Facebook eller en samarbetspartner, kommer AI:n att ignorera dessa för att hålla fokus på din verksamhet. |
| User-Agent ID: Crawler-Identity | Vi identifierar oss som en modern webbläsare för att säkerställa att vi får se samma innehåll som en mänsklig besökare, inklusive text som genereras dynamiskt. |
För den tekniskt nyfikne: Vår upptäcktsprocess kallas för en Breadth-First Search (BFS) med ett djupstopp.
- Sitemap Priority: Vi testar först `/sitemap_index.xml` följt av `/sitemap.xml`. Om en sitemap hittas, avbryts den heuristiska spindlingen omedelbart för maximal precision.
- Cheerio Parsing: Vi använder Cheerio för att bygga ett virtuellt DOM-träd av din sida. Detta tillåter oss att extrahera titlar (`h1-h6`) och brödtext separat för att bibehålla strukturen i AI-hjärnan.
- Deduplicering: Innan en sida sparas kör vi en MD5-hash på innehållet. Om du har två olika länkar som går till identiskt innehåll, kommer systemet bara att lagra den ena.
Säkerhet & Etik
DigiSund respekterar din integritet. Vi skannar endast sidor som är publikt tillgängliga. Vi försöker aldrig "bryta oss in" bakom inloggningsväggar eller dolda mappar. Om du har sidor du inte vill att AI:n ska läsa, kan du enkelt inaktivera dem med ett klick i kontrollpanelen.
Hemsidan är skannad. Men vad med era PDF-filer?
Lär dig hur du laddar upp interna dokument som prislistor och manualer.