Sveriges minsta sökmotor

**Tina Isola** · 2006-05-14, 10:23

[Detta inlägg har raderats enligt krav från Tina. Läs mer.]

**latehorn** · 2006-06-19, 04:26

Jag testade att söka lite men tyvärr så fick jag detta:

Sorry,We cannot find any search results for "skog"
Sorry,We cannot find any search results for "häst"
Sorry,We cannot find any search results for "fotboll"
Sorry,We cannot find any search results for "cykel"
Sorry,We cannot find any search results for "kung"

Engelska förklaring, snälla du.. Ta och översätt lite

**Tina Isola** · 2006-06-19, 04:52

[Detta inlägg har raderats enligt krav från Tina. Läs mer.]

**Per Renemark** · 2006-06-19, 12:52

Ok. Vad är meningen med tjänsten?

**Tina Isola** · 2006-06-19, 16:30

[Detta inlägg har raderats enligt krav från Tina. Läs mer.]

**Jim Westergren** · 2006-06-19, 17:11

Hehe.

Kul att du kan ha detta att skapa och syssla med.

Ett tips är att sätta sökmotorn på en egen domän om du ska jobba med den seriöst ...

Lycka till.

**Tina Isola** · 2006-06-20, 21:01

[Detta inlägg har raderats enligt krav från Tina. Läs mer.]

**Maccke** · 2006-07-17, 19:49

Pointing, har du inget förslag på gratisscript? Jag köpte en engelsk datatidning där det fanns ngt script för att skapa en väldigt enkel sökmotor, men när jag sedan flyttade tappade jag bort CD'n. Väldigt irriterande, för jag var seriös med att skapa en simpel sökmotor :/

Kontakta mig gärna om du vill samarbete eller söker en delägare. Jag har gott om bra namn så det behöver du inte tänka på

Annars vore det kul att få tips om några script, både gratis och som kostar pengar.

Tack på förhand,
Maccke

**Hjalmar** · 2006-07-17, 20:09

http://lucene.apache.org/ kanske kan vara något.

**Maccke** · 2006-07-17, 22:47

Tack för tipset Hjalmar. Försöker plöja igenom all deras text nu och det var ju inte lite heller. Gillar dock inte att denna sökmotor ej kan indexera själv, av t ex länkar på en hemsida. Har någon förslag på sökord man kan använda för att få fram script/verktyg för att bygga en sökmotor???

**Tina Isola** · 2006-07-18, 07:48

[Detta inlägg har raderats enligt krav från Tina. Läs mer.]

**Hjalmar** · 2006-07-18, 08:26

En seriös sökmotor har alltid flera moduler, det går inte ens att indexera .se med en mjukvara som är både indexerare, spindel och index i samma programmodul. Allting mindre än det skulle jag inte kalla sökmotor utan manuell katalog.

Det är relativt enkelt att skriva ett script som surfar nätet och hämtar <a>-länkar för att sedan spara dem på disk, de filerna läser man sedan in med tex lucenes indexerare.

Att koda en sökmotor i asp är väl .. ja, doable, men herregud, varför...

Edit:
Se gärna http://www-db.stanford.edu/pub/papers/google.pdf, sidan sju 4.1 Google Architecture Overview.

Anledningen till att det har gått så bra för google är i MÅNGA fall att de lyckades indexera det som de andra sökmotorerna på den tiden kallade det "dolda" internet, helt enkelt på grund av deras lysande system-arkitektur. Pagerank etc är en mycket liten del i deras framgång.

Varje del i Googles system är separat och klustrad, vilket gör att varje del kan utökas, krasha, gå offline utan att hela systemet för den delen slutar fungera (ger driftsäkerhet, redundans och kapacitet).

De har separata delar (processer, kan köras på samma maskin till en början för att sedan expanderas ut på många maskiner/kluster):

- URL Server (håller reda på vilka urls som skall indexeras).
- Crawler (maskiner som hämtar hem sidorna url servern innehåller).
- Repository (här lagras all rådata).
- Store server (håller reda på vart de olika sidorna ligger)
- Anchor (håller reda på länkar, träd, hjälpdata vid pagerank, lsi etc)
- Url resolver (att slå upp dns är kostsamt tidsmässigt, och görs med fördel i en separat process. Man vill även kunna cacha själv).
- Barrels (här är själva hjärtat i google, här lagras all data, rådatan, den kompilerade parsade htmlkoden som strukturerade index, det blir ofta 2x så mycket data som orginaldatan vilket gör att tillgången till mycket plats är av vitalt intresse).
- Lexicon (för att kunna göra tex klustring, vilka ord hänger ihop).
- Pagerank (doh)
- Doc index (håller reda på vart vilka dokument ligger i Barrelsen)
- Sorter (ser till att Barrels-datat är sorterat i rätt ordning, uppdaterar i realtid så att skrivningar slipper bry sig så mycket).
- Searcher. (en frontend mot användare som kommunicerar mot sökmotorn).

Alltså, att koda alla dessa delar eller ens bara några av dem som en process är mycket korkat då man låser sig själv till en enprocesslösning. Det finns ingen sökmotor i världen som kan köras med en process.

**Oskar Lindgren** · 2006-07-18, 10:28

Ursprungligen postat av Maccke

Har någon förslag på sökord man kan använda för att få fram script/verktyg för att bygga en sökmotor???

Hashtabell, bredden/djupet/intelligent/binär-sökning, träd, trädtraversering, tidskomplexitet, datastruktur och algoritm. Det kräver dock en heldel mattekunskaper för att utveckla en egen snabb och skalbar sökmotor. Fast man behöver inte satsa på att klå google..

**Hjalmar** · 2006-07-18, 10:42

Det går rätt fort att uppnå datamängder som gör att även en kraftfull server börjar kräkas bara på sökningarna, det går helt enkelt inte att tex indexera 10 miljoner dokument och sedan låta någon söka bland dem och tro att det skall gå på 0.003 sek. Det kräver att man separerar indexen mellan flera maskiner och kan hantera parallella sökningar.

Mot lite $$$ så kan jag dela med mig utav parserkoden till siterunner.info som vi använder för att ladda hem, strippa och få ut "innehållet" ur webbsidor till. Den tar en url och spottar ur sig de unika ord som finns i dokumentet, skulle tex kunna användas för att skapa en sökmotor som använder sig av inverterat ord-index.

Mot mycket $$$ så kan jag tänka mig att även hacka ihop ett proof-of-concept script för att spindla, queua länkar och iterera över dem i php (som siterunner.info är kodat i). Men man är fortfarande mycket långt från att kunna användas kommersiellt.. men om nån nu vill ha en starting point..

**jonas02** · 2007-12-08, 04:02

Med Larbin så har jag lyckats att crawla cirka 10 miljoner webbsidor om dagen. Kod finns på http://larbin.sourceforge.net/index-eng.html

Sen är det bara att sätta in i databasen och indexera och göra det sökbart. Lätt som en plätt

**Tina Isola** · 2007-12-08, 09:16

[Detta inlägg har raderats enligt krav från Tina. Läs mer.]

Sveriges ledande forum inom
sökmotoroptimering och internetmarknadsföring

Sveriges minsta sökmotor

Ämnesverktyg

Ämnesinformation

Användare som tittar på det här ämnet

Liknande ämnen

www.sesam.se - ny sökmotor

Wikiasari - Sökmotor baserad på Wikipedia

GahooYoogle- Google och Yahoo i samma sökmotor

Ny udda sökmotor

MSN lanserar ny sökmotor

Sveriges ledande forum inom sökmotoroptimering och internetmarknadsföring

Sveriges minsta sökmotor

Ämnesverktyg

Ämnesinformation

Användare som tittar på det här ämnet

Liknande ämnen

www.sesam.se - ny sökmotor

Wikiasari - Sökmotor baserad på Wikipedia

GahooYoogle- Google och Yahoo i samma sökmotor

Ny udda sökmotor

MSN lanserar ny sökmotor

Sveriges ledande forum inom
sökmotoroptimering och internetmarknadsföring