Webprogrammierung Harald Sack. Yovisto Academic Video Search. (Teil 3 / Suchmaschinen) Suchmaschinen 16. Google funktioniert eigentlich 16.3 Suchmaschinentechnologie 16.1 Suchergebnisse bessere Alternativen 16.4 WWW Teil Technologien Hasso Plattner Institut suchmaschin alternativ bess suchergebniss alternativ darstell topic maps technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin alternativ bess suchergebniss alternativ darstell touch graph technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena technisch grundlag internet literatur www kommunikation internetworking web technologi suchmaschin meinel sack spring gloggl suchmaschin alternativ bess suchergebniss ergebniss klassifiziert beurteil qualitat suchergebniss genau anteil korrekt klassifiziert genauigkei technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin funktioniert googl hub authoriti gegenseit verstark hits-algorithmus kleinberg gewichtungsmodell gut hub zeigt gut authority gut verlinkt dokument wert berechnet wert hilf hyperlink-graph iterativ algorithmus suchmaschin alternativ bess suchergebniss alternativ darstell topic maps technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena hpi potsdam harald sack fsu jena suchmaschin alternativ bess suchergebniss alternativ sortiert list darstell ublicherweis dargestellt deskriptor clust technisch grundlag internet vorles meinel suchmaschin funktioniert googl deskriptorengewinn schlusselwort ziel gesetz datenaufbereit moglich inhalt reprasentiert anwend keyword-relevanzfilt partiell kontextanalys html texthervorheb auslass fullwort bindewort pronom haufigkeitsanalys schlusselwort relevanz autor text einfach bestimmt wort thema beschreib wiederhol standig neu begriff suchmaschin alternativ bess suchergebniss alternativ sortiert list darstell ublicherweis dargestellt deskriptor clust technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin alternativ bess suchergebniss alternativ sortiert list darstell ublicherweis dargestellt deskriptor clust technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin alternativ bess suchergebniss spezialisiert suchdien qualitat googl technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena informationsfull schatzung geh milliard dokument dokumentenbestand verdoppelt monat end entwickl zunach absehbar suchmaschin suchmaschinentechnologi googl www bietet zugriff gigant suchmaschin funktioniert googl webcrawl implementier wart dns http socket send empfang pag fetching thread dokument bekannt extrahi normalisi resolv suchmaschin funktioniert googl robot-netiquett komponent webcrawl vereinfacht gath html-autor robot speziell meta-tag steu empfiehlt beachtung robot exclusion standard halt suchmaschin funktioniert googl suchmaschin datenbeschaff probl datentyp arbeitsweis datenvielfalt www statisch html-dokument dynam erzeugt bild festleg archiviert suchmaschin alternativ bess suchergebniss spezialisiert suchdien qualitat googl technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena technisch grundlag internet teil iii world wid web technologi suchmaschin vorles uri http-protokoll html css xml xml-derivat webprogrammier webservic www-groupwar gridcomputing semantic friedrich schill universitat jena institut informat hasso-plattner-institut softwaresystemtechn gmbh potsdam meinel hpi harald sack fsu suchmaschinentechnologi pagerank indexbasiert doktorand larry pag sergey brin stanford university entwickelt googol mathemat ausdruck milliard dokument bild datenbestand verschied sprachversion unterschied nutz monat suchanfrag tag automat relevanzbewert sorgt qualitativ gut suchergebniss suchmaschin suchmaschin funktioniert googl webcrawl implementier wart dns http socket send empfang pag fetching thread dokument bekannt extrahi normalisi resolv suchmaschin funktioniert googl deskriptorengewinn schlusselwort ziel gesetz datenaufbereit moglich inhalt reprasentiert anwend keyword-relevanzfilt partiell kontextanalys html texthervorheb auslass fullwort bindewort pronom haufigkeitsanalys schlusselwort relevanz autor text einfach bestimmt wort thema beschreib wiederhol standig neu begriff suchmaschin alternativ bess suchergebniss spezialisiert suchdien qualitat googl groups scholar froogl lab linux microsoft technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin alternativ bess suchergebniss filteroperation spezialisiert suchdien qualitat zusatz sprachenfilt domain ip-filt dokumententyp dokumentengross technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin alternativ bess suchergebniss spezifikation suchanfrag logisch operator qualitat abhang verfeiner suchabfrag angab mehr zutreff schlusselwort kombination schlusselwort golf sport auto dokument verhaltnis dokument suchmaschin alternativ bess suchergebniss relevant recall gefund precision beurteil qualitat suchergebniss anzahl suchmaschin pagerank problem golf alternativ bess suchergebniss darstell suchergebniss erschein dokument hoh dokument niedrig synonym homonym text grafik multimedia-dokument manipulation teil iii www technologi suchmaschin alternativ bess suchergebniss suchmaschinentechnologi struktur funktioniert googl webcrawl invertiert dateisystem ranking suchergebniss pagerank-algorithmus technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin funktioniert googl adword geld entsprech suchabfrag nutz zusatz bezahlt werbe-link angezeigt technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin funktioniert googl hub authoriti hub authority gewichtungsmodell ergibt summ authority-wert verlinkt dokument hub-wert dokument verweis hilf hyperlink-graph iterativ algorithmus suchmaschin funktioniert googl hub authoriti gegenseit verstark hits-algorithmus kleinberg gewichtungsmodell gut hub zeigt gut authority gut verlinkt dokument wert berechnet wert suchmaschin funktioniert googl hub authoriti hub authority gewichtungsmodell dokument uberdurchschnitt link dokument bestimmt thema relevant zeig stellt art autoritat suchmaschin cos sim cluster-verfahr funktioniert googl gewichtungsmodell abfrag reprasentiert dokumentenvektor berechn dokumentenvektor dokumentenvektor vektor gefund ergebniss ergibt cosinus winkel suchmaschin funktioniert googl cluster-verfahr ahnlich dokument gewichtungsmodell dokumenten-clust zusammengefasst clusterzuordn erstell analys dokumenten-deskriptor hilf thesauri technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin funktioniert googl relevanz-feedback direkt indirekt feedback annahm haufig hoh relevanz gewichtungsmodell dokument ergebnislist suchabfrag nutz ausgewahlt berucksicht hoh click-popularitat hinreich gut beschreib inhalt descripton meta-tag html-head verwend iterativ durchgefuhrt stabil zustand technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin funktioniert googl fixpunkt gewichtungsmodell beispiel pagerank-berechn berechn pagerank suchmaschin funktioniert googl gewichtungsmodell lasst formel berechn wichtig dokument gewinn ermittelnd dokument link enthalt pagerank anzahl ausgeh link dokument dampfungsfaktor suchmaschin funktioniert googl relevanz relevanzgewicht wichtig gewichtungsmodell qualitativ hochwert suchergebniss erziel invertiert index gewonn dokument entsprech gewichtet unterscheidet wichtig unwicht dokument dokument wichtig link verweis wichtig link verweist unwicht einzeln teil iii www technologi suchmaschin alternativ bess suchergebniss suchmaschinentechnologi struktur funktioniert googl webcrawl invertiert dateisystem ranking suchergebniss pagerank-algorithmus technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin funktioniert googl wichtig invers term frequency algorithmus itfa vorkomm schlusselwort dokument datenaufbereit dokument schlusselwort inhalt moglich eindeut kennzeichn abgrenz relativ worthauf einbezieh itf hochwert suchergebniss erziel invertiert index gewonn dokument entsprech relevanz gewichtet gesetz schlusselwort text vorkommt absolut worthauf relativ suchmaschin funktioniert googl wichtig term frequency algorithmus tfa haufig wichtig datenaufbereit qualitativ suchmaschin funktioniert googl wichtig invers term frequency algorithmus itfa vorkomm schlusselwort dokument datenaufbereit dokument schlusselwort inhalt moglich eindeut kennzeichn abgrenz relativ worthauf einbezieh itf suchmaschin funktioniert googl wichtig term frequency algorithmus tfa haufig wichtig datenaufbereit qualitativ hochwert suchergebniss erziel invertiert index gewonn dokument entsprech relevanz gewichtet gesetz schlusselwort text vorkommt absolut worthauf relativ teil iii www technologi suchmaschin alternativ bess suchergebniss suchmaschinentechnologi struktur funktioniert googl webcrawl invertiert dateisystem ranking suchergebniss pagerank-algorithmus technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena meinel hpi potsdam harald sack fsu jena fskdfjhgsdfhskgd dsfhgdshdg sdhdsfhdshsfjsjgdgjhshdfg sdhdfgdshgsgdf sdgfhdshdsjhsfdjfsjhsf sdgfdsgdfgsdg sdhsfgjhzrujrthgfxbvh srthbfgxbcvbxt hxgbxfgjnxftkjzrhfgbx xdfhbfgnbxgnxfgnx rthxfgbnbvcgn txhfgnbxvgnfxgnxf fxgnhdrgfgfxbdbn fdxgnfgndg ndghndghmnmhggfm dsfdfgsdfgdsfgdsfhsdhsdhsfghsfhd sdhgsdfgdgdsgdsfhgsdhsdhds dsfhgdsfgdsgds gdshsdhdsfhsfdhsdfghsdhsdh sdfgsdhsdhsfdjhsdjsdjsdg srthsfhbfsgnbhfgsnhfgs hsfgbsfgbsfghbsf bsfgbfgsbfgnbdfgndghn dfndfgnbdfgnghdmngdhmdghmh suchmaschin funktioniert googl index datenaufbereit dokument zyp zustand dynam chromatograph bratwurst buttermilch ananas altavista aach technisch grundlag internet vorles suchmaschin funktioniert googl invertiert index invertiert dateisyst ananas datenaufbereit erfordernis schnell beantwort suchabfrag speziell datenstruktur erford umgekehrt deskriptor reih relevant dokument zugeordnet suchmaschin funktioniert googl index datenaufbereit dokument zyp zustand dynam chromatograph bratwurst buttermilch ananas altavista aach technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena fskdfjhgsdfhskgd dsfhgdshdg sdhdsfhdshsfjsjgdgjhshdfg sdhdfgdshgsgdf sdgfhdshdsjhsfdjfsjhsf sdgfdsgdfgsdg sdhsfgjhzrujrthgfxbvh srthbfgxbcvbxt hxgbxfgjnxftkjzrhfgbx xdfhbfgnbxgnxfgnx rthxfgbnbvcgn txhfgnbxvgnfxgnxf fxgnhdrgfgfxbdbn fdxgnfgndg ndghndghmnmhggfm dsfdfgsdfgdsfgdsfhsdhsdhsfghsfhd sdhgsdfgdgdsgdsfhgsdhsdhds dsfhgdsfgdsgds gdshsdhdsfhsfdhsdfghsdhsdh sdfgsdhsdhsfdjhsdjsdjsdg sdhgdfghsdgfhsdtjsfjfdgresrgsreh srthsfhbfsgnbhfgsnhfgs hsfgbsfgbsfghbsf bsfgbfgsbfgnbdfgndghn dfndfgnbdfgnghdmngdhmdghmh funktioniert googl vektorraum-modell ide datenaufbereit stammt information retrieval dokument vektor n-dimensional vektorraum betrachtet dimension moglich wort lang basisvektor entspricht anzahl reprasentiert wort betrachtet dokument ergibt linearkombination basisvektor anwend method linear algebra suchmaschin teil iii www technologi suchmaschin alternativ bess suchergebniss suchmaschinentechnologi struktur funktioniert googl webcrawl invertiert dateisystem ranking suchergebniss pagerank-algorithmus technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena ziel suchmaschin funktioniert googl deskriptorengewinn schlusselwort gesetz datenaufbereit moglich inhalt reprasentiert anwend keyword-relevanzfilt partiell kontextanalys html texthervorheb auslass fullwort bindewort pronom haufigkeitsanalys schlusselwort relevanz autor text einfach bestimmt wort thema beschreib wiederhol standig neu begriff suchmaschin funktioniert googl webcrawl datenaufbereit analys datennormalisier wortidentifikation sprachidentifikation word stemming deskriptor list information retrieval normalisier technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin funktioniert googl inhalt erschliess textdokument einheit dokumententyp relevant zeichenfolg schlusselwort rangfolg datenaufbereit analys umwandl dokument effizient durchsuchbar datenbestand auffind semant textdatei analysi zuordnung suchbegriff dokument berucksicht bewertungskriteri bild spam defekt redirect eliminiert duplikat suchmaschin funktioniert googl check information retrieval-syst gesucht komponent webcrawl vereinfacht entscheidet dokument gath weitergegeb auswahl dokumententyp syntakt korrekt link vermeid suchmaschin funktioniert googl webcrawl implementier wart dns http socket send empfang pag fetching thread dokument bekannt extrahi normalisi resolv suchmaschin funktioniert googl zeitaufwand prozess parallelisier einzelaufgab webcrawl implementier anforder www-dokument url dns tcp-verbind aufbau dat ubertrag abbau duplikat erkenn hyperlink dokument extrahi suchmaschin funktioniert googl robotstxt webrobot exclusion protocol komponent webcrawl vereinfacht gath identifikation logfil webserv webserv lenk get user-agent googlebot disallow technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena vereinfacht gath erfass dokument moglich halt datenbestand moglich aktuell dynam ressourc inseln dark web http get-requ user-agent suchmaschin funktioniert googl ziel problem get komponent webcrawl suchmaschin funktioniert googl komponent webcrawl vereinfacht gath www-serv load url-db check information retrieval technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin funktioniert googl gath load url-datenbank check komponent webcrawl vereinfacht dokumentensamml www organisation beschaffungsauftrag verwalt gesammelt datenbestand filter dat suchmaschin funktioniert googl arbeitsweis webcrawl vereinfacht initialisi warteschlag zufall gewahlt url lad dokument url warteschlang find hyperlink untersucht hang speich untersucht goto suchmaschin funktioniert googl suchmaschin www-serv webrobot datenbeschaff webrobot crawl verteilt anfrag dokument arbeitsweis robot webcrawl spid verwendet erschliess datenbestand www arbeitet prinzip suchmaschin funktioniert googl suchmaschin datenbeschaff probl period gewartet arbeitsweis www dat dokument wissensraum kurz lebenszeit unterlieg standig verander dokument abhang link erfasst datenbestand datentyp arbeitsweis datenvielfalt www statisch html-dokument dynam erzeugt bild festleg archiviert suchmaschin funktioniert googl suchmaschin datenbeschaff probl teil iii www technologi suchmaschin alternativ bess suchergebniss suchmaschinentechnologi struktur funktioniert googl webcrawl invertiert dateisystem ranking suchergebniss pagerank-algorithmus technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin struktur www tunnel fortsatz brod graph structur web mio knot out scc unverbund komponent technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin struktur www schwach verbund komponent stark konnektivitat hyperlink ungerichtet kant interpretiert einzeln komponent untersucht dokument gerichtet bild kernkomponent scc durchmess gesamtgraph zufall ausgewahlt dokument pfad suchmaschin struktur www cocitation-graph graph interpretation knot besitz genau gemeinsam ungerichtet kant dokument verweis technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena dokument knot hyperlink kant hyperlink-graph graph riesig befind technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin struktur www teil iii www technologi suchmaschin alternativ bess suchergebniss suchmaschinentechnologi struktur funktioniert googl webcrawl invertiert dateisystem ranking suchergebniss pagerank-algorithmus technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena larry suchmaschin suchmaschinentechnologi pagerank indexbasiert doktorand pag sergey brin stanford university entwickelt googol mathemat ausdruck milliard dokument bild datenbestand verschied sprachversion unterschied nutz monat suchanfrag tag automat relevanzbewert sorgt qualitativ gut suchergebniss suchmaschin suchmaschinentechnologi aktuell vollstand contra indexbasiert automat datenbeschaff ermoglicht moglich datenbestand zielgenau abhang relevanzbewert eingesetzt algorithm fuhrt qualitativ minderwert ergebniss suchmaschin suchmaschinentechnologi suchmaschin beantwort suchabfrag automat relevanzbewert query processor indexbasiert such erfolgt eingab suchbegriff einzeln dokument datenbestand fuhrt auswahl ergebniss entsprech eingegeb suchbegriff ergebnis-dokument eigent anzeig gefund relevanzgewicht entsprech relevant kategori datenbank einzeln dokument relevanz behandelt them zugewies verfahr erstell durchsuchbar datenbestand bezeichnet suchmaschin suchmaschinentechnologi aufbau verwalt index-datenstruktur information retrieval system inhalt schwerpunkt schlusselwort gewicht indexier indexbasiert ermitteln untersucht dokument leg analysiert suchmaschin suchmaschinentechnologi dokumentenananalys bewert information retrieval system indexbasiert einsatz software-werkzeug automatisiert analys inhalt dokument manuell eingriff erfolg regel verstoss jeweil nutzungsordn suchmaschin suchmaschinentechnologi datenbeschaff robot indexbasiert einsatz speziell autonom arbeit werkzeug automat neu websit dokument www datenbestand vorhand period uberpruft suchmaschin suchmaschinentechnologi basisfunktion indexbasiert index-datenbestand vollautomat gewonn verarbeitet datenbeschaff dokumentenanalys dokumentenbewert aufbau verwalt index-datenstruktur beantwort suchanfrag einbezieh relevanzwert suchmaschin suchmaschinentechnologi webkatalog katalogbasiert yet anoth hierarchical officious oracl gegrundet mio uniqu user activ registered serv international sit languag million lin cod perl internet portal-sit retrieval dokument vektor n-dimensional vektorraum betrachtet dimension moglich wort lang basisvektor entspricht anzahl reprasentiert wort betrachtet dokument ergibt linearkombination basisvektor anwend method linear algebra suchmaschin funktioniert googl vektorraum-modell ide datenaufbereit stammt information suchmaschin suchmaschinentechnologi webkatalog katalogbasiert directory mozilla open project nichtkommerziell beteil mio sit katalog verzeichnet unterschied kategori freiwill editor suchmaschin suchmaschinentechnologi webkatalog katalogbasiert yet anoth hierarchical officious oracl gegrundet mio uniqu user activ registered serv international sit languag million lin cod perl internet portal-sit suchmaschin suchmaschinentechnologi aufbau verwalt index-datenstruktur information retrieval system inhalt schwerpunkt schlusselwort gewicht indexier indexbasiert ermitteln untersucht dokument leg analysiert entsprech relevant kategori datenbank einzeln dokument relevanz behandelt them zugewies verfahr erstell durchsuchbar datenbestand bezeichnet suchmaschin funktioniert googl deskriptorengewinn schlusselwort ziel gesetz datenaufbereit moglich inhalt reprasentiert anwend keyword-relevanzfilt partiell kontextanalys html texthervorheb auslass fullwort bindewort pronom haufigkeitsanalys schlusselwort relevanz autor text einfach bestimmt wort thema beschreib wiederhol standig neu begriff softwaresystemtechn gmbh potsdam meinel hpi harald sack fsu technisch grundlag internet teil iii world wid web technologi suchmaschin vorles uri http-protokoll html css xml xml-derivat webprogrammier webservic www-groupwar gridcomputing semantic friedrich schill universitat jena institut informat hasso-plattner-institut suchmaschin suchmaschinentechnologi webkatalog katalogbasiert yet anoth hierarchical officious oracl gegrundet mio uniqu user activ registered serv international sit languag million lin cod perl internet portal-sit suchmaschin suchmaschinentechnologi grundtyp www-suchdien themenbezog shopping nachricht person comput internet unterhalt business wissenschaft regional rss-suchmaschin technisch grundlag vorles meinel hpi potsdam harald sack fsu jena suchmaschin suchmaschinentechnologi webkatalog katalogbasiert yet anoth hierarchical officious oracl gegrundet mio uniqu user activ registered serv international sit languag million lin cod perl internet portal-sit suchmaschin suchmaschinentechnologi manuell automat webkatalog katalogbasiert eintrag katalog sortiert redakteur ordnet gewicht entsprech relevanz sortier themengebiet erfolgt informationsangebot berucksichtigt probl aktualitat neu angemeldet suchmaschin suchmaschinentechnologi qualitat contra webkatalog katalogbasiert intellektuell bewert web-seit mensch erhoht prazision suchergebniss relativ klein datenbestand suchmaschin suchmaschinentechnologi menschlich redakteur webkatalog katalogbasiert suchdien datenbestand zusammengestellt redakteur stell themat gegliedert suchkatalog web-seit manuell gepruft redaktionell bewertet verworf aufnahm katalog akzeptiert such erfolgt blatt suchkatalog suchmaschin suchmaschinentechnologi grundtyp www-suchdien themenbezog shopping nachricht person comput internet unterhalt business wissenschaft regional rss-suchmaschin technisch grundlag vorles meinel hpi potsdam harald sack fsu jena suchmaschin suchmaschinentechnologi grundtyp www-suchdien webkatalog katalogbasiert indexbasiert meta-suchmaschin payed placement-suchmaschin technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin suchmaschinentechnologi moglich vollstand zuordnung dokument schlusselbegriff vollstand genau allgemein anforder unterstutz nutz beschaff www erschliess datenbestand einschliesst einzeln bestimmt wichtig kriteri nutz anbiet informationsanbiet gefund nutz unterstutzt technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena suchmaschin suchmaschinentechnologi geeignet werkzeug gezielt information www zugreif suchmaschin suchmaschinentechnologi googl www bietet zugriff gigant informationsfull schatzung geh milliard dokument dokumentenbestand verdoppelt monat end entwickl zunach absehbar teil iii www technologi suchmaschin alternativ bess suchergebniss suchmaschinentechnologi struktur funktioniert googl webcrawl invertiert dateisystem ranking suchergebniss pagerank-algorithmus technisch grundlag internet vorles meinel hpi potsdam harald sack fsu jena technisch grundlag internet teil iii world wid web technologi suchmaschin vorles uri http-protokoll html css xml xml-derivat webprogrammier webservic www-groupwar pp-netzwerk gridcomputing semantic friedrich schill universitat jena institut informat hasso-plattner-institut softwaresystemtechn gmbh potsdam meinel hpi harald sack fsu technisch grundlag internet vorles sommersem christoph meinel harald sack
Webprogrammierung
Subtitle:
(Teil 3 / Suchmaschinen)
Date/Place:
2005-07-07 MMZ E028
Category:
Computer Science