Kalcsó Gyula – digitális gereblyézés /// OSZK CSEVEJ S02E10
Description
Zajlik a kozterkep.hu scrapingje, gereblyézése, amelyben majdnem félmillió fotót és adatot mentettek az OSZK webarchiválási robotjai, ezek szolgáltatásáról is beszélgetünk, és a webarchiválás legújabb tapasztalatairól is szól a csevej egy nemzetközi konferencia kapcsán.
Az OSZK 20. csevejében Kalcsó Gyulával, a Digitális Bölcsészeti Központ Digitális Filológiai és Webarchiválási Osztály munkatársával beszélgetett Tóth Péter, a nemzeti könyvtár webes tartalompakolója. Solymosi Ákos hangmérnök segítette a csevej elkészítését.
Tartalom:
01:08 Webarchiválás gereblyézéssel – scraping
04:04 Célzott tartalmi elemek mentése, webarchiválás light
06:00 Közel félmillió gereblyézett kép scriptekkel
08:20 A webes szerzői jog
11:20 Hol vannak a bezárt weboldalak adatai?
13:40 Az OSZK-robotok legálisan gereblyéznek
15:30 Etikus felhasználói lopás az interneten
17:10 Digitális köteles példányok
18:30 A mentett dokumentumok kutathatósága, a weboldal nyers szövegének adatvizualitása
21:08 A nyelvek szerepe a webarchiválásban
24:08 Kutatófelületet fejleszt az OSZK
26:29 A közösségi oldalak mentése a legújabb kihívás
OSZK-webarchívum: https://webarchivum.oszk.hu/
Scraping: https://matebalazs.hu/scraping.html
Webscraping: https://en.wikipedia.org/wiki/Web_scraping
Videón a gereblyézés: https://www.youtube.com/watch?v=dlj_QL-ENJM