-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
CSV -> KG -> web site? #8
Comments
@gjonor missade detta enklare pinga mig på Telegram Japp Open Refine eller lite bökigare Qickstatement
|
Jag
Mitt Open Refine projekt Myndigheter-i-PDF.openrefine.tar.gz
|
@gjonor FYI "The eighth Wikidata Working Hour in the series will be batch loading data using OpenRefine to create items for works and editions in Wikidata"
Zoom link to join: https://stanford.zoom.us/j/98925562258?pwd=OWNpaDZhZ2h4bCtvZWtnajZmZmtKdz09 Password: 532871 Event page: October-14_Wikidata_Working_Hour Installera Open refineMisc
|
Ja, det låter bekant. |
Jag har skapat en instans på wikibase.cloud och lagt in data från nosad org.csv. Jag skapade en fråga som listar presentationerna, och även om det är i ett opolerat format så känns det rätt bra att kunna titta igenom uppgifterna med ämne, titel och föreläsare, och möjligheten att hoppa till respektive avsnitt i videoinspelningarna ger en känsla av bättre överblick. Det kan ju vara en utgångspunkt för att skapa och underhålla ett mer datadrivet innehåll. När datan är länkad blir det också lättare att gå igenom och upptäcka sådant som ev. inte stämmer eller saknas och korrigera och komplettera uppgifter tycker jag. |
Coolt @gjonor Du har
The October Working Hour will feature one presentation: Amy Ruskin of Northeastern University Library, will speak on the topic of Wikidata vs. custom Wikibases: Community history case studies. The Boston Research Center (BRC) is a digital community history and archives lab based in the Northeastern University Library. One of our current projects involves taking an inventory of historical materials related to Boston’s Chinatown, and we have been using Wikibase to store multilingual data about the linked collections, organizations, and people. In this presentation, we will discuss our experience of getting started with a custom Wikibase and give an overview of our progress so far on the Chinatown Collections project. Amy Ruskin is the Data Engineer in the Digital Scholarship Group in the Northeastern University Library. She has a Master's degree in Information Studies from McGill University and a background in computer science and statistics. |
Tycker det stämmer som de säger i en tidigare videoinspelning att wikibase.cloud verkar rätt långsamt, det kan ta flera minuter för vissa ändringar att slå igenom, kanske också p.g.a. cachning. |
@gjonor Japp i kombination med att det är en grafdatabas och inte en transaktionsdatabas... sedan tror jag man inte lyckats sätta upp sökningen... jag snurrade upp en egen Wikibase på min Mac som snurrade lite bättre ... deras test med raspberry känns lite kul dock... personligen tor jag mer på lösningar typ Neo4J som jag testar lite i och med att jag läser böckerna Knowledge Graphs Applied och "Graph Neural Networks in Action"
|
Once you go Linked data you never go back Snyggt att du lägger alla presentatörerna som egna objekt Kungliga Biblioteketsprojekt LIBRISXL har blivit textsträngar i RDF för att man missa att skapa Persistenta Identifierare för författare som inte är med i Auktoritetsdata, vilket jag tycker är helt fel även om personen inte är 100% identifierad så för att referera personen måste man uppfylla FAIRDATA F1
|
Raspberry Pi låter kul. Verkar böckerna läsvärda?
Jaha, det kanske gäller för icke verifierade användare, det kanske går att justera rättigheterna så man slipper sådant. |
Man kanske ska tänka så att alla företeelser man eventuellt vill kunna lägga till ytterligare information om borde vara objekt.
Om man själv sitter och försöker sammanställa information t.ex. med OpenRefine borde man ju rätt snabbt inse relevansen av att ha unika identifierare, och hur mycket arbete och tid det går åt annars att försöka koppla poster via textfält som kan ha olika stavningsvarianter och felskrivningar, så det handlar kanske om att man inte har någon klar bild av hur datan kan användas i praktiken. "Machine-actionability" låter som en koncis sammanfattning av FAIR-principerna.
Intressant med exempel på federerade frågor och de möjligheter som finns att återanvända och sammanställa information på nya sätt. |
Man kan ju tänka sig att datan skulle annoteras med sources och qualifiers också, har inte tittat på det. Nästa steg utöver att snygga till och komplettera datan borde annars vara att försöka presentera någon form av innehåll med datan som underlag, något som är lite mer lättläst än rena frågeresultat och datalistningar. Antingen direkt i wiki-sidor i MediaWiki om det finns inbyggda möjligheter för detta, eller som en separat applikation som genererar innehåll med data från Wikibase. |
@jonassodergren vad är status med NOSAD Persistenta identifierare kan vi använda dom för att peka på NOSAD data som källa
|
@gjonor du skulle kunna sätta upp en reconciliation service för NOSAD data ;-) Om vi hade ett ekosystem med Öppen Data i Sverige så skulle nog detta vara den vägen vi skulle vandra.... nu har vi fastnat i en återvändsgränd med diskussionen hur "dumt" man kan svara på en fråga om Öppna data eller hur lite man kan leverera
|
Nej. Jag måste sätta upp en enkel lösning som är stabil i några år men som inte tar några direkta resurser i anspråk. POC:en visar att som identifierare räcker en vettig URI-struktur som är stabil. Däremot måste datan servas från en plats som inte kräver ytterligare underhåll från min myndighet. Min hypotes är att överväga data.arbetsformedlingen.se/events som bas för detta. Ska resonera lite med DevOps om detta. |
@jonassodergren Det jag ser mer och mer är hur snyggt design mönster Wikibase är med en grafdatabas i botten där varje nod får en persistent identifierare som nu @gjonor gjort på oswald.wikibase.cloud / SPARQL
Känns som komplexiteten att skapa liknande infrastruktur för kommuner och myndigheter #76 där alla pratar svenska borde vara enormt enkelt om någon ser fördelarna och vill leverera och detta med Persistenta Identifierare landar....
|
Håller med. Att koppla dedikerad mjukvara till specifik data som delas kräver väldigt mycket medel och tid. Tror personligen att det är det största utmaningen i datadelningen. (Mycket större utmaning än fairdata och persistenta identifierare etc, de frågorna går att lösa). Att skapa exempelvis en instans av neo4 eller annan databas som huserar många dataset borde gå att organisera en förvaltning omkring, men inte att 1000 team/organisationer/myndigheter ska bygga sin egna förvaltningar runt data som inte är avgörande för verksamheten. Du fattar poängen, det måste bli kostnadseffektivt att dela data. |
Med det sagt, jag ska lägga upp nosads data med persistenta identifierare. Har även kollat på hur man indexerar datat på ett vettigt sätt, https://lunrjs.com/. |
den största utmaningen är tror jag att göra det intuitivt dvs. att man inte varje vecka behöver diskutera om persistenta identifierare behövs tycker min Anslagstavla test visar att när det är enkelt att skapa en websida med ev. en databas för en kommuns websida så gör dom det MEN det blir SILOS, saknas persistenta identifierare....
Jag testar nu lite låg intensivt NEO4J men gillar extremt det jobb @gjonor gjort.... duger wikibase för EU Knowledge Graph (min post om deras KG) så kanske det kan vara en test för NOSAD/DIGG.... tror det är viktigt att få igång detta med persistenta identifierare tycker den diskussionen varit omöjlig att föra tidigare Annat mönster
|
@gjonor Alla objekt man skall kunna referera tycker F1 sammanfattar det bra och tydligt -->
|
Apropå att skapa webbsida från en KG så finns det flera förlagor med Wikibase som grund. En är https://github.com/govdirectory/website |
CSV-filen med organisationer ser ut som en intressant början.
Tankar kring hur man går vidare för att skapa en kunskapsgraf och utifrån denna en navigerbar presentation av innehållet t.ex. i form av webbsidor?
Vilka metoder och verktyg kan jag använda mig av för att nå målet att presentera information för en allmänhet?
CSV -> Wikibase kanske i första steget? Alternativ? Är det OpenRefine som gäller för den typen av överföringar?
The text was updated successfully, but these errors were encountered: