-
Notifications
You must be signed in to change notification settings - Fork 19
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Encodage des fichiers .csv : soucis d'import dans PostgreSQL #13
Comments
Grmbl, j'ai aussi des p'tits malheureux |
Mea culpa, y'en a dans les données source aussi... Pour le SIREN |
J'ai l'impression que le script de geocodage sirene_csv = csv.reader(open(sys.argv[1], 'r', encoding='iso8859-1'),
delimiter=',') puisque les fichiers sont déjà (et enfin) publiés en utf-8. |
Fichier base SIRENE, déjà en utf-8. close cquest#13
Bonjour !
En prenant l'ensemble des fichiers csv par département présents sur http://data.cquest.org/geo_sirene/v2019/last/dep/, je me suis fait mordre par PostgreSQL avec un :
value too long for type character varying(26)
En effet, j'ai repris la définition des variables présentes dans les fichiers CSV https://www.sirene.fr/sirene/public/static/liste-variables en créant un table PostgreSQL avec la bonne longueur des différents champs. Par exemple :
distributionSpecialeEtablissement
: https://www.sirene.fr/sirene/public/variable/distributionSpecialeEtablissement type TEXTE longueur 26complementAdresseEtablissement
: https://www.sirene.fr/sirene/public/variable/complementAdresseEtablissement type TEXTE, longueur 38Puis en faisant un bête
COPY CSV TO
, j'ai eu des chaînes parfois plus longues. Deux exemples :Département 33,
POLYCLI BX NORD MED VASCULAIRE N°15A33
en tant que valeur de la variablecomplementAdresseEtablissement
qui a donc ici une longueur 39 pour 38 attendueDépartement 13,
CENTRAIX ET N°2 AV DU 8 MA
pour la valeur de la variabledistributionSpecialeEtablissement
Je me demande si dans le filtre ou le découpage d'entités par département, y'aura pas un soucis d'encodage qui se glisse.
Pour l'instant, j'ai augmenté la taille de mes champs.
Merci,
Damien G.
The text was updated successfully, but these errors were encountered: