Pour les généticiens du monde entier, Excel est un vrai cauchemar. Le logiciel est à l'origine d'un nombre important d'erreurs, car il convertit les noms de certains gènes, comme "MARCH1" en dates (1-Mar). Environ une publication scientifique sur 5 en fait les frais, et la solution la plus simple a donc consisté à renommer des dizaines de gènes.
Tous les commentaires (74)
Par contre, toujours autant de cons et ça Apple n’y pourra rien :-( .. RIP Steeve Jobs..
Quel manque de bon sens de ne pas avoir de Mac pour régler tout nos problèmes !!
Témoignage prof.
Dans mon usine :
-1 on est mariés à microsoft
-2 un Mac? Même pas pourNoël, du hp de base, point.
-3 personne, sauf service info,
n'a des droits d'administrateur
-4 donc impossible de mettre un OS tournant sous Linux et encore moins installer un logiciel adapté à ses besoins
Bref, on "bricole" avec excel.
Exemple : "chasse" aux clients de plus 90 ans, souvent des clients décédés mais clôture dossier non faite=> 4 fois plus de centenaires que les stat. nationales ! LOL.
Pour travailler des dates de naissance antérieure à 1900, il faut saisir des téra brouettes de formule.
Tapez ITALIE=> transformée d'office en Italie. 150 étiquettes adresses à benner.
Les chercheurs ne sont pas idiots, mais n'ont ni le temps ni les moyens de fiabiliser. Ils font comme moi, ils s'adaptent, contournent et bricolent.
Solution ==> arrêter d'utiliser excel ?
Il suffit juste de modifier le format de cellule, easy
Le généticien est généticien, pas un peu ronde l’informatique.
Je vois les chercheurs autour de moi ben déjà ils font avec les logiciels que leur fournit l’employeur (interdiction souvent de matériel privé pour limiter les fuites/virus)
Ensuite ils prennent déjà bcp de
Temps à faire les recherches et écrire donc oui passer des heures à vérifier colonne per colonne le bon format c’est très vite infaisable (parce que le format date doit être utile sur d’autre colonne)
C'est le partage des fichiers Excel qui était problématique car celui qui le reçoit doit reconvertir les colonnes incriminées sans toujours réussir.
Encore une fois, l'apostrophe règle définitivement ce problème. C'est donc l'oubli à l'écriture des données qui pose problème.
Quant à vérifier chaque lignes pour corriger celles qui en ont besoin, une simple macro suffisait.
Pour les traitements de données hétérogènes et en grandes quantité, il existe d'autres soft bien mieux adapté qu'Excel (qui n'est pas fait pour ça) powerBI ou tableau, certains sont même open source : RStudio et possedent leur propre langage. Apres, le problème peut apparaitre au sein des fichiers collectés et condolidés et là, seul un traitement pré intégration peut corriger et ça peut être long à préparer au cas par cas.
vache tu es bien éloigné des considérations de récupération de données
étant informaticien je peux te dire que d'une part le format csv, c'est pas terrible du tout
il regroupe plusieurs formats non normés, problématiques de format de date, de guillemets, de séparateur, de caractères d’échappements
c'est bien pratique comme format quand il reste fixe, mais avec des milliers d'utilisateurs c'est difficile
et même si c'est un seul émetteur, regarde une fois ce qui se passe avec les chiffres covid du moment, santé publique france a plusieurs fois changé de format de date
concernant l'utilisation, une des problématiques principales quand tu fais ce genre de fichiers c'est le bruit, les erreurs de chiffres anormalement trop grand, trop faibles tout simplement parce qu'il y a trop de données
t'es pas obligé de rajouter des soucis avec des pb d'utilisation surtout si tu peux le corriger facilement
ensuite dans l'administration, libre office est utilisé, cependant le leader reste excel et souvent tu ne peux pas installer un autre logiciel. d'ailleurs les saisies peuvent être faites par des gens n'ayant pas d'intérêt financier, tu peux pas influer sur leur poste de travail
enfin bref avant de combattre la médiocrité des gens instruits, je t'invite à regarder la tienne.
Première analyse et étonnement, puis lecture des commentaires : des dizaines de millions de données provenant de plusieurs centaines de labos situés plusieurs dizaines de pays. La normalisation se fait naturellement avec le logiciel le plus employé au monde.
Bon alors un scientifique ne travail que rarement sous Excel... Le plus souvent lorsqu'une étude est prévue et qu'il y a le budget, a ce moment un outil de recueil de donnée est créé par une cellule de data management. On appel cela le CRF (case report form). C'est un espèce de formulaire qui réunit toutes les variables de l'étude et chaque personne qui va recueillir des données va le compléter. ( souvent c'est l'attaché de recherche clinique qui s'en charge). Il y a des contrôles sur les champs pour éviter les erreurs de saisies. Mais ça ressemble plus à un formulaire qu'à un fichier Excel. Donc ce n'est qu'une fois créé que l'on va lancer l'étude. Ensuite à la fin de l'étude la base de donnee est nettoyées, on va régler tout ce qui est étrange au niveau de la saisie, essayé de compléter tous les trous... C'est une étape assez longue... Enfin une fois que la base est clean elle est donnée au biostatisticien qui va faire les analyses statistiques pour la publication.
La donnée ne transite donc jamais entre les mains du chercheur responsable de l'étude. Lui ne fait que suivre les inclusions. Il intervient lors de la création du protocole, pour le suivi (inclusion, consultation) en s'assurant que les inclusions avancent bien, que les conditions de sécurités soient respectées, et pour la publication finale.
C'est formidable ! Les utilisateurs de ce site ont toujours des solutions pour tout. On se demande bien pourquoi les gens qui ont des problèmes ne posent pas d'abord la question sur ce site au lieu de perdre des années à chercher eux-mêmes des solutions concrètes en utilisant leur expérience, alors que les utilisateurs de ce site trouvent facilement des solutions après avoir découvert le problème 2 minutes avant et sans toute cette expérience et ces années d'essais !
Oui ce problème est simple a résoudre et les personnes qui commentent ici ont raison, il suffit de quelques manipulations informatiques ou de changer de logiciel pour le résoudre à échelle individuelle.
Non ce problème n'est pas si simple quand on commence à multiplier les fichiers et les données par milliers voire centaines de milliers avec des personnes et des laboratoires de recherche différents. La résolution ne ce problème est largement complexifiée par le risque d'erreur lié à la quantité de données. Ainsi, il est plus simple sur une échelle globale pour la communauté scientifique de régler le problème à la source, à savoir le nom des gênes.
Et c'est là que les erreurs d'inattention apparaissent...
Du coup la solution adoptée est sûrement la plus pragmatique.