Registre des données ouvertes sur AWS -Acheter sur Amazon -58 % Réduction





Table of Contents

Sentinelle-2

réponse désastreuseobservation de la terregéospatialressource naturelleImagerie par satellitedurabilité

La mission Sentinel-2 est
une constellation de surveillance terrestre de deux satellites à haute résolution
imagerie optique et assurer la continuité des missions SPOT et Landsat actuelles.
La mission fournit une couverture mondiale de la surface terrestre de la Terre tous les 5 jours,
rendre les données très utiles dans les études en cours. Les données L1C sont disponibles à partir de
Juin 2015 globalement. Les données L2A sont disponibles à partir d'avril 2017 pour l'Europe élargie
région et dans le monde depuis décembre 2018.

Détails →

Exemples d'utilisation

Voir 16 exemples d'utilisation →

Landsat 8

réponse désastreuseobservation de la terregéospatialressource naturelleImagerie par satellitedurabilité

Collection en cours d'images satellitaires de toutes les terres de la Terre produites par le satellite Landsat 8.

Détails →

Exemples d'utilisation

Voir 14 exemples d'utilisation →

CBERS sur AWS

réponse désastreuseobservation de la terregéospatialimagerieImagerie par satellitedurabilité

Ce projet crée un référentiel S3 avec les images acquises
par le satellite sino-brésilien sur les ressources terrestres (CBERS). le
les fichiers d'image sont enregistrés et traités par l'Instituto Nacional de Pesquisa
Espaciais (INPE) et sont convertis en Geotiff optimisé pour le cloud
format afin d’optimiser son utilisation pour les applications en nuage.
Le référentiel contient tous les CBERS-4 MUX, AWFI, PAN5M et
Scènes PAN10M acquises depuis
le début de la mission satellite et est mis à jour quotidiennement avec
nouvelles scènes.

Détails →

Exemples d'utilisation

Voir 10 exemples d'utilisation →

SpaceNet

vision par ordinateurréponse désastreuseobservation de la terregéospatialapprentissage automatiqueImagerie par satellite

SpaceNet, lancé en août 2016 en tant que projet d’innovation ouverte, offrant un référentiel de ressources librement disponibles.
des images avec des caractéristiques cartographiques co-enregistrées. Avant SpaceNet, les chercheurs en vision par ordinateur avaient peu d'options
pour obtenir des images satellites gratuites, étiquetées avec précision et haute résolution. Aujourd'hui, SpaceNet héberge des jeux de données
développé par sa propre équipe, ainsi que des ensembles de données provenant de projets tels que la Carte fonctionnelle du monde (FMM) de l’IARPA.

Détails →

Exemples d'utilisation

Voir 7 exemples d'utilisation →

Résultats du modèle eBird Status and Trends

la biodiversitéla biologieobservation de la terreles écosystèmesenvironnementsciences de la viedurabilité

Le projet eBird Status and Trends génère des estimations du nombre d'oiseaux
apparition et abondance à haute résolution spatio-temporelle.
Cet ensemble de données représente les principaux résultats modélisés de la
flux de travail d'analyse et sont conçus pour une analyse ultérieure,
synthèse, visualisation et exploration.

Détails →

Exemples d'utilisation

Voir 7 exemples d'utilisation →

Base de données mondiale des événements, langue et ton (GDELT)

réponse désastreuseévénements

Ce projet surveille la diffusion, l’impression, la
et des nouvelles Web provenant de presque tous les coins de chaque pays
plus de 100 langues et identifie les personnes, les lieux,
organisations, comptes, thèmes, sources, émotions,
citations, images et événements qui animent chaque jour notre société mondiale
seconde de chaque jour.

Détails →

Exemples d'utilisation

Voir 6 exemples d'utilisation →

Sentinelle 1

réponse désastreuseobservation de la terregéospatialImagerie par satellitedurabilité

Sentinel-1 est une paire de satellites européens d'imagerie radar (SAR) lancés en 2014 et 2016. Son cycle de visite de 6 jours et sa capacité à observer à travers les nuages ​​le rendent parfait pour la surveillance terrestre et maritime, les interventions d'urgence suite à des catastrophes écologiques et ses applications économiques. . Les données GRD sont disponibles dans le monde entier depuis janvier 2017.

Détails →

Exemples d'utilisation

Voir 4 exemples d'utilisation →

Amazon Customer Reviews Dataset

récupération de l'informationapprentissage automatiquetraitement du langage naturel

Les avis des clients Amazon (a.k.a. Product Reviews) sont l’un des produits emblématiques d’Amazon. Au cours des deux décennies écoulées depuis le premier examen en 1995, des millions de clients Amazon ont contribué à plus de cent millions d'examens afin d'exprimer leurs opinions et de décrire leurs expériences en matière de produits sur le site Web Amazon.com. Plus de 130 millions de commentaires clients sont disponibles pour les chercheurs dans cet ensemble de données.

Détails →

Exemples d'utilisation

Voir 3 exemples d'utilisation →

Deutsche Börse Public Dataset

Marchés financiersdonnées du marchécommerce

Deutsche Börse Public Data Set est constitué de données commerciales agrégées à une minute d'intervalle à partir des systèmes de négociation Eurex et Xetra. Il fournit le prix initial, le prix le plus bas, le prix le plus élevé, le prix final et le volume pour chaque minute de la journée de négociation et pour chaque titre échangeable. Si vous avez besoin de données à plus haute résolution, y compris des mouvements de prix non négociés, veuillez vous reporter à notre produit de données de marché historiques ici. Assurez-vous également de consulter le portail de notre développeur.

Détails →

Exemples d'utilisation

Voir 3 exemples d'utilisation →

Encyclopédie des éléments d'ADN (ENCODE)

bioinformatiquela biologiel'apprentissage en profondeurgénétiquegénomiquesciences de la vieapprentissage automatique

Le consortium ENCODE (Encyclopedia of DNA Elements) est une collaboration internationale de
groupes de recherche financés par l’Institut national de recherche sur le génome humain (NHGRI). Le but
ENCODE consiste à dresser une liste complète des éléments fonctionnels du génome humain,
y compris les éléments qui agissent au niveau des protéines et de l’ARN, et les éléments régulateurs qui
cellules de contrôle et les circonstances dans lesquelles un gène est actif. Les enquêteurs d’ENCODE emploient un
variété d'essais et de méthodes d'identification d'éléments fonctionnels. La découverte et l'annotation
des éléments du gène est accompli principalement en séquençant une gamme diverse de sources d'ARN,
la génomique comparative, les méthodes bioinformatiques intégratives et la curation humaine. Réglementaire
les éléments sont généralement étudiés par des tests d’hypersensibilité à l’ADN, des tests de
Méthylation de l'ADN et immunoprécipitation (IP) de protéines qui interagissent avec l'ADN et l'ARN,
c'est-à-dire des histones modifiées, des facteurs de transcription, des régulateurs de la chromatine et
Protéines de liaison à l'ARN, suivies d'un séquençage.

Détails →

Exemples d'utilisation

Voir 3 exemples d'utilisation →

MODIS sur AWS

réponse désastreusegéospatialressource naturelleImagerie par satellitedurabilité

Sélectionnez des produits à partir du spectroradiadiomètre imageur à résolution moyenne (MODIS) géré par le US Geological Survey et la NASA.

Détails →

Exemples d'utilisation

Voir 3 exemples d'utilisation →

Nuages ​​de points LiDAR USGS 3DEP

réponse désastreuseélévationgéospatiallidardurabilité

Le programme d'élévation 3D (USEP) de l'USGS (3DEP) vise à collecter des données d'altitude sous forme de données de détection et de télémétrie (LiDAR) sur les territoires voisins des États-Unis, d'Hawaï et des États-Unis, avec des données acquises sur une période de 8 ans. . Cet ensemble de données fournit deux réalisations des données de nuage de points 3DEP. La première ressource est une organisation à accès public fournie au format Entwine Point Tiles, qui consiste en un octree sans perte, à densité totale, pouvant être rediffusée, basé sur le codage LASzip (LAZ). La deuxième ressource est un demandeur payant des mêmes données au format LAZ (LAS compressé). Les noms de ressource dans les deux compartiments correspondent aux noms de projet USGS.

Détails →

Exemples d'utilisation

Voir 3 exemples d'utilisation →

Service d'information sur les sols en Afrique (AfSIS) Chimie des sols

agricultureenvironnementla sécurité alimentairesciences de la vieapprentissage automatiquedurabilité

Cet ensemble de données contient des données spectrales infrarouges du sol et des propriétés de sol appariées.
mesures de référence pour des échantillons de sol géoréférencés qui ont été collectés
projet sur le service d’information sur les sols en Afrique (AfSIS), qui a duré
de 2009 à 2018. Dans cette version, nous incluons les données recueillies lors de
Phase I (2009-2013.) Des échantillons géoréférencés ont été collectés dans 19 pays.
en Afrique subsaharienne utilisant un plan d'échantillonnage statistiquement valable,
et leurs propriétés de sol ont été analysées en utilisant tous les deux sol conventionnel
méthodes de test et méthodes spectrales (réflectance diffuse infrarouge
spectroscopie). Les deux types de données peuvent être couplés pour former une formation
ensemble de données pour l’apprentissage automatique, de sorte que certaines propriétés du sol puissent être exploitées.
bien prévu grâce à des techniques spectrales moins coûteuses.

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

Jeu de données d'image Amazon Bin

vision par ordinateurapprentissage automatique

Le jeu de données d'image Amazon Bin contient plus de 500 000 images et métadonnées issues des bacs d'un pod d'un système d'exploitation Amazon Fulfillment Center. Les images de corbeille de cet ensemble de données sont capturées alors que les unités de robot transportent des pods dans le cadre des opérations normales du Centre de suivi Amazon.

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

Modèles atmosphériques de Météo-France

climatréponse désastreuseobservation de la terreenvironnementapprentissage automatiquemétéorologiquemodèledurabilitéMétéo

Modèles atmosphériques régionaux globaux et à haute résolution de Météo-France.

  • ARPEGE World couvre le monde entier avec une résolution horizontale de base de 0,5 ° (~ 55 km) entre les points de la grille, ce qui prédit une météo de 114 heures à l’avenir.
  • ARPEGE Europe couvre l’Europe et l’Afrique du Nord à une résolution horizontale de base de 0,1 ° (~ 11 km) entre les points du réseau, ce qui permet de prévoir les conditions météorologiques jusqu’à 114 heures à l’avenir.
  • AROME France couvre la France avec une résolution horizontale de base de 0,025 ° (~ 2,5 km) entre les points de la grille, ce qui prédit une météo de 42 heures dans l’avenir.
  • AROME France HD couvre la France et le voisinage à une résolution horizontale de base de 0,01 ° (~ 1,5 km) entre les points de la grille, ce qui permet de prévoir les conditions météorologiques jusqu’à 42 heures.

Des dizaines de variables atmosphériques sont disponibles via cette base de données: températures, vents, précipitations … Notre travail est basé sur les données ouvertes de Météo-France, mais nous ne sommes ni affiliés ni approuvés par Météo-France.

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

Réanalyse ERA5 du CEPMMT

climatobservation de la terremétéorologiquedurabilitéMétéo

ERA5 est la cinquième génération de réanalyses atmosphériques du climat global du CEPMMT, et la première réanalyse réalisée en tant que service opérationnel. Il utilise les meilleures données d'observation disponibles provenant de satellites et de stations in situ, qui sont assimilées et traitées à l'aide du cycle 41r2 du système de prévision intégré (IFS) du CEPMMT.
L'ensemble de données fournit tous les paramètres météorologiques atmosphériques essentiels tels que, sans s'y limiter, la température de l'air, la pression et le vent à différentes altitudes, ainsi que des paramètres de surface tels que les précipitations, la teneur en humidité du sol et des paramètres de la mer tels que la température de la surface de la mer et la hauteur des vagues.
ERA5 fournit des données avec une résolution spatiale et temporelle considérablement plus élevée que son homologue traditionnel, ERA-Interim. ERA5 comprend une version haute résolution avec une résolution horizontale de 31 km et une version d'ensemble à résolution réduite de 10 membres. Il est actuellement disponible depuis 2008, mais sera continuellement prolongé vers l’arrière, d’abord jusqu’en 1979, puis jusqu’en 1950.
Apprenez-en davantage sur l'ERA5 dans l'article de Jon Olauson intitulé ERA5: Le nouveau champion de la modélisation de l'énergie éolienne?.

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

GOES sur AWS

réponse désastreuseobservation de la terregéospatialmétéorologiqueImagerie par satellitedurabilitéMétéo

Les satellites GOES (GOES-16 et GOES-17) fournissent des images météorologiques continues et
surveillance des données météorologiques et environnementales en Amérique du Nord.
Les satellites GOES fournissent le type de surveillance continue nécessaire pour
analyse intensive des données. Ils planent en permanence sur une position à la surface.
Les satellites orbitent suffisamment haut pour permettre une vue complète de la Terre sur disque. Parce que
ils restent au-dessus d'un point fixe sur la surface, ils fournissent une veille constante pour la
"déclencheurs" atmosphériques pour des conditions météorologiques extrêmes telles que tornades, crues éclair,
orages de grêle et ouragans. Lorsque ces conditions se développent, les satellites GOES sont en mesure de
surveiller le développement des tempêtes et suivre leurs mouvements.

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

NAIP sur AWS

imagerie aérienneobservation de la terregéospatialressource naturelleréglementairedurabilité

Le Programme national d'imagerie agricole (NAIP) acquiert des images aériennes pendant les saisons de croissance agricoles dans la partie continentale des États-Unis. Cette image "en continu" présente une résolution allant généralement de 60 à 100 centimètres et est disponible à partir du compartiment n ° 4 du système d'analyse analytique Amazon SIP Amazon Bande (RVB + NIR) au format MRF sur le compartiment Amazon S3 source-naip-source en bande 4 bandes (RGB + NIR) au format Raw GeoTiff non compressé et visualisation naip au format GeotTiff optimisé en nuage à 3 bandes (RGB). Les données du PNIA sont livrées au niveau de l'état; chaque année, un certain nombre d'États reçoivent des mises à jour, avec un cycle de mise à jour global de deux ou trois ans. Plus de détails sur NAIP

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

NASA NEX

climatobservation de la terreressource naturelleImagerie par satellitedurabilité

Collection de jeux de données scientifiques de la Terre maintenus par la NASA, comprenant des projections de changement climatique et des images satellite de la surface de la Terre.

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

NREL Base de données nationale sur le rayonnement solaire sur AWS

observation de la terreénergiegéospatialmétéorologiquesolairedurabilité

La base de données nationale sur le rayonnement solaire (NSRDB) est
une série complète de valeurs horaires et demi-horaires des trois
mesures les plus courantes du rayonnement solaire – horizontal global, direct
irradiance horizontale normale et diffuse – et données météorologiques. Celles-ci
les données ont été collectées dans un nombre suffisant d’emplacements et de
échelles spatiales pour représenter avec précision les climats régionaux du rayonnement solaire.

Détails →

Exemples d'utilisation

  • La base de données nationale sur le rayonnement solaire (NSRDB) par Manajit Sengupta, Yu Xe, Anthony Lopez, Aron Habte, Galen Maclaurin et James Shelby

  • Spectateur NSRDB de Manajit Sengupta, Yu Xe, Anthony Lopez, Aron Habte, Galen Maclaurin, James Shelby, Paul Edwards

Voir 2 exemples d'utilisation →

Modèle de ville ouverte (OCM)

villesévénementsgéospatial

Open City Model est une initiative visant à fournir des données cityGML pour tous les bâtiments situés aux États-Unis.
En utilisant d'autres jeux de données ouverts en conjonction avec notre propre code et algorithmes, notre objectif est de fournir des géométries 3D pour chaque bâtiment aux États-Unis.

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

OpenAQ

qualité de l'airvillesenvironnementgéospatialdurabilité

Données globales globales sur la qualité de l'air physique provenant de sources de données publiques fournies par des sources gouvernementales, de qualité recherche et autres. Ces groupes impressionnants font le travail difficile de mesurer ces données et de les partager publiquement, et notre communauté les rend plus universellement accessibles à la fois aux humains et aux machines.

Détails →

Exemples d'utilisation

Voir 5 exemples d'utilisation →

OpenEEW

l'apprentissage en profondeurréponse désastreuseobservation de la terreapprentissage automatiquedurabilité

Grillo a mis au point un système d'alerte précoce aux tremblements de terre basé sur l'IdO au Mexique et au Chili
et ouvre maintenant ses archives complètes de données d'accéléromètre non traitées au monde
encourager le développement de nouveaux algorithmes capables de détecter rapidement
et caractériser les tremblements de terre en temps réel.

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

Jeux de données du didacticiel utilisateur QIIME 2

bioinformatiquela biologiedébruitageles écosystèmesenvironnementgénétiquegénomiquesantéapprentissage automatiquemicrobiomestatistiques

QIIME 2 est un progiciel d'analyse de microbiome puissant, extensible et décentralisé qui met l'accent sur la transparence des données et des analyses. QIIME 2 permet aux chercheurs de commencer une analyse avec les données de séquence d'ADN brutes et de terminer avec des chiffres et des résultats statistiques de qualité publication. Cet ensemble de données contient les documents utilisateur (et les ensembles de données associés) pour QIIME 2.

Détails →

Exemples d'utilisation

Voir 2 exemples d'utilisation →

1000 génomes

génétiquegénomiquesciences de la vie

Le projet 1000 Genomes est une collaboration internationale qui a établi le catalogue le plus détaillé des variations génétiques humaines, y compris les SNP, les variants structuraux et leur contexte haplotype. La phase finale du projet a séquencé plus de 2 500 personnes appartenant à 26 populations différentes à travers le monde et a produit un ensemble intégré d’haplotypes en phase comportant plus de 80 millions de variantes pour ces personnes.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Allen Brain Observatory – Jeu de données public AWS avec codage visuel

traitement d'imagesciences de la vieapprentissage automatiqueneuro-imagerieneurobiologie

Allen Brain Observatory – Visual Coding est la première enquête normalisée in vivo sur l'activité physiologique dans le cortex visuel de la souris. Elle contient des représentations des réponses au calcium évoquées visuellement de neurones exprimant GCaMP6 dans des couches corticales, des aires visuelles et des lignes de Cre sélectionnées.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Collection d'images de peinture cellulaire

la biologieimagerie cellulairepeinture cellulaireimagerie par fluorescenceimagerie à haut débitsciences de la viemicroscopie

La collection d'images de peinture cellulaire est une collection de
ensembles d'images de microscopie téléchargeables. La peinture cellulaire est un
test d'imagerie impartial à haut débit utilisé pour analyser
perturbations dans les modèles cellulaires. En plus des images
eux-mêmes, chaque ensemble comprend une description de la
application et un certain type de "vérité sur le terrain" (résultats escomptés).
Les chercheurs sont encouragés à utiliser ces ensembles d’images comme référence
points lors du développement, du test et de la publication d'une nouvelle image
algorithmes d'analyse pour les sciences de la vie. Nous espérons que le
cet ensemble de données permettra de mieux comprendre lequel
les méthodes sont les meilleures pour diverses analyses d'images biologiques
applications.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Cornell EAS Data Lake

agricultureclimatobservation de la terreélévationenvironnementgéospatialcartographiemétéorologiquedurabilitéMétéo

Les sciences de la Terre et de l'atmosphère de l'Université Cornell ont créé un lac public de données climatiques. Les données sont stockées dans des formats de stockage en colonnes (ORC) pour faciliter les requêtes à l'aide d'outils standard tels qu'Amazon Athena ou Apache Spark. Les données elles-mêmes sont à l'origine destinées à être utilisées pour créer des outils d'aide à la décision pour les agriculteurs et l'agriculture numérique. Le premier ensemble de données est constitué des données historiques NDFD / NDGD distribuées par NCEP / NOAA / NWS. Les bases de données NDFD (base de données nationale de prévision numérique) et NDGD (base de données nationale de guidage numérique) contiennent des prévisions et des observations maillées à une résolution de 2,5 km pour les États-Unis contigus (CONUS). Il existe également des réseaux de 5 km pour plusieurs petites régions des États-Unis et territoires non continentaux, tels que Hawaii, Guam, Porto Rico et l'Alaska. La NOAA distribue les archives du NDFD / NDGD via son système d’archivage et de distribution de modèles opérationnels (NOMADS) au format Grib2 de la NOAA. Les données ont été converties en ORC afin d'optimiser l'espace de stockage et, plus important encore, de simplifier l'accès aux données via des outils d'analyse de données standard.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Observations de LOFAR ELAIS-N1 cycle 2 sur AWS

astronomieimageriesondage

Ces données correspondent aux observations du champ de ciel ELAIS-N1 par le télescope international LOFAR (16h10:01 +54: 30: 36) au cours du cycle 2 d'observations. Il y a 11 essais d'environ 8 heures chacun plus l'observation correspondante des cibles d'étalonnage avant et après le champ cible. Les données sont des ensembles de mesure (MS) contenant les données corrélées et les métadonnées divisées en 371 sous-bandes de fréquences par cible centrées à environ 150 MHz.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Réseau mondial de climatologie historique de la NOAA (GHCN-D)

climatmétéorologiquedurabilitéMétéo

Global Historical Climatology Network – Daily est un ensemble de données de la NOAA qui contient des observations quotidiennes sur les terres émergées. Il contient des mesures effectuées à partir de stations terrestres dans le monde entier, dont environ les deux tiers servent uniquement à mesurer les précipitations. Les autres éléments météorologiques incluent, sans toutefois s'y limiter, les températures maximales et minimales quotidiennes, la température au moment de l'observation, les chutes de neige et la profondeur de la neige. Il s'agit d'un composite de relevés climatiques de nombreuses sources qui ont été fusionnés et soumis à une série commune d'examens d'assurance qualité. Certaines données datent de plus de 175 ans. Les données sont au format CSV. Chaque fichier correspond à une année de 1763 à aujourd'hui et porte le nom correspondant.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Safecast

qualité de l'airclimatenvironnementgéospatialradiationdurabilité

Une collection en cours de mesures de radiations et de qualité de l’air prises par des appareils participant au projet Safecast.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Ensemble de données Sentinel-1 SLC pour l'Asie du Sud et du Sud-Est, Taiwan et le Japon

réponse désastreuseobservation de la terreenvironnementgéospatialImagerie par satellitedurabilité

Le jeu de données S1 Single Look Complex (SLC) contient des données de radar à synthèse d’ouverture (SAR) dans la longueur d’onde de la bande C. Les capteurs SAR sont installés sur une constellation de deux satellites (Sentinel-1A et Sentinel-1B) en orbite autour de la Terre avec un temps de visite combiné de six jours, opéré par l'Agence spatiale européenne. Les données S1 SLC sont un produit de niveau 1 qui recueille des informations d’amplitude et de phase radar par tout temps, de jour comme de nuit. Idéal pour l’étude des dangers naturels et des interventions d’urgence, les applications au sol, la surveillance des déversements de pétrole, les conditions de la banquise, et les effets associés du changement climatique.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

TCGA sur AWS

cancergénomiquesciences de la vie

L'Atlas du génome du cancer (TCGA) est une initiative conjointe de l'Institut national du cancer (NCI) et de l'Institut national de recherche sur le génome humain (NHGRI) afin d'accélérer notre compréhension des bases moléculaires du cancer. Des chercheurs des États-Unis financés par TCGA ont produit un corpus de données génomiques, transcriptomiques et épigénomiques brutes et traitées provenant de milliers de patients atteints de cancer.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Recensement des États-Unis, ACS PUMS

recensementstatistiquessondagedurabilité

US Census Bureau Échantillon de microdonnées à grande diffusion (PUMS) disponible dans un format de données lié à l'aide du modèle de données Resource Description Framework (RDF).

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Modèle de système de prévisions mondiales Unidata NOAA (GFS)

climatréponse désastreuseenvironnementdurabilitéMétéo

Le système de prévision mondiale (GFS) est un modèle de prévision météorologique élaboré par les centres nationaux de prévision environnementale (NCEP). Des dizaines de variables atmosphériques et sol-sol sont disponibles dans cet ensemble de données, allant des températures, des vents et des précipitations à l'humidité du sol et à la concentration d'ozone atmosphérique. Le GFS couvre la totalité du globe à une résolution horizontale de base de 28 km (18 miles) entre les points de la grille, ce qui est utilisé par les prévisionnistes opérationnels qui prévoient des conditions météorologiques jusqu'à 16 jours à l'avenir. La résolution horizontale tombe à 44 miles (70 kilomètres) entre le point de la grille pour les prévisions entre une semaine et deux semaines.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Voix obscurcies dans des environnements complexes (VOiCES)

reconnaissance automatique de la paroledébruitageapprentissage automatiqueidentification du locuteurtraitement de la parole

VOiCES est un corpus de parole enregistré dans des environnements acoustiquement difficiles,
en utilisant un enregistrement de microphone distant. La parole a été enregistrée dans de vraies salles avec divers
caractéristiques acoustiques (réverbération, écho, systèmes CVC, bruit extérieur, etc.). Bruit contradictoire,
soit la télévision, la musique, ou le babillage, a été simultanément joué avec un discours clair.
Les données ont été enregistrées en utilisant plusieurs microphones placés stratégiquement
dans toute la pièce. Le corpus comprend des enregistrements audio, des transcriptions orthographiques,
et les étiquettes de haut-parleur.

Détails →

Exemples d'utilisation

Voir 1 exemple d'utilisation →

Ensemble d'objets et de modèles Yale-CMU-Berkeley (YCB)

robotique

Ce projet vise principalement à faciliter l’analyse comparative des performances dans la recherche en robotique. L'ensemble de données fournit des modèles de maillage, des images RVB, RVB-D et des nuages ​​de points de plus de 80 objets. Les objets physiques sont également disponibles via le projet d'analyse comparative YCB. Les données sont collectées par deux systèmes à la pointe de la technologie: le banc de numérisation de UC Berkley et le scanner Google. Les données du banc d'analyse de l'UC Berkley fournissent des maillages générés avec une reconstruction de Poisson, des maillages générés avec une intégration d'images volumétriques, des versions texturées des deux maillages, des fichiers Kinbody permettant d'utiliser les maillages avec OpenRAVE, 600 images RVB haute résolution, 600 images RVB-D et Images de nuage à 600 points pour chaque objet. Les données du scanner Google fournissent 3 maillages avec différentes résolutions (polygones de 16k, 64k et 512k), des versions texturées de chaque maillage, des fichiers Kinbody permettant d’utiliser les maillages avec OpenRAVE.

Détails →

Exemples d'utilisation

  • Label Fusion: un pipeline pour générer des étiquettes de vérité sur le sol pour de vraies données RGBD de scènes encombrées par Pat Marion, Peter R. Florence, Lucas Manuelli et Russ Tedrake

  • Analyse comparative dans la recherche sur la manipulation: utilisation de l'objet et du modèle Yale-CMU-Berkeley par Berk Calli, Aaron Walsman, Arjun Singh, Siddhartha Srinivasa, Pieter Abbeel et Aaron M Dollar

  • La signature de fermeture: une approche fonctionnelle pour modéliser des mains robotiques conformes sous-actionnées par Maria Pozzi, Gionata Salvietti, João Bimbo, Monica Malvezzi et Domenico Prattichizzo

  • Détection pré-tactile pour manipulation séquentielle par Boling Yang, Patrick Lancaster et Joshua R. Smith

Voir 4 exemples d'utilisation →

Projet 3000 génomes de riz

agriculturela sécurité alimentairegénétiquegénomiquesciences de la vie

Le projet «3000 Rice Genome Project» est un effort international visant à séquencer les génomes de 3 024 variétés de riz provenant de 89 pays.

Détails →

Un ensemble de données réaliste sur la cyberdéfense (CSE-CIC-IDS2018)

la cyber-sécuritél'Internetdétection d'intrusiontrafic réseau

Cet ensemble de données est le résultat d'un projet de collaboration entre le Centre de la sécurité des télécommunications (CST) et l'Institut canadien de la cybersécurité (CIC), qui utilise la notion de profils pour générer un ensemble de données sur la cybersécurité de manière systématique. Il comprend une description détaillée des intrusions ainsi que des modèles de distribution abstraits d'applications, de protocoles ou d'entités de réseau de niveau inférieur. L'ensemble de données comprend sept scénarios d'attaque différents, à savoir les attaques par force brute, Heartbleed, Botnet, DoS, DDoS, Web et l'infiltration du réseau de l'intérieur. L'infrastructure d'attaque comprend 50 machines et l'organisation victime comprend 5 départements, dont 420 ordinateurs et 30 serveurs. Cet ensemble de données comprend le trafic réseau et les fichiers journaux de chaque ordinateur côté victime, ainsi que 80 fonctionnalités de trafic réseau extraites du trafic capturé à l'aide de CICFlowMeter-V3.
Pour plus d'informations sur la création de cet ensemble de données, voir ce document rédigé par des chercheurs de l'Institut canadien pour la cybersécurité (CIC) et de l'Université du Nouveau-Brunswick (UNB): Vers la création d'un nouveau jeu de données de détection d'intrusion et la caractérisation du trafic d'intrusion.

Détails →

CCAFS-Données climatiques

agricultureclimatla sécurité alimentairedurabilité

Données climatiques haute résolution pour aider à évaluer les impacts du changement climatique principalement sur l'agriculture. Ces ensembles de données en libre accès sur les projections climatiques aideront les chercheurs à évaluer l’impact des changements climatiques.

Détails →

COCO – Objets communs dans le contexte – Jeux de données fast.ai

vision par ordinateurl'apprentissage en profondeurapprentissage automatique

COCO est un ensemble de données de détection, de segmentation et de sous-titrage d'objets à grande échelle.
Cela fait partie de la collection de jeux de données fast.ai hébergée par AWS pour plus de commodité.
des étudiants fast.ai. Si vous utilisez cet ensemble de données dans vos recherches, veuillez citer
arXiv: 1405.0312 [cs.CV].

Détails →

DWD COSMO-D2

climatréponse désastreuseobservation de la terreenvironnementapprentissage automatiquemétéorologiquemodèledurabilitéMétéo

Modèle de prévision météorologique numérique à courte portée et haute résolution COSMO-D2 pour l'Allemagne et les pays voisins; grille régulière avec une résolution de 2,2 km et 65 niveaux verticaux; mis à jour à 00UTC et toutes les 3h suivantes; plage de prévision 27h (45h pour 03UTC); sélection des paramètres couramment utilisés

Détails →

Ensemble DWD COSMO-D2 EPS

climatréponse désastreuseobservation de la terreenvironnementapprentissage automatiquemétéorologiquemodèledurabilitéMétéo

Modèle de prévision d'ensemble météorologique numérique à courte portée et à haute résolution EPS COSMO-D2 pour l'Allemagne et les pays voisins; 20 membres d'ensemble, grille régulière avec une résolution de 2,2 km et 65 niveaux verticaux; mis à jour à 00UTC et toutes les 3h suivantes; plage de prévision 27h (45h pour 03UTC); sélection des paramètres couramment utilisés; les membres de l'ensemble sont regroupés dans des fichiers joints communs

Détails →

DWD ICON Global

climatréponse désastreuseobservation de la terreenvironnementapprentissage automatiquemétéorologiquemodèledurabilitéMétéo

Modèle de prévision numérique du temps mondial ICON; résolution moyenne de 13 km avec 90 niveaux verticaux; mis à jour à 00 UCT et toutes les 6 heures suivantes avec une plage de prévision de 120 h (180 h à 00 UTC et 12 UTC); sélection des paramètres couramment utilisés

Détails →

DWD ICON Global EPS Ensemble

climatréponse désastreuseobservation de la terreenvironnementapprentissage automatiquemétéorologiquemodèledurabilitéMétéo

Modèle de prédiction d'ensemble global EPS d'ICON; 40 membres de l'ensemble; résolution moyenne de 40 km; mis à jour à 00 UTC et toutes les 6 heures suivantes avec une plage de prévision de 120 h (étendue à 180 h pour 00 UTC et 12 UTC); sélection des paramètres couramment utilisés; les membres de l'ensemble sont regroupés dans des fichiers joints communs

Détails →

DWD ICON-EU

climatréponse désastreuseobservation de la terreenvironnementapprentissage automatiquemétéorologiquemodèledurabilitéMétéo

Modèle de prévision numérique du temps régional ICON-EU; région de nidification européenne avec une résolution accrue d’environ 6,5 km avec 60 niveaux verticaux; mis à jour à 00UTC et toutes les 3h suivantes avec une plage de prévision de 120h; sélection des paramètres couramment utilisés

Détails →

DWD ICON-EU EPS Ensemble

climatréponse désastreuseobservation de la terreenvironnementapprentissage automatiquemétéorologiquemodèledurabilitéMétéo

Modèle régional de prévision météorologique d'ensemble ICON-EU EPS; 40 membres de l'ensemble; Région de nidification européenne avec une résolution accrue d’environ 20 km; mis à jour à 00UTC et toutes les 3h suivantes avec une plage de prévision de 120h; sélection des paramètres couramment utilisés; les membres de l'ensemble sont regroupés dans des fichiers joints communs

Détails →

District de Columbia – LiDAR classé en nuage de points

villesréponse désastreusegéospatialnous-dc

Les données de nuage de points LiDAR pour Washington, DC, sont disponibles pour toute personne utilisable sur Amazon S3.
Cet ensemble de données, géré par le bureau du responsable de la technologie (OCTO), via le
programme du SIG du district de Columbia, contient des données de nuage de points en mosaïque pour
l'ensemble du district avec les métadonnées associées.

Détails →

Données climatiques à l'échelle réduite pour l'Alaska

climatcôtierobservation de la terreenvironnementdurabilitéMétéo

Cet ensemble de données contient des données climatiques historiques et projetées à la baisse dynamique pour l’État de l’Alaska et les régions environnantes à une résolution spatiale de 20 km et une résolution temporelle horaire. Ces données ont été produites à l'aide du modèle de recherche et de prévision météorologiques (WRF) (version 3.5). Nous avons réduit les données historiques de réanalyse ERA-Interim (1979-2015) ainsi que les analyses historiques et projetées de 2 MCG du projet d'intercomparaison de modèles couplés 5 (CMIP5): GFDL-CM3 et NCAR-CCSM4 (analyse historique: 1970-2005). et RCP 8.5: 2006-2100).

Détails →

Epoch of Reionization Dataset

astronomie

Les données proviennent d’observations avec le Murchison Widefield Array (MWA), qui est un
Square Kilometre Array (SKA) en Australie occidentale. Ce particulier
l'ensemble de données provient du projet Epoch of Reionization, qui constitue un moteur scientifique essentiel
du SKA. Près de 2PB de ces observations ont été enregistrées à ce jour, c’est
un petit sous-ensemble de celui qui a été exporté de l’archive de données MWA dans
Perth et mis à la disposition du public sur AWS. Les données ont été prises pour détecter
signatures des premières étoiles et des galaxies en formation et l'effet de ces premiers
étoiles et galaxies sur l'évolution de l'univers.

Détails →

Génome Ark

bioinformatiquela biologiegénétiquegénomiquesciences de la vie

L'arène du génome héberge des informations génomiques pour le projet sur les génomes de vertébrés (VGP) et d'autres projets connexes. Le VGP est une collaboration internationale qui vise à générer des génomes de référence complets et presque sans erreur pour toutes les espèces de vertébrés existantes. Ces génomes seront utilisés pour traiter des questions fondamentales en biologie et en pathologie, pour identifier les espèces les plus menacées d'extinction sur le plan génétique et pour préserver les informations génétiques de la vie.

Détails →

Surface globale Résumé du jour

climatenvironnementressource naturelleréglementairedurabilitéMétéo

GSOD est une collection de mesures météorologiques quotidiennes (température, vitesse du vent, humidité, pression, etc.) de 9 000 stations météorologiques réparties dans le monde.

Détails →

Google Livres Ngrams

traitement du langage naturel

Les n-grammes sont des n-uplets de taille fixe. Dans ce cas, les éléments sont des mots extraits du corpus de Google Livres. Le n spécifie le nombre d'éléments dans le tuple, donc un gramme de cinq contient cinq mots ou caractères. Les n-grammes de cet ensemble de données ont été produits en passant une fenêtre glissante du texte des livres et en produisant un enregistrement pour chaque nouveau jeton.

Détails →

Modèle météo HIRLAM

climatobservation de la terremétéorologiquedurabilitéMétéo

HIRLAM (modèle de zone limitée haute résolution) est un modèle opérationnel de prévision météorologique synoptique et à moyenne échelle géré par l'Institut de météorologie finlandais.

Détails →

ICGC sur AWS

cancergénomiquesciences de la vie

Le Consortium international sur le génome du cancer (ICGC) coordonne des projets visant à accélérer la recherche sur les causes et la lutte contre le cancer. L'étude PanCancer Analysis of Whole Genomes (PCAWG) est une collaboration internationale visant à identifier des modèles communs de mutation de génomes entiers à partir de l'ICGC. Plus de 2 400 génomes analysés de manière cohérente, correspondant à plus de 1 100 donneurs ICGC uniques, sont maintenant disponibles gratuitement sur Amazon S3 pour les chercheurs accrédités soumis aux règles de partage des données ICGC.

Détails →

Classification des images – jeux de données fast.ai

vision par ordinateurl'apprentissage en profondeurapprentissage automatique

Certains des ensembles de données les plus importants pour la recherche sur la classification des images, notamment
ICRA 10 et 100, Caltech 101, MNIST, Aliments-101, Oxford-102-Fleurs, Oxford-IIIT-Pets,
et Stanford-Cars. Cela fait partie de la collection de jeux de données fast.ai hébergée par
AWS pour la commodité des étudiants fast.ai. Voir le lien de documentation pour la citation et
détails de la licence pour chaque jeu de données.

Détails →

Localisation des images – jeux de données fast.ai

vision par ordinateurl'apprentissage en profondeurapprentissage automatique

Certains des ensembles de données les plus importants pour la recherche sur la localisation d’images, notamment:
Camvid et PASCAL VOC (2007 et 2012). Cela fait partie des jeux de données fast.ai
collection hébergée par AWS pour la commodité des étudiants de fast.ai. Voir
lien de documentation pour les détails de citation et de licence pour chaque ensemble de données.

Détails →

KITTI Vision Benchmark Suite

véhicules autonomesvision par ordinateurl'apprentissage en profondeurapprentissage automatiquerobotique

Ensemble de données et points de repère pour la recherche en vision par ordinateur dans le contexte de la conduite autonome. Les données ont été enregistrées dans la ville de Karlsruhe et dans ses environs, en Allemagne, à l’aide de la plate-forme mobile AnnieWay (break VW) équipée de plusieurs caméras RVB et monochromes, d’un scanner laser Velodyne HDL 64 ainsi que d’un GPS / corrigé avec précision RTK. Unité de localisation IMU. Le jeu de données a été créé pour la recherche en vision par ordinateur et en apprentissage automatique sur la stéréo, le flux optique, l'odométrie visuelle, la segmentation sémantique, la segmentation d'instances sémantiques, la segmentation de route, la prédiction de profondeur d'une image, l'achèvement de cartes de profondeur, la détection d'objets 2D et 3D et le suivi d'objets. De plus, plusieurs enregistrements de données brutes sont fournis. Les ensembles de données sont capturés en parcourant la ville moyenne de Karlsruhe, dans les zones rurales et sur les autoroutes. Jusqu'à 15 voitures et 30 piétons sont visibles par image.

Details →

NLP – fast.ai datasets

l'apprentissage en profondeurapprentissage automatiquetraitement du langage naturel

Some of the most important datasets for NLP, with a focus on classification, including
IMDb, AG-News, Amazon Reviews (polarity and full), Yelp Reviews (polarity and
full), Dbpedia, Sogou News (Pinyin), Yahoo Answers, Wikitext 2 and Wikitext
103, and ACL-2010 French-English 10^9 corpus. This is part of the
fast.ai datasets collection hosted by AWS for convenience of fast.ai
étudiants. See documentation link for citation and license details for each
dataset.

Details →

NOAA Global Ensemble Forecast System (GEFS)

climatmétéorologiquedurabilitéMétéo

The Global Ensemble Forecast System (GEFS), previously known as the GFS Global ENSemble (GENS), is a weather forecast model made up of 21 separate forecasts, or ensemble members. The National Centers for Environmental Prediction (NCEP) started the GEFS to address the nature of uncertainty in weather observations, which is used to initialize weather forecast models. The GEFS attempts to quantify the amount of uncertainty in a forecast by generating an ensemble of multiple forecasts, each minutely different, or perturbed, from the original observations. With global coverage, GEFS is produced four times a day with weather forecasts going out to 16 days.

Details →

NOAA Global Forecast System (GFS)

climatréponse désastreuseenvironnementmétéorologiquedurabilitéMétéo

The Global Forecast System (GFS) is a weather forecast model produced
by the National Centers for Environmental Prediction (NCEP). Dozens of
atmospheric and land-soil variables are available through this dataset,
from temperatures, winds, and precipitation to soil moisture and
atmospheric ozone concentration. The entire globe is covered by the GFS
at a base horizontal resolution of 18 miles (28 kilometers) between grid
points, which is used by the operational forecasters who predict weather
out to 16 days in the future. Horizontal resolution drops to 44 miles
(70 kilometers) between grid point for forecasts between one week and two
weeks. Both the current version and the FV3-based parallel version of the
GFS being tested to become the new operational model at a future date are
available.

Details →

NOAA Global Historical Climatology Network Hourly (GHCN-H)

climatmétéorologiquedurabilitéMétéo

Global Historical Climatology Network – Hourly is a
dataset from NOAA that contains daily observations over
global land areas. It contains station-based measurements
from land-based stations worldwide, about two thirds of which
are for precipitation measurement only. Other meteorological
elements include, but are not limited to, daily maximum and
minimum temperature, temperature at the time of observation,
snowfall and snow depth. It is a composite of climate records
from numerous sources that were merged together and subjected
to a common suite of quality assurance reviews. Some data are
more than 175 years old. The data is in CSV format. Each file
corresponds to a year from 1763 to present and is named as such.

Details →

NOAA Global Hydro Estimator (GHE)

météorologiquedurabilitéeauMétéo

Global Hydro-Estimator provides a global
mosaic imagery of rainfall estimates from
multi-geostationary satellites, which
currently includes GOES-16, GOES-15,
Meteosat-8, Meteosat-11 and Himawari-8.
The GHE products include: Instantaneous
rain rate, 1 hour, 3 hour, 6 hour, 24 hour
and also multi-day rainfall accumulation.

Details →

NOAA High-Resolution Rapid Refresh (HRRR) Model

climatréponse désastreuseenvironnementdurabilitéMétéo

The HRRR is a NOAA real-time 3-km resolution, hourly updated, cloud-resolving, convection-allowing atmospheric model, initialized by 3km grids with 3km radar assimilation. Radar data is assimilated in the HRRR every 15 min over a 1-h period adding further detail to that provided by the hourly data assimilation from the 13km radar-enhanced Rapid Refresh.

Details →

NOAA Integrated Surface Database (ISD)

climatmétéorologiquedurabilitéMétéo

The Integrated Surface Database (ISD) consists
of global hourly and synoptic observations
compiled from numerous sources into a gzipped
fixed width format. ISD was developed as a joint
activity within Asheville's Federal Climate
Complex. The database includes over 35,000 stations
worldwide, with some having data as far back
as 1901, though the data show a substantial
increase in volume in the 1940s and again in
the early 1970s. Currently, there are over
14,000 "active" stations updated daily in the
database. The total uncompressed data volume is
around 600 gigabytes; however, it continues to
grow as more data are added. ISD includes
numerous parameters such as wind speed and
direction, wind gust, temperature, dew point,
cloud data, sea level pressure, altimeter setting,
station pressure, present weather, visibility,
precipitation amounts for various time periods,
snow depth, and various other elements as observed
by each station.

Details →

NOAA National Water Model Reanalysis

agricultureclimatréponse désastreuseenvironnementdurabilitétransportMétéo

The NOAA National Water Model Reanalysis dataset contains output
from a 25-year retrospective simulation (January 1993 through
December 2017) of version 1.2 of the National Water Model. Ce
simulation used observed rainfall as input and ingested other
required meteorological input fields from a weather Reanalysis
dataset. The output frequency and fields available in this
historical NWM dataset differ from those contained in the
real-time forecast model. One application of this dataset is
to provide historical context to current real-time streamflow,
soil moisture and snowpack NWM conditions. The Reanalysis data
can be used to infer flow frequencies and perform temporal analyses
with hourly streamflow output and 3-hourly land surface output. le
long-term dataset can also be used in the development of end user
applications which require a long baseline of data for system
training or verification purposes. This dataset contains output from two
retrospective simulations. A 25-year retrospective simulation using version
1.2 of the National Water Model (January 1993 through December 2017), and a
26-year retrospective simulation using version 2.0 of the National Water Model
(January 1993 through December 2018). Version 2.0 of the National Water Model
was implemented into operations with the 12UTC run on June 19, 2019.

Details →

NOAA National Water Model Short-Range Forecast

agricultureclimatréponse désastreuseenvironnementdurabilitétransportMétéo

The National Water Model (NWM) is a water resources model that simulates and forecasts water
budget variables, including snowpack, evapotranspiration, soil moisture and streamflow, over
the entire continental United States (CONUS). The model, launched in August 2016, is designed
to improve the ability of NOAA to meet the needs of its stakeholders (forecasters, emergency
managers, reservoir operators, first responders, recreationists, farmers, barge operators, and
ecosystem and floodplain managers) by providing expanded accuracy, detail, and frequency of water
information. It is operated by NOAA’s Office of Water Prediction. This bucket contains a four-week
rollover of the Short Range Forecast model output and the corresponding forcing data for the
model. The model is forced with meteorological data from the High Resolution Rapid Refresh (HRRR)
and the Rapid Refresh (RAP) models. The Short Range Forecast configuration cycles hourly and produces
hourly deterministic forecasts of streamflow and hydrologic states out to 18 hours.

Details →

NOAA Operational Forecast System (OFS)

climatcôtierréponse désastreuseenvironnementmétéorologiqueocéansdurabilitéeauMétéo

The Operational Forecast System (OFS) has been developed to serve the maritime user community. OFS was developed in a joint project of the NOAA/National Ocean Service (NOS)/Office of Coast Survey, the NOAA/NOS/Center for Operational Oceanographic Products and Services (CO-OPS), and the NOAA/National Weather Service (NWS)/National Centers for Environmental Prediction (NCEP) Central Operations (NCO). OFS generates water level, water current, water temperature, water salinity (except for the Great Lakes) and wind conditions nowcast and forecast guidance four times per day.

Details →

Nanopore Reference Human Genome

génomiquesciences de la vie

This dataset includes the sequencing and assembly of a reference standard human genome (GM12878) using the MinION nanopore sequencing instrument with the R9.4 1D chemistry.

Details →

OpenNeuro

la biologieimagerieneuro imagingneurobiology

OpenNeuro is a database of openly-available brain imaging data. The data are shared according to a Creative Commons CC0 license, providing a broad range of brain imaging data to researchers and citizen scientists alike. The database primarily focuses on functional magnetic resonance imaging (fMRI) data, but also includes other imaging modalities including structural and diffusion MRI, electroencephalography (EEG), and magnetoencephalograpy (MEG). OpenfMRI is a project of the Center for Reproducible Neuroscience at Stanford University. Development of the OpenNeuro resource has been funded by the National Science Foundation, National Institute of Mental Health, National Institute on Drug Abuse, and the Laura and John Arnold Foundation.

Details →

OpenStreetMap Linear Referencing

réponse désastreusegéospatialosmdurabilitétrafic

OSMLR a linear referencing system built on top of OpenStreetMap. OSM has great information about roads around the world and their interconnections, but it lacks the means to give a stable identifier to a stretch of roadway. OSMLR provides a stable set of numerical IDs for every 1 kilometer stretch of roadway around the world. In urban areas, OSMLR IDs are attached to each block of roadways between significant intersections.

Details →

Physionet

la biologiesciences de la vie

PhysioNet offers free web access to large collections of recorded physiologic signals (PhysioBank) and related open-source software (PhysioToolkit).

Details →

Provision of Web-Scale Parallel Corpora for Official European Languages (ParaCrawl)

traduction automatiquetraitement du langage naturel

ParaCrawl is a set of large parallel corpora to/from English for all official EU languages by a broad web crawling effort. State-of-the-art methods are applied for the entire processing chain from identifying web sites with translated text all the way to collecting, cleaning and delivering parallel corpora that are ready as training data for CEF.AT and translation memories for DG Translation.

Details →

Software Heritage Graph Dataset

digital preservationfree softwarelogiciels open sourcecode source

Software Heritage is the largest
existing public archive of software source code and accompanying
development history. The Software Heritage Graph Dataset is a fully
deduplicated Merkle DAG representation of the Software Heritage archive.The dataset links together file content identifiers, source code
directories, Version Control System (VCS) commits tracking evolution over
time, up to the full states of VCS repositories as observed by Software
Heritage during periodic crawls. The dataset’s contents come from major
development forges (including GitHub and GitLab), FOSS distributions (e.g.,
Debian), and language-specific package managers (e.g., PyPI). Crawling
information is also included, providing timestamps about when and where all
archived source code artifacts have been observed in the wild.

Details →

Tabula Muris

la biologieencyclopédiquegénomiquesantésciences de la vieapprentissage automatiquemédicament

Tabula Muris is a compendium of single cell transcriptomic data from the model organism Mus musculus comprising more than 100,000 cells from 20 organs and tissues. These data represent a new resource for cell biology, reveal gene expression in poorly characterized cell populations, and allow for direct and controlled comparison of gene expression in cell types shared between tissues, such as T-lymphocytes and endothelial cells from different anatomical locations. Two distinct technical approaches were used for most organs: one approach, microfluidic droplet-based 3’-end counting, enabled the survey of thousands of cells at relatively low coverage, while the other, FACS-based full length transcript analysis, enabled characterization of cell types with high sensitivity and coverage. The cumulative data provide the foundation for an atlas of transcriptomic cell biology. See: https://www.nature.com/articles/s41586-018-0590-4

Details →

The Genome Modeling System

génétiquegénomiquesciences de la vie

The Genome Institute at Washington University has developed a high-throughput, fault-tolerant analysis information management system called the Genome Modeling System (GMS), capable of executing complex, interdependent, and automated genome analysis pipelines at a massive scale. The GMS framework provides detailed tracking of samples and data coupled with reliable and repeatable analysis pipelines. GMS includes a full system image with software and services, expandable from one workstation to a large compute cluster.

Details →

The Human Connectome Project

sciences de la vieneuro imaging

The Human Connectome Project aims to provide an unparalleled compilation of neural data, an interface to graphically navigate this data and the opportunity to achieve never before realized conclusions about the living human brain.

Details →

The Human Microbiome Project

sciences de la vie

The NIH-funded Human Microbiome Project (HMP) is a collaborative effort of over 300 scientists from more than 80 organizations to comprehensively characterize the microbial communities inhabiting the human body and elucidate their role in human health and disease. To accomplish this task, microbial community samples were isolated from a cohort of 300 healthy adult human subjects at 18 specific sites within five regions of the body (oral cavity, airways, urogenital track, skin, and gut). Targeted sequencing of the 16S bacterial marker gene and/or whole metagenome shotgun sequencing was performed for thousands of these samples. In addition, whole genome sequences were generated for isolate strains collected from human body sites to act as reference organisms for analysis. Finally, 16S marker and whole metagenome sequencing was also done on additional samples from people suffering from several disease conditions.

Details →

The Massively Multilingual Image Dataset (MMID)

vision par ordinateurapprentissage automatiquetraduction automatiquetraitement du langage naturel

MMID is a large-scale, massively multilingual dataset of images paired with the words they represent collected at the University of Pennsylvania.
The dataset is doubly parallel: for each language, words are stored parallel to images that represent the word, et parallel to the word's translation into English (and corresponding images.)

Details →

UK Met Office Atmospheric Deterministic and Probabilistic Forecasts

climatobservation de la terremétéorologiquedurabilitéMétéo

Meteorological data reusers now have an exciting opportunity to sample, experiment and evaluate
Met Office atmospheric model data, whilst also experiencing a transformative method of requesting
data via Restful APIs on AWS. All ahead of Met Office’s own operationally supported API platform
that will be launched in late 2019.For information about the data see the Met Office website.
For examples of using the data check out the examples repository.
If you need help and support using the data please raise an issue on the examples repository.

Details →

Unidata GOES-16

réponse désastreuseobservation de la terregéospatialmétéorologiqueImagerie par satellitedurabilitéMétéo

GOES provides continuous weather imagery and monitoring of meteorological and space environment data across North America.

Details →

American Ninja Warrior Obstacle History

événementsmultimédiades sports

Obstacle history of American Ninja Warrior seasons 1-9
This dataset includes every obstacle in the history of American Ninja Warrior from season 1 to 9. This includes the obstacles at Sasuke (also known as the original Ninja Warrior in Japan) during seasons 1-3 when American Ninja Warrior (ANW) was on G4, and the top 10 competitors from the semi-finals round of ANW were sent to Sasuke to compete. Starting in season 4 of ANW, which is known as the "NBC era" when the show took on the regional/city formats for both qualifying and semi-final rounds with the finalists from each region competing at the National Finals of ANW in Las Vegas.

Details →

Usage examples

See 1 usage example →

Collection of daily coin data from Coin Metrics

BitcoinblockchainéconomieMarchés financiers

This project is set to pull the latest daily coin data from Coin Metrics using the data.world sync applet on IFTTT.
Daily on-chain transaction volume is calculated as the sum of all transaction outputs belonging to the blocks mined on the given day. "Change" outputs are not included.
Transaction count figure doesn’t include coinbase transactions.

Details →

Usage examples

See 1 usage example →

Federal Government Awards

recensementgovernment spendingréglementairenous

The Federal Awards dataset contains a complete export of the data available from USASpending. This dataset reflects all observations submitted through the third quarter of fiscal year 2017.

Details →

Usage examples

See 1 usage example →

NFA 2017 – Ecological Resource Use and Resource Capacity of Nations from 1961 to 2013

climatéconomieenvironnementsciences de la viedurabilité

Our National Footprint Accounts (NFAs) measure the ecological resource use and resource capacity of nations from 1961 to 2013.
The calculations in the National Footprint Accounts are primarily based on United Nations data sets, including those published by the Food and Agriculture Organization, United Nations Commodity Trade Statistics Database, and the UN Statistics Division, as well as the International Energy Agency.

Details →

Usage examples

See 1 usage example →

Swiss Public Transport Stops

villesgéospatialinfrastructurecartographietrafictransport

The basic geo-data set for public transport stops comprises public transport stops in Switzerland and additional selected geo-referenced public transport locations that are of operational or structural importance (operating points).

Details →

Usage examples

See 1 usage example →

DigitalGlobe Open Data Program

réponse désastreuseobservation de la terregéospatialImagerie par satellitedurabilité

Pre and post event high-resolution satellite imagery in support of emergency planning, risk assessment, monitoring of staging areas and emergency response, damage assessment, and recovery. Also incudes crowdsourced damage assessments for major, sudden onset disasters.

Details →





Laisser un commentaire