E-investigación: el centro virtual de datos
Transcripción
E-investigación: el centro virtual de datos
E-investigación: el centro virtual de datos C. Mendoza (IVIC/CeCalCULA) Cátedra de E-investigación Universidad Industrial de Santander 6 Mayo 2011 Contenido 1. Trasfondo 2. Ciencia intensiva en datos 3. VAMDC 4. XSAMS 5. Nuevo modelo de curación de datos 6. Minería de datos 7. Conclusiones Contenido 1. Trasfondo 2. Ciencia intensiva en datos 3. VAMDC 4. XSAMS 5. Nuevo modelo de curación de datos 6. Minería de datos 7. Conclusiones Los códigos de modelado espectral leen una base de datos atómicos • Los códigos de modelado espectral leen una extensa base de datos atómicos para calcular espectros sintéticos • Hemos estado 8 años mejorando la base de datos del programa XSTAR • Las mallas de modelos se corren secuencialmente • XSTAR se baja de una página web, se desempaqueta, instala, compila y corre desde la línea de comando La validez del modelo astrofísico depende de la completitud y precisión de la DB OPserver at OSC From Bailey (2008) Las nebulosas planetarias prácticamente se convierten en laboratorios de física atómica Pero, todavía no hemos podido identificar el mecanismo que calienta la corona solar Fuente: Hubble Space Institute El diagrama HR permite estudiar la evolución estelar Existe interés en estudiar formación estelar en las galaxias Fuente: Hubble Space Institute El modelo de los núcleos activos de galaxias explica muchas observaciones El Proyecto de la Opacidad (1985-1997) fue pionero en la ciencia intensiva en datos The Opacity Project Team The Queen's University of Belfast, Belfast, UK K.A. Berrington, P.G. Burke, V.M. Burke, W.E. Eissner, A.H. Hibbert, A.E. Kingston, P.M.J. Sawey, M.P. Scott, J.F. Thornbury Royal Holloway and Bedford New College, Unversity of London, London, UK K.T. Taylor University College London, University of London, London, UK J.A. Fernley, G. Peach, H.E. Saraph, M.J. Seaton, P.J. Storey University of Illinois, Urbana-Champaign, Illinois, USA D. Mihalas, Yu Yan Institut für Astronomie und Astrophysik, Munich, Germany K. Butler, D.G. Hummer, D.J. Lennon IBM Venezuela, Caracas, Venezuela W. Cunto, C. Mendoza (until 1993) University of Oxford, Oxford, UK A.E. Lynas-Gray Ohio State University, Columbus, Ohio, USA F. Delahaye, S.N. Nahar, A.K. Pradhan Observatoire de Paris, Meudon, France M. Le Dourneuf, C.J. Zeippen Observatoire de la Côte d'Azur, Nice, France J.A. Tully Joint Institute for Laboratory Astrophysics, Boulder, Colorado, USA D. Luo High Altitude Observatory, Boulder, Colorado, USA W. Däppen Strathclyde University, Glasgow, UK N.R. Badnell Venezuelan Institute for Scientific Research (IVIC), Caracas, Venezuela M.A. Bautista, C. Mendoza (as from 1993) NASA Goddard Space Flight Center, Greenbelt, Maryland, USA P. Palmeri TOPbase fue una de las primeras bases de datos atómicos en línea Fuente: Cunto & Mendoza 1992 En 1995 TOPbase fue modernizada con tecnología web The computation of astrophysical opacities is a topical example for a workflow system Start RMO/RA EOS ionization fractions level populations Atomic DB application Opacity Code Mono DB application OPserver RMO/RA End RMO/RA application El modelo del interior del Sol concuerda con las observaciones heliosismológicas Modelo del interior del Sol Observaciones heliosismológicas The OPserver is a good example of database-centric computing OPserver at OSC From Mendoza et al. (2007) Contenido 1. Trasfondo 2. Ciencia intensiva en datos 3. VAMDC 4. XSAMS 5. Nuevo modelo de curación de datos 6. Minería de datos 7. Conclusiones LHC Global Data Grid (2007+) CMS Experiment 5000 physicists, 60 countries 10s of Petabytes/yr by 2008 1000 Petabytes in < 10 yrs? Online System Tier 0 Tier 1 CERN Computer Center 150 - 1500 MB/s Korea Russia UK 10-40 Gb/s USA >10 Gb/s U Florida Tier 2 Caltech UCSD 2.5-10 Gb/s Tier 3 Tier 4 FIU Physics caches PCs Iowa Maryland El conjunto completo de observaciones astronómicas estarán accesibles en una red de observatorios virtuales (IVOA) La medicina y biología contemporáneas tienen un alto contenido bioinformático El aumento exponencial de datos se va originar en las redes inalámbricas de sensores El aumento exponencial de datos se va originar en las redes inalambricas de sensores El aumento exponencial de datos se va originar en las redes inalambricas de sensores Fuente: John R. Johnson, “HPC for data intensive science”,Pacific Northwest National Laboratory Virtual Learning Environment Undergraduate Students Digital Library E-Scientists E-Scientists Reprints PeerReviewed Journal & Conference Papers Grid Technical Reports Preprints & Metadata E-Experimentation Publisher Holdings Graduate Students Institutional Archive Local Web Certified Experimental Results & Analyses Data, Metadata & Ontologies Fuente: David De Roure (Univ. Southampton, UK) Entire e-Science Cycle Encompassing experimentation, analysis, publication, research, learning Microsoft Research ya propone un cuarto paradigma científico Jim Gray Contenido 1. Trasfondo 2. Ciencia intensiva en datos 3. VAMDC 4. XSAMS 5. Nuevo modelo de curación de datos 6. Minería de datos 7. Conclusiones La e-Ciencia se basa en laboratorios virtuales y en ambientes de computación distribuida • VAMDC tiene como objetivo la construcción de una einfraestructura inter-operable para el intercambio de datos atómicos y moleculares. Involucra 15 socios administrativos que representan 24 grupos de investigación de 6 países de la Unión Europea (UE), Serbia, la Federación Rusa y Venezuela. • VAMDC está patrocinado por la UE en el marco de la iniciativa FP7 "Research Infrastructures - INFRA-2008-1.2.2 Scientific Data Infrastructures". Comenzó el 01 de Julio 2009 con una duración de 42 meses. VAMDC integrates several research groups mainly from the European Research Area UCL U Cambridge Open U U Uppsala RAS RFNC U Cologne NIST Queen’s U CNRS U Vienna IVIC CeCalCULA AO Belgrade INA Italia Outstanding problems in existing A&M databases are interoperability and data interfaces VAMDC intends to deploy an interoperable eenvironment for distributed A&M databases database2 database1 database3 database4 Users will navigate seamlessly and retrieve data from 21 A&M databases VALD NIST CHIANTI CDMS HITRAN OPserver BASECOL STSP XSTAR TIPbase UMIST VAMDC KIDA TOPbase PAH W@DIS LASP SPECTRA OZONE BELDATA CDSD SpecW3 A&M data are used in a wide variety of research and industrial fields Astrophysics Fusion plasmas Atm e ri c h p s o p cs hysi Lighting Laser s Las primeras integraciones de BD se llevaron a cabo por medio de portales VAMDC se concibe como una warehouse de datos A&M virtual distribuida Important new developments… • OASIS OpenDocument format (ISO/IEC 26300, May 2006) – Edit, save and exchange (application and platform independent): • Text documents • Spreadsheets • Databases • Charts • Presentations • Google Docs & Spreadsheets (network-centric document management) – Create – Sharing – Storing – Publishing Basado en las ideas de Kevin Kelly, proponemos 4 axiomas para la ciencia intensiva en datos • Acceso • Global y abierto • Colecciones completas • Reservorios distribuidos • Preservación • Interacción • Metadata • Servicios web de herramientas • Reutilización • Flujo • Procesos • Curaduría • Gerencia y mantenimiento • Publicación • Compartir • Estándares, XML esquemas, ontologías • Redes sociales • Minería de datos Kevin Kelly XML data management presents several problems Source: Freire & Benedict, 2004, Comp. Sc. Eng., 6, 12 Storage of XML in a database Source: Freire & Benedict, 2004, Comp. Sc. Eng., 6, 12 IBM propone una BD híbrida de SQL/XML Fuente - “XML: changing the data warehouse” IBM Software Group White Paper Ingredientes y estructura de un nodo de VAMDC Contenido 1. Trasfondo 2. Ciencia intensiva en datos 3. VAMDC 4. XSAMS 5. Nuevo modelo de curación de datos 6. Minería de datos 7. Conclusiones XSAMS es un esquema XML para intercambio de datos A&M <XSAMSData xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="http://www-amdis.iaea.org/xsams/schema/xsams-0.1.xsd"> <Sources> <Source sourceID="B.Mendoza_etal_2010"> <Category>preprint</Category> <SourceName></SourceName> <Year>2010</Year> <Authors> <Author> <Name>Claudio Mendoza</Name> </Author> <Author> <Name>Juan Gonzalez</Name> </Author> </Authors> </Source> </Sources> <Methods> <Method methodID="M.MCDF"> <Category>theory</Category> <Description></Description> </Method> </Methods> <ChemicalElement> <NuclearCharge> 1</NuclearCharge> <ElementSymbol>H </ElementSymbol> </ChemicalElement> <Isotope> <IonState> <IonCharge> 0</IonCharge> <IsoelectronicSequence> H </IsoelectronicSequence> <AtomicState stateID="S.0101.001"> <AtomicNumericalData> <StateEnergy><Value units="1/cm"> 0.0000000E+00</Value></StateEnergy> </AtomicNumericalData> <AtomicQuantumNumbers> <Parity>even</Parity> <TotalAngularMomentum> 0.5</TotalAngularMomentum> </AtomicQuantumNumbers> <AtomicComposition> <Component> <Configuration> <Shells> <Shell> <PrincipalQuantumNumber> 1</PrincipalQuantumNumber> <OrbitalAngularMomentum><Value> 0</Value></OrbitalAngularMomentum> <NumberOfElectrons>1</NumberOfElectrons> </Shell> </Shells> <ConfigurationLabel>1s_1/2 </ConfigurationLabel> </Configuration> <Term> <LS> <L><Value> 0</Value></L> <S>0.5</S> <Multiplicity>2</Multiplicity> </LS> </Term> </Component> </AtomicComposition> </AtomicState> <RadiativeTransition> <EnergyWavelength> <Wavelength> <Theoretical><Value units="nm"> 1.215674E+03</Value></Theoretical> </Wavelength> </EnergyWavelength> <InitialStateRef>S.0101.002</InitialStateRef> <FinalStateRef>S.0101.001</FinalStateRef> <Probability> <TransitionProbabilityA><Value units="1/s"> 6.2684E+08</Value></TransitionProbabilityA> </Probability> </RadiativeTransition> Contenido 1. Trasfondo 2. Ciencia intensiva en datos 3. VAMDC 4. XSAMS 5. Nuevo modelo de curación de datos 6. Minería de datos 7. Conclusiones Radiative decay of 3pnp 1P states in Mg-like ions Mg I State 3pnp 1P RLT (ns) 3p4p 1P 3.47E+00 3p5p 3.67E+00 3p5p 3.72E+00 3p6p 3.73E+00 3p7p 3.74E+00 3p8p 3.75E+00 3p9p 3.78E+00 3p10p 3.87E+00 3smp 1Po dominant channel: n = m Butler et al (1990) <XSAMSData xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="http://www-amdis.iaea.org/xsams/schema/xsams-0.1.xsd"> <Sources> <Source sourceID="B.Mendoza_etal_2010"> <Category>preprint</Category> <SourceName></SourceName> <Year>2010</Year> <Authors> <Author> <Name>Claudio Mendoza</Name> </Author> <Author> <Name>Juan Gonzalez</Name> </Author> </Authors> </Source> </Sources> <Methods> <Method methodID="M.MCDF"> <Category>theory</Category> <Description></Description> </Method> </Methods> En eCiencia la metadata debe ser extensa y duradera En eCiencia se introduce un nuevo modelo del proceso de curación de datos Original image from Lord et al (2004) Contenido 1. Trasfondo 2. Ciencia intensiva en datos 3. VAMDC 4. XSAMS 5. Nuevo modelo de curación de datos 6. Minería de datos 7. Conclusiones Scale VAMDC to a virtual laboratory for interdisciplinary collaborative A&M data mining with e-lico Source: e-lico Conclusiones La producción de datos científicos está evolucionando de una industria casera a grandes consorcios multinacionales En el contexto de la eCiencia, la computación de alto rendimiento está centrada en bases de datos La integración de las bases de datos involucra laboratorios virtuales El intercambio de datos va a estar basado en esquemas de XML El proceso de curación de datos se convierte en una nueva profesión La minería de datos es distribuida y basada en ontologías especializadas
Documentos relacionados
Descargue la Presentación
Observatoire de la Côte d'Azur, Nice, France J.A. Tully Joint Institute for Laboratory Astrophysics, Boulder, Colorado, USA D. Luo High Altitude Observatory, Boulder, Colorado, USA W. Däppen Strath...
Más detalles