E-investigación: el centro virtual de datos

Transcripción

E-investigación: el centro virtual de datos
E-investigación:
el centro virtual de datos
C. Mendoza (IVIC/CeCalCULA)
Cátedra de E-investigación
Universidad Industrial de Santander
6 Mayo 2011
Contenido
1. Trasfondo
2. Ciencia intensiva en datos
3. VAMDC
4. XSAMS
5. Nuevo modelo de curación de datos
6. Minería de datos
7. Conclusiones
Contenido
1. Trasfondo
2. Ciencia intensiva en datos
3. VAMDC
4. XSAMS
5. Nuevo modelo de curación de datos
6. Minería de datos
7. Conclusiones
Los códigos de modelado espectral
leen una base de datos atómicos
• Los códigos de modelado
espectral leen una extensa base
de datos atómicos para calcular
espectros sintéticos
• Hemos estado 8 años mejorando
la base de datos del programa
XSTAR
• Las mallas de modelos se corren
secuencialmente
• XSTAR se baja de una página
web, se desempaqueta, instala,
compila y corre desde la línea de
comando
La validez del modelo astrofísico depende
de la completitud y precisión de la DB
OPserver at OSC
From Bailey (2008)
Las nebulosas planetarias prácticamente se
convierten en laboratorios de física atómica
Pero, todavía no hemos podido identificar el
mecanismo que calienta la corona solar
Fuente: Hubble Space Institute
El diagrama HR permite estudiar la
evolución estelar
Existe interés en estudiar formación
estelar en las galaxias
Fuente: Hubble Space Institute
El modelo de los núcleos activos de
galaxias explica muchas observaciones
El Proyecto de la Opacidad (1985-1997) fue
pionero en la ciencia intensiva en datos
The Opacity Project Team
The Queen's University of Belfast, Belfast, UK
K.A. Berrington, P.G. Burke, V.M. Burke, W.E. Eissner, A.H. Hibbert, A.E. Kingston, P.M.J. Sawey, M.P. Scott, J.F. Thornbury
Royal Holloway and Bedford New College, Unversity of London, London, UK
K.T. Taylor
University College London, University of London, London, UK
J.A. Fernley, G. Peach, H.E. Saraph, M.J. Seaton, P.J. Storey
University of Illinois, Urbana-Champaign, Illinois, USA
D. Mihalas, Yu Yan
Institut für Astronomie und Astrophysik, Munich, Germany
K. Butler, D.G. Hummer, D.J. Lennon
IBM Venezuela, Caracas, Venezuela
W. Cunto, C. Mendoza (until 1993)
University of Oxford, Oxford, UK
A.E. Lynas-Gray
Ohio State University, Columbus, Ohio, USA
F. Delahaye, S.N. Nahar, A.K. Pradhan
Observatoire de Paris, Meudon, France
M. Le Dourneuf, C.J. Zeippen
Observatoire de la Côte d'Azur, Nice, France
J.A. Tully
Joint Institute for Laboratory Astrophysics, Boulder, Colorado, USA
D. Luo
High Altitude Observatory, Boulder, Colorado, USA
W. Däppen
Strathclyde University, Glasgow, UK
N.R. Badnell
Venezuelan Institute for Scientific Research (IVIC), Caracas, Venezuela
M.A. Bautista, C. Mendoza (as from 1993)
NASA Goddard Space Flight Center, Greenbelt, Maryland, USA
P. Palmeri
TOPbase fue una de las primeras
bases de datos atómicos en línea
Fuente: Cunto & Mendoza 1992
En 1995 TOPbase fue modernizada
con tecnología web
The computation of astrophysical opacities
is a topical example for a workflow system
Start RMO/RA
EOS
ionization fractions
level populations
Atomic
DB
application
Opacity Code
Mono
DB
application
OPserver
RMO/RA
End RMO/RA
application
El modelo del interior del Sol concuerda
con las observaciones heliosismológicas
Modelo del interior del Sol
Observaciones heliosismológicas
The OPserver is a good example of
database-centric computing
OPserver at OSC
From Mendoza et al. (2007)
Contenido
1. Trasfondo
2. Ciencia intensiva en datos
3. VAMDC
4. XSAMS
5. Nuevo modelo de curación de datos
6. Minería de datos
7. Conclusiones
LHC
Global
Data
Grid
(2007+)
CMS Experiment
 5000 physicists, 60 countries
 10s of Petabytes/yr by 2008
 1000 Petabytes in < 10 yrs?
Online
System
Tier 0
Tier 1
CERN Computer
Center
150 - 1500 MB/s
Korea
Russia
UK
10-40 Gb/s
USA
>10 Gb/s
U Florida
Tier 2
Caltech
UCSD
2.5-10 Gb/s
Tier 3
Tier 4
FIU
Physics caches
PCs
Iowa
Maryland
El conjunto completo de observaciones
astronómicas estarán accesibles en una red
de observatorios virtuales (IVOA)
La medicina y biología contemporáneas
tienen un alto contenido bioinformático
El aumento exponencial de datos se va
originar en las redes inalámbricas de sensores
El aumento exponencial de datos se va
originar en las redes inalambricas de sensores
El aumento exponencial de datos se va
originar en las redes inalambricas de sensores
Fuente: John R. Johnson, “HPC for data intensive science”,Pacific Northwest National Laboratory
Virtual Learning
Environment
Undergraduate
Students
Digital
Library
E-Scientists
E-Scientists
Reprints
PeerReviewed
Journal &
Conference
Papers
Grid
Technical
Reports
Preprints &
Metadata
E-Experimentation
Publisher
Holdings
Graduate
Students
Institutional
Archive
Local
Web
Certified
Experimental
Results &
Analyses
Data,
Metadata &
Ontologies
Fuente: David De Roure (Univ. Southampton, UK)
Entire e-Science
Cycle
Encompassing
experimentation,
analysis, publication,
research, learning
Microsoft Research ya propone un
cuarto paradigma científico
Jim Gray
Contenido
1. Trasfondo
2. Ciencia intensiva en datos
3. VAMDC
4. XSAMS
5. Nuevo modelo de curación de datos
6. Minería de datos
7. Conclusiones
La e-Ciencia se basa en laboratorios virtuales y en
ambientes de computación distribuida
•  VAMDC tiene como objetivo la construcción de una einfraestructura inter-operable para el intercambio de datos
atómicos y moleculares. Involucra 15 socios administrativos
que representan 24 grupos de investigación de 6 países de
la Unión Europea (UE), Serbia, la Federación Rusa y
Venezuela.
•  VAMDC está patrocinado por la UE en el marco de la
iniciativa FP7 "Research Infrastructures - INFRA-2008-1.2.2 Scientific Data Infrastructures". Comenzó el 01 de Julio 2009
con una duración de 42 meses.
VAMDC integrates several research groups
mainly from the European Research Area
UCL
U Cambridge
Open U
U Uppsala
RAS
RFNC
U Cologne
NIST
Queen’s U
CNRS
U Vienna
IVIC
CeCalCULA
AO Belgrade
INA Italia
Outstanding problems in existing A&M databases
are interoperability and data interfaces
VAMDC intends to deploy an interoperable eenvironment for distributed A&M databases
database2
database1
database3
database4
Users will navigate seamlessly and
retrieve data from 21 A&M databases
VALD
NIST
CHIANTI
CDMS
HITRAN
OPserver
BASECOL
STSP
XSTAR
TIPbase
UMIST
VAMDC
KIDA
TOPbase
PAH
W@DIS
LASP
SPECTRA
OZONE
BELDATA
CDSD
SpecW3
A&M data are used in a wide variety of
research and industrial fields
Astrophysics
Fusion plasmas
Atm
e ri c
h
p
s
o
p
cs
hysi
Lighting
Laser
s
Las primeras integraciones de BD se llevaron
a cabo por medio de portales
VAMDC se concibe como una warehouse
de datos A&M virtual distribuida
Important new developments…
•  OASIS OpenDocument format (ISO/IEC 26300, May 2006)
–  Edit, save and exchange (application and platform independent):
•  Text documents
•  Spreadsheets
•  Databases
•  Charts
•  Presentations
•  Google Docs & Spreadsheets (network-centric document
management)
–  Create
–  Sharing
–  Storing
–  Publishing
Basado en las ideas de Kevin Kelly, proponemos 4
axiomas para la ciencia intensiva en datos
• Acceso
• Global y abierto
• Colecciones completas
• Reservorios distribuidos
• Preservación
• Interacción
• Metadata
• Servicios web de herramientas
• Reutilización
• Flujo
• Procesos
• Curaduría
• Gerencia y mantenimiento
• Publicación
• Compartir
• Estándares, XML esquemas, ontologías
• Redes sociales
• Minería de datos
Kevin Kelly
XML data management presents several problems
Source: Freire & Benedict, 2004, Comp. Sc. Eng., 6, 12
Storage of XML in a database
Source: Freire & Benedict, 2004, Comp. Sc. Eng., 6, 12
IBM propone una BD híbrida de
SQL/XML
Fuente - “XML: changing the data warehouse”
IBM Software Group White Paper
Ingredientes y estructura de un
nodo de VAMDC
Contenido
1. Trasfondo
2. Ciencia intensiva en datos
3. VAMDC
4. XSAMS
5. Nuevo modelo de curación de datos
6. Minería de datos
7. Conclusiones
XSAMS es un esquema XML para
intercambio de datos A&M
<XSAMSData xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="http://www-amdis.iaea.org/xsams/schema/xsams-0.1.xsd">
<Sources>
<Source sourceID="B.Mendoza_etal_2010">
<Category>preprint</Category>
<SourceName></SourceName>
<Year>2010</Year>
<Authors>
<Author>
<Name>Claudio Mendoza</Name>
</Author>
<Author>
<Name>Juan Gonzalez</Name>
</Author>
</Authors>
</Source>
</Sources>
<Methods>
<Method methodID="M.MCDF">
<Category>theory</Category>
<Description></Description>
</Method>
</Methods>
<ChemicalElement>
<NuclearCharge> 1</NuclearCharge>
<ElementSymbol>H </ElementSymbol>
</ChemicalElement>
<Isotope>
<IonState>
<IonCharge> 0</IonCharge>
<IsoelectronicSequence> H </IsoelectronicSequence>
<AtomicState stateID="S.0101.001">
<AtomicNumericalData>
<StateEnergy><Value units="1/cm"> 0.0000000E+00</Value></StateEnergy>
</AtomicNumericalData>
<AtomicQuantumNumbers>
<Parity>even</Parity>
<TotalAngularMomentum> 0.5</TotalAngularMomentum>
</AtomicQuantumNumbers>
<AtomicComposition>
<Component>
<Configuration>
<Shells>
<Shell>
<PrincipalQuantumNumber> 1</PrincipalQuantumNumber>
<OrbitalAngularMomentum><Value> 0</Value></OrbitalAngularMomentum>
<NumberOfElectrons>1</NumberOfElectrons>
</Shell>
</Shells>
<ConfigurationLabel>1s_1/2 </ConfigurationLabel>
</Configuration>
<Term>
<LS>
<L><Value> 0</Value></L>
<S>0.5</S>
<Multiplicity>2</Multiplicity>
</LS>
</Term>
</Component>
</AtomicComposition>
</AtomicState>
<RadiativeTransition>
<EnergyWavelength>
<Wavelength>
<Theoretical><Value units="nm"> 1.215674E+03</Value></Theoretical>
</Wavelength>
</EnergyWavelength>
<InitialStateRef>S.0101.002</InitialStateRef>
<FinalStateRef>S.0101.001</FinalStateRef>
<Probability>
<TransitionProbabilityA><Value units="1/s"> 6.2684E+08</Value></TransitionProbabilityA>
</Probability>
</RadiativeTransition>
Contenido
1. Trasfondo
2. Ciencia intensiva en datos
3. VAMDC
4. XSAMS
5. Nuevo modelo de curación de datos
6. Minería de datos
7. Conclusiones
Radiative decay of 3pnp 1P states in
Mg-like ions
Mg I
State
3pnp 1P
RLT (ns)
3p4p 1P 3.47E+00
3p5p
3.67E+00
3p5p
3.72E+00
3p6p
3.73E+00
3p7p
3.74E+00
3p8p
3.75E+00
3p9p
3.78E+00
3p10p
3.87E+00
3smp 1Po
dominant channel: n = m
Butler et al (1990)
<XSAMSData xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="http://www-amdis.iaea.org/xsams/schema/xsams-0.1.xsd">
<Sources>
<Source sourceID="B.Mendoza_etal_2010">
<Category>preprint</Category>
<SourceName></SourceName>
<Year>2010</Year>
<Authors>
<Author>
<Name>Claudio Mendoza</Name>
</Author>
<Author>
<Name>Juan Gonzalez</Name>
</Author>
</Authors>
</Source>
</Sources>
<Methods>
<Method methodID="M.MCDF">
<Category>theory</Category>
<Description></Description>
</Method>
</Methods>
En eCiencia la metadata debe ser
extensa y duradera
En eCiencia se introduce un nuevo modelo
del proceso de curación de datos
Original image from Lord et al (2004)
Contenido
1. Trasfondo
2. Ciencia intensiva en datos
3. VAMDC
4. XSAMS
5. Nuevo modelo de curación de datos
6. Minería de datos
7. Conclusiones
Scale VAMDC to a virtual laboratory for interdisciplinary
collaborative A&M data mining with e-lico
Source: e-lico
Conclusiones
 La producción de datos científicos está evolucionando de
una industria casera a grandes consorcios multinacionales
 En el contexto de la eCiencia, la computación de alto
rendimiento está centrada en bases de datos
 La integración de las bases de datos involucra laboratorios
virtuales
 El intercambio de datos va a estar basado en esquemas de
XML
 El proceso de curación de datos se convierte en una nueva
profesión
 La minería de datos es distribuida y basada en ontologías
especializadas