Detección de proteínas virales mediante simulación computacional, para acelerar el desarrollo de métodos de proteómica basados en espectrometría de masas LCMS
Derechos de autor
Artículo basado en la publicación “In silico approach toward the identification of unique peptides from viral protein infection: Application to COVID-19”, DOI 10.1101/2020.03.08.980383
Resumen
La nueva enfermedad por coronavirus identificada por primera vez en 2019 en Wuhan, China (COVID-19) se ha convertido en un grave problema de salud pública mundial. Un problema actual es la capacidad de detectar adecuadamente el virus que causa COVID-2 (SARS-CoV-2). Aquí se comprueba la viabilidad de la proteómica shotgun, también denominada proteómica de abajo hacia arriba, como método de detección de SARS-CoV-2, a través de la detección de péptidos virales en fluidos corporales digeridos proteolíticamente. Utilizando métodos in silico, se generaron métodos (optimizados) de proteómica shotgun basados en tripsina para sistemas LCMS de 5 fabricantes de instrumentación analítica (Thermo, SCIEX, Waters, Shimadzu y Agilent).
En primer lugar, se elaboraron archivos FASTA de proteínas y sus mapas de resumen de proteínas. Segundo, los archivos FASTA se utilizaron para generar bibliotecas espectrales basadas en datos experimentales. Posteriormente, las listas de transición se derivaron de bibliotecas espectrales que utilizan el entorno de software Skyline neutral y abierto del proveedor. Finalmente, se identificaron 17 modificaciones postraduccionales usando modelos de motivos lineales.
Introducción
La detección de proteínas virales en los fluidos corporales puede ser un diagnóstico rápido y específico de infección en el síndrome respiratorio agudo severo (SARS). Durante el brote de 2003 (SARS), los métodos no basados en MS en la detección de proteínas demostraron ser más exitosos que los métodos con LCMS.
Los métodos no basados en MS, como las transferencias de Western, los ensayos de inmunosorción enzimática (ELISA) y las matrices de proteínas, se basan en anticuerpos para la detección de proteínas. Dados los estudios recientes sobre la alta variabilidad en la producción de anticuerpos, los métodos basados en LCMS son un enfoque alternativo atractivo para la identificación rápida de moléculas pequeñas, proteínas y péptidos en entornos clínicos donde la consistencia es primordial.
En los 15 años transcurridos desde el brote de SARS de 2003, la tecnología LCMS ha experimentado una revolución liderada principalmente por aumentos en la velocidad, la sensibilidad y la resolución de los instrumentos de MS. Hoy en día, la matriz de proteínas y los métodos basados en anticuerpos están decayendo tanto en la investigación como en el diagnóstico clínico, debido en gran parte a las mejoras en la tecnología LCMS (Geyer et al, Grebe et al). Una revisión de este crecimiento realizada por Grebe y Singh describió un laboratorio clínico sin Los sistemas LCMS en 1998 que completaron más de 2 millones de ensayos clínicos de LCMS individuales en 2010.13 Las mejoras incrementales en las técnicas de preparación rápida de muestras, la cromatografía y el procesamiento de datos también han contribuido al uso cada vez mayor de pruebas clínicas basadas en LCMS. Un estudio de 2013 demostró el nivel de avance al identificar 4,000 proteínas de levadura en una hora de tiempo de ejecución de LCMS.
Los métodos de LCMS pueden medir la cantidad de proteína mediante la proteína intacta (centrada en proteínas) o el análisis de péptidos proteolíticos (centrados en péptidos). Si bien la relación masa / carga (m / z) de un péptido o proteína (MS1) puede ser un diagnóstico específico en algunos materiales, la mayoría de los métodos de LCMS emplean MS en tándem en la que el péptido o el ión padre de la proteína se somete a colisión en fase gaseosa para producir fragmentos de iones. La medición de los iones de fragmentos (MS2) tiene una especificidad más alta y un nivel más bajo de falsos positivos y es el método de elección en diagnósticos clínicos. Los ensayos centrados en proteínas, como el monitoreo de reacción paralela intacta o el monitoreo de proteoforma, funcionan bien en GTPasas pequeñas como KRAS, pero las proteínas más grandes actualmente no se pueden monitorear con la misma facilidad y precisión relativa (Ntai et al).
Por esta razón, en los ensayos centrados en péptidos, comúnmente llamados proteómica de abajo hacia arriba o proteómica shotgun, las proteínas se someten a una escisión proteolítica para producir secuencias peptídicas más pequeñas antes de LCMS, a menudo usando tripsina modificada químicamente (Tsiatsiani et al., Giansanti et al. Kolsrud et al.), La digestión proteolítica de una mezcla de proteínas aumenta El número total de moléculas presentes y, por lo tanto, aumenta el ruido de fondo relativo de la muestra. Sin embargo, la producción de péptidos múltiples a partir de la proteína de interés típicamente da como resultado la producción de dianas de péptidos altamente selectivas. A través de la selección a priori de objetivos de péptidos que son biológicamente únicos o de alguna manera químicamente distintos, se pueden diseñar rápidamente ensayos extremadamente específico (Zauber et al., Lawrence et al.) cuando los péptidos selectivos múltiples están disponibles para una proteína dada, las mediciones de péptidos independientes se pueden combinar para proporcionar mediciones replicadas para aumentar la certeza en la presencia de proteínas y la abundancia relativa.
Una regla universal en todos los ensayos de LCMS es la regla de “amplitud frente a profundidad”, en pocas palabras, aumentar el número de objetivos en un experimento da como resultado una disminución en la sensibilidad general de cada medición. El ejemplo más común es que los ensayos no dirigidos que pueden observar miles de iones de péptidos por experimento tienen invariablemente un límite inferior de detección (LOD) y cuantificación (LOQ) en comparación con los ensayos en los que se apunta un número menor de iones (Pino et al., Galitzine et al. Meyer et al.)
Mejoras en cada uno La generación posterior de hardware puede mitigar este compromiso, pero la mejora es limitada. Hoy, la única forma de compensar realmente esta regla es aumentar el tiempo total de ejecución de LCMS. Un estudio de 2014 realizado por Majchrzykiewicz-Koehorst et al. describió un ensayo LCMS no dirigido que podía distinguir tres virus en muestras, tanto in vitro como ex vivo. Sin embargo el tiempo de ejecución para este experimento fue de seis horas por muestra utilizando la tecnología TOF nano ESI-cuadrupolo
Los ensayos centrados en péptidos dirigidos son ventajosos cuando la sensibilidad es primordial sobre la cantidad de objetivos identificados. Los ensayos dirigidos a menudo se basan en MS en tándem con alta velocidad, (pero con una precisión relativamente mas baja, que los cuadrupolos). Los cuadrupolos se pueden usar para seleccionar iones para fragmentación con cuantificación de iones de fragmentos por otros cuadrupolos en monitoreo de reacción única (SRM). También se pueden usar junto con sistemas de alta resolución en monitoreo de iones únicos (SIM) y monitoreo de reacción en paralelo (PRM). SRM se basa en la fragmentación que requiere a priori la relación masa / carga (m / z) tanto del ion péptido de interés como de sus iones dominantes producidos durante la fragmentación. Comúnmente, la energía de colisión se optimiza para cada fragmento de péptido para maximizar la eficiencia y la señal. SIM utiliza escaneos de mayor resolución en lugar de fragmentación, que requiere a priori solo una relación aproximada m / z para el péptido. En los ensayos dirigidos a SIM, la masa exacta del ion peptídico se extrae después de la ejecución durante el procesamiento de datos. Dos estudios han demostrado que los escaneos SIM con resolución ≥60,000 producen una selectividad comparable a SRM (Gallien et al., Higgs et al.) . Los ensayos dirigidos PRM combinan fragmentación y monitoreo de moléculas de alta resolución. A diferencia de SIM, los iones aislados están sujetos a fragmentación. El procesamiento de datos posterior a la ejecución calcula la cuantificación a partir de la masa precisa de alta resolución de los iones de fragmentos. Para las proteínas con un solo péptido diana disponible, PRM es la técnica más selectiva en la proteómica moderna (Peterson et al., Gallien et al.)
Los ensayos no dirigidos se pueden dividir en dos grandes categorías, dependientes de los datos (DDA) y análisis independientes de los datos (DIA). En DDA, las masas de todos los iones se observan en un rango relativamente amplio de m / z (MS1); los iones de péptido MS1 que alcanzan los umbrales definidos por el usuario están sujetos a fragmentación (Zhang et al.). Los iones de fragmentos resultantes se escanean, típicamente en un amplio rango para obtener la cobertura más completa de los iones de fragmentos de péptidos. Los umbrales comunes definidos por el usuario en DDA incluyen la selección de péptidos con: (1) señal suficiente para secuenciación y (2) distribuciones isotópicas que coinciden con modelos de péptidos típicos para ese m / z (Guijas et al.). La selección de iones se realiza en tiempo real y automáticamente por el instrumento, y ha requerido menos entrada del usuario en el diseño del método con cada generación de hardware. referencias (Eliuk et al., Hecht et al.). Los métodos de análisis de datos DDA requieren la menor información a priori de todos los métodos LCMS actuales. Aunque la identificación completa de novo de las secuencias de péptidos es posible, sigue siendo computacionalmente exigente, por lo que el análisis típico posterior al instrumento se basa en motores de búsqueda de péptidos.
Los motores de búsqueda de péptidos requieren que el usuario proporcione una base de datos que contenga las secuencias de proteínas que el usuario espera. Como los datos de MS1 y MS2 se comparan directamente con esta base de datos esperada, los resultados se ven afectados por la precisión de la base de datos, así como por la disponibilidad de información completa sobre la secuencia del proteoma para los organismos. Gran parte de la investigación en proteómica se basa en motores de búsqueda de péptidos que son anteriores a la instrumentación LCMS por décadas. Dicho software puede considerar múltiples escenarios, como estados de carga alternativos, pero no puede tener en cuenta las modificaciones postraduccionales (PTM) a menos que el usuario lo defina a priori (Prakash et al.) . Desarrollos recientes en motores de búsqueda de próxima generación (es decir, MetaMorpheus, Bolt, Byonic y MSFragger) puede identificar PTM sin que el usuario proporcione PTM pronosticados, pero estas herramientas aún no han sido ampliamente adoptadas por el campo.
A diferencia de DDA, DIA no realiza procesos automáticos de toma de decisiones en tiempo real. En cambio, los escaneos MS1 y MS2 se adquieren con anchos de masa establecidos (ventanas MS2) que cubren todo el rango de masa peptídica de interés.
El tamaño de las ventanas MS2 varía según la velocidad y la sensibilidad del instrumento, pero el mismo método de ejecución del instrumento puede aplicarse a cualquier experimento con péptidos. Por lo tanto, DIA implica una optimización mínima del método de ejecución del instrumento, pero este enfoque generalizado de recopilación de datos pone la responsabilidad en el análisis de datos posterior a la ejecución de los fragmentos MS2 resultantes.
Las ventanas MS2 grandes pueden mostrar fragmentos de iones peptídicos que se originan a partir de cientos de iones peptídicos únicos. Los péptidos se detectan en ventanas DIA MS2 haciendo coincidir los resultados experimentales con las bibliotecas espectrales de fragmentos de péptidos. Las bibliotecas espectrales son fragmentos de péptidos anotados, típicamente producidos por experimentos anteriores de DDA. Los espectros de MS2 seleccionados para bibliotecas típicamente contienen una cobertura de secuencia de fragmento completa, con un fragmento de MS2 que representa el producto de romper cada enlace peptídico dentro del péptido de interés. En un flujo de trabajo DIA común, una parte de todos los péptidos del estudio se agrupan y se fraccionan químicamente antes de someterse a un análisis DDA LCMS. Los experimentos DDA se utilizan para crear la biblioteca espectral para el experimento y cada muestra individual se analiza por separado por DIA. La cuantificación de los péptidos y proteínas se produce en los experimentos individuales de DIA y las bibliotecas espectrales de los grupos sirven como referencia para la identificación de los péptidos que se cuantifican (Kelstrup et al., Prakash et al., Doerr et al.).
Si bien las bibliotecas espectrales son esenciales para DIA, también se pueden utilizar en DDA y pueden dar como resultado los ensayos específicos de SRM y PRM más específicos. La fragmentación de péptidos sigue patrones energéticos específicos, que resultan principalmente en fragmentos causados por la separación en el enlace peptídico. Por lo tanto, es posible crear bibliotecas espectrales teóricas in silico a partir de la secuencia peptídica sola. Las bibliotecas espectrales teóricas son especialmente útiles cuando las muestras biológicas no están disponibles (Elias et al.) Se ha demostrado que las nuevas herramientas que emplean algoritmos de aprendizaje profundo producen espectros teóricos MS2 superiores a los modelos de predicción anteriores y, en ausencia de datos experimentales verdaderos, son los mejores recursos disponibles actualmente (Yang et al.). Estos algoritmos de aprendizaje profundo pueden aprender de vastas bibliotecas de datos experimentales para predecir los patrones de fragmentación de las nuevas secuencias de péptidos que se les dan.
Uno de estos algoritmos, PROSIT, utiliza las vastas bibliotecas de péptidos humanos sintéticos, del proyecto ProteomeTools para su conjunto de datos de entrenamiento. Debido a la alta calidad de los 450,000 péptidos sintéticos fragmentados experimentalmente en ProteomeTools hasta la fecha, se ha demostrado que PROSIT crea bibliotecas espectrales que, en algunos casos, son superiores a las bibliotecas espectrales internas derivadas experimentalmente (Gessulat et al.)
En este estudio, se describe un enfoque in silico para desarrollar ensayos de detección por LCMS de péptidos de virus en muestras humanas. Actualmente, no hay datos de proteómica públicamente disponibles de tejidos humanos infectados con COVID-19 y está restringido el acceso a estos materiales. Los materiales desarrollados in silico facilitan el análisis global y específico al proporcionar todos los materiales necesarios para la investigación DDA y DIA de estos materiales a través de la producción de bases de datos FASTA, bibliotecas espectrales y una lista de PTM pronosticados que los investigadores deben considerar al buscar con motores de búsqueda de péptidos históricos . Las bibliotecas espectrales de péptidos se utilizan para crear listas de transición optimizadas para hardware de 5 proveedores de instrumentos y completar métodos PRM para las 3 arquitecturas Orbitrap de 4 cuadrupolos. Este trabajo demuestra no solo la viabilidad de este enfoque, sino también su capacidad para desarrollar rápidamente métodos incluso ante la limitación del acceso a los datos experimentales de la muestra. Se utiliza el ejemplo de detección de proteína viral SARS-CoV-2 para subrayar la utilidad de este enfoque para responder a una crisis urgente de salud pública.
Métodos y materiales
Bases de datos de coronavirus FASTA
A la fecha del paper (abril 2020), solo están disponibles las secuencias de proteínas teóricas para SARS-CoV-2. Estas secuencias se están adquiriendo y anotando y son el resultado de la traducción de la información de la secuencia genómica. Todas las secuencias en este estudio se obtuvieron de la entrada de NCBI: txd2697049, https://www.ncbi.nlm.nih.gov/protein/?term=txid2697049 Usando Proteome Discoverer 2.4 (Thermo), las secuencias de proteínas se combinaron en una única base de datos de proteínas FASTA (2019-nCOVpFASTA1), y se agregaron a secuencias de proteomas humanos (base de datos UniProt SwissProt Human; descargadas el 2/15/2020) para producir un base de datos que incluye secuencias de proteínas humanas y COVID-19 (Human_plus_2019-nCOVpFASTA2).
Datos de proteómica disponibles públicamente de muestras humanas infectadas con otros coronavirus
Los experimentos disponibles públicamente en otros experimentos de coronavirus se encontraron buscando en la interfaz web del Consorcio ProteomeXchange (http://www.proteomexchange.org/, (45) Vizcaíno et al., Ternent et al.) El Dr. Michael Monroe proporcionó una aclaración sobre la identidad de los datos no publicados del Laboratorio Nacional del Noroeste del Pacífico (PNNL).
Creación de bibliotecas espectrales de péptidos exclusivas de SARS-CoV-2 con Prosit Deep Learning
El 2019-nCOVpFASTA1 se convirtió al formato de péptido PROSIT con el software EncyclopeDIA (Searle et al.) lo que resultó en una digestión de péptidos in silico (parámetros: Rango de carga = 2-3; Escisión máxima perdida = 1, rango m / z = 400-1,500; NCE predeterminado = 30eV; cargo predeterminado = +2). Las bibliotecas de predicción de fragmentación de péptidos PROSIT se generaron utilizando la red en línea PROSIT portal (https://www.proteomicsdb.org/prosit/) con la interfaz de modelado de la biblioteca espectral (opciones: modelo de predicción = Prosit_2019_intensity; modelo de predicción iRT = Prosit_2019_irt). Las bibliotecas se exportaron en formato de texto NIST MSP para su uso en Skyline (MacLean et al., Schilling et al.) Mientras preparaba este manuscrito, Proteome Sciences informó la creación de bibliotecas PROSIT para su uso en el software ScaffoldDIA.(https://support.proteomesoftware.com/hc/en-us/articles/360035151172-Prosit-Derived-Spectral- Bibliotecas-para-andamio-DIA-Búsquedas)
Desarrollo de métodos PRM y SRM
Para los sistemas Agilent y SCIEX, se seleccionó el tiempo de permanencia predeterminado de 20 ms para la configuración de transición. así como la optimización automática del potencial de disminución y el voltaje de compensación desde el menú de configuración de transición. Para los sistemas Waters, Thermo y Shimadzu, no se requirieron más configuraciones para la generación de la lista de transición. Todas las listas de transición se exportaron como métodos no programados de 15 minutos. Para los métodos PRM, Se seleccionaron tres péptidos para cada proteína debido al aumento del tiempo por exploración en relación con los métodos de SRM.
Predicción de PTM
Se predijeron las PTM para las proteínas 2019-nCOVpFASTA1 utilizando la interfaz web ModPred (www.modpred.org; accedido el 31/01/2020, Pejaver et al.) Todos los PTM disponibles en la fecha de análisis se seleccionaron como sitios teóricos, y se aplicó el modelo básico no evolutivo. ModPred clasifica cada PTM como de alta, media o baja confianza como se describió anteriormente.
La interfaz puede aceptar un máximo de 5,000 aminoácidos. Con el fin de analizar YP_009724389.1, la secuencia predicha tuvo que dividirse en cinco secuencias, utilizando una superposición de 100 aminoácidos para evitar alterar motivos grandes potenciales. Los resultados de ModPred se compilaron en una sola hoja de cálculo con todas las modificaciones de todos los niveles de confianza.
Péptidos teóricos
En la proteómica shotgun , las proteínas se digieren primero en fragmentos peptídicos más pequeños que el instrumento detecta más fácilmente. Dado su uso generalizado, alta eficiencia y velocidad de digestión, elegimos desarrollar métodos que utilicen exclusivamente la enzima proteolítica tripsina, que produce “péptidos trípticos”. La tripsina de grado de secuenciación muestra una escisión de alta eficiencia en (1) arginina y (2) lisina sin modificar residuos a menos que sea seguido por una prolina. La tripsina también tiene la ventaja de dejar un residuo básico terminal en el sitio de escisión, lo que aumenta la probabilidad de una cobertura completa de iones de fragmentos desde el terminal cargado.18 Por estas razones, la tripsina se utiliza a menos que la secuencia de la proteína tiene un número anormalmente alto o bajo de residuos de lisina o arginina. Una frecuencia muy alta de los residuos (como las proteínas ricas en lisina) creará péptidos muy cortos que podrían no ser informativos para la identificación de proteínas. Una frecuencia muy baja de los residuos creará péptidos muy grandes, o proteínas no digeridas (“intactas”) en algunos casos, que son difíciles de detectar y fragmentar. Nuestro resumen teórico de tripsina de la base de datos 2019-nCoVpFASTA1 produjo péptidos trípticos con longitudes promedio de 8 a 18 aminoácidos. Estos resultados indican que la digestión con tripsina es una opción apropiada para la detección de estas proteínas virales. Nuestro resumen teórico de tripsina de la base de datos 2019-nCoVpFASTA1 produjo péptidos trípticos con longitudes promedio de 8 a 18 aminoácidos. Estos resultados indican que la digestión con tripsina es una opción apropiada para la detección de estas proteínas virales. Nuestro resumen teórico de tripsina de la base de datos 2019-nCoVpFASTA1 produjo péptidos trípticos con longitudes promedio de 8 a 18 aminoácidos. Estos resultados indican que la digestión con tripsina es una opción apropiada para la detección de estas proteínas virales.
Ejemplos de métodos específicos
Si bien se requieren modificaciones menores para los instrumentos SCIEX, Agilent y Shimadzu, los instrumentos Waters Xevo y Thermo utilizan parámetros idénticos para el diseño de la lista de transición. La mayoría de los instrumentos modernos de triple cuadrupolo son capaces de 500 SRMS / seg y permiten el uso de 2,000 listas de transición, como se proporciona aquí. Para los instrumentos más antiguos que carecen de esta velocidad de exploración o que requieren tiempos de espera más altos, el usuario final puede reducir las listas de transición incluidas en los métodos complementarios en consecuencia.
La velocidad de exploración más alta actualmente disponible en los instrumentos Orbitrap es de 48 exploraciones por segundo y solo está disponible en el sistema Exploris 480 (datos no mostrados). Para lograr la máxima sensibilidad, a menudo se requieren tiempos de llenado más altos para estos instrumentos. Elegimos utilizar tres péptidos / proteínas para estos métodos. Los péptidos alternativos se pueden seleccionar de los archivos Skyline o seleccionando objetivos de masa peptídica de las otras listas de transición.

Métodos no dirigidos
Las bibliotecas espectrales de Prosit permiten la interrogación de datos de DIA y pueden usarse para experimentos de DDA que emplean herramientas como MSPepSearch (NIST, Zhang et al.)Los datos de DDA requieren solo el archivo FASTA de proteínas y una lista de PTM que pueden estar presentes en la muestra. El análisis con ModPred predijo 17 PTM posibles. La amidación fue la PTM predicha más frecuente, pero no existe un mecanismo biológico conocido que podamos derivar de un estudio de la literatura. La palmitoilación, la segunda PTM predicha más frecuente, es una PTM viral bien caracterizada con funciones críticas en el virus de la inmunodeficiencia humana (VIH), el virus del herpes humano (HHV) y la infectividad del virus de la influenza. (Serwa et al., Veit et al., Veit et al.)
Descripción | ProteomeXchange Identificador |
Respuesta del proteoma Calu-3 a un clon infeccioso de las vías respiratorias del Medio Oriente Síndrome coronavirus | PXD002358 |
Respuesta del metaboloma de Calu-3 a un clon infeccioso del Medio Oriente Coronavirus del síndrome respiratorio | PXD002359 |
Respuesta de lipidoma Calu-3 a un clon infeccioso de las vías respiratorias del Medio Oriente Síndrome coronavirus | PXD002360 |
Respuesta del proteoma Calu-3 a un clon infeccioso del virus de la influenza H7N9 y virus H7N9 mutantes | PXD002385 |
Respuesta del metaboloma de Calu-3 a un clon infeccioso del virus de la influenza H7N9 y virus H7N9 mutantes | PXD002362 |
Conjuntos de datos de LCMS para otros coronavirus
El Consorcio ProteomeXchange es una plataforma de acceso abierto para el intercambio rápido de datos de proteómica. Las revistas técnicas proteómicas prominentes, el Journal of Proteome Research and Molecular and Cellular Proteomics, requieren estrictamente que todos los archivos de instrumentos no procesados y los resultados procesados se hagan públicos a través de estos servicios. Al intentar obtener datos de coronavirus, identificamos datos de metabolómica, lipidómica y proteómica no publicados generados a partir de muestras humanas infectadas con el síndrome respiratorio del Medio Oriente (MERS-CoV). Proporcionamos estos datos, así como una lista de otros estudios proteómicos notables, para su uso en estudios comparativos con SARS-CoV-2.
Conclusiones
Utilizando métodos in silico, Orsburn et al. desarrollaron métodos para la detección de SARS-CoV-2 en muestras humanas. Se requiere la validación in vitro de este método y está fuera del alcance del estudio. Los autores además proporcionan los materiales mínimos para el procesamiento de datos para los métodos de proteómica no dirigida DDA y DIA con bases de datos FASTA, bibliotecas espectrales y prediciendo PTM relevantes para su consideración. Para ampliar la cantidad de laboratorios que pueden aplicar estos métodos, se optimizaron los parámetros de ejecución para sistemas LCMS ampliamente utilizados compatibles con Skyline, que representan instrumentos de cinco compañías. Cualquier nuevo refinamiento o actualización de estos métodos, será publicado en en LCMSmethods.org.