Ingenieros de la Universidad de Hong Kong han desarrollado dos herramientas de aprendizaje profundo que facilitan la detección de mutaciones relacionadas con el cáncer y la decodificación del ARN. Estos algoritmos de código abierto podrían ampliar el acceso a la medicina de precisión y acelerar el descubrimiento genómico.
Dos nuevas herramientas de inteligencia artificial de la Universidad de Hong Kong prometen hacer más fácil, rápido y barato detectar mutaciones genéticas vinculadas al cáncer y decodificar los mensajes de ARN que mantienen nuestras células en funcionamiento.
Investigadores de la Facultad de Ingeniería de la HKU han desarrollado ClairS-TO y Clair3-RNA, un par de algoritmos de aprendizaje profundo que optimizan el análisis de datos de secuenciación de ADN y ARN de lectura larga. Estas herramientas están diseñadas para abordar obstáculos persistentes en el diagnóstico del cáncer y la investigación genómica basada en ARN, y ambos estudios... ClairS-TO y Clair3-ARN — se publican en Nature Communications.
El trabajo está dirigido por Ruibang Luo, profesor asociado de la Facultad de Informática y Ciencias de Datos de la HKU, cuyo laboratorio se centra en algoritmos bioinformáticos e informática clínica. El equipo de Luo ha dedicado años al desarrollo de la serie Clair, una familia de herramientas genómicas basadas en IA que se ha extendido ampliamente en este campo.
Las últimas incorporaciones refuerzan ese esfuerzo aún más, según Luo.
“ClairS-TO y Clair3-RNA, junto con otros algoritmos de la serie Clair, han establecido una base sólida para el descubrimiento de mutaciones genéticas impulsado por el aprendizaje profundo y han acelerado la adopción de la medicina de precisión y la genómica clínica”, afirmó Luo en un comunicado de prensa.
Por qué es importante la secuenciación de lectura larga
Las tecnologías de secuenciación genética leen el orden de las letras de ADN o ARN en nuestras células. La secuenciación de lectura larga, una generación más reciente de esta tecnología, puede capturar fragmentos continuos de material genético, revelando regiones complejas y cambios estructurales que los métodos de lectura corta pueden pasar por alto.
Estas lecturas largas son especialmente valiosas en el cáncer, donde los tumores suelen presentar una compleja mezcla de mutaciones, y en los estudios de ARN, que investigan cómo se activan y desactivan los genes. Sin embargo, la misma riqueza que confiere a los datos de lecturas largas su poder también dificulta su interpretación. Distinguir las mutaciones reales de los errores técnicos o la edición natural del ARN ha sido un gran desafío.
El equipo de HKU construyó ClairS-TO y Clair3-RNA para abordar esos puntos problemáticos.
Una nueva forma de leer el ADN tumoral sin tejido normal
ClairS-TO está específicamente diseñado para el diagnóstico del cáncer. Tradicionalmente, los laboratorios comparan el ADN del tumor de un paciente con el ADN de su tejido sano para identificar mutaciones somáticas (cambios que surgen en el tumor pero no están presentes en el resto del cuerpo). Esta asociación entre el tumor y el tejido normal ayuda a filtrar variantes hereditarias inofensivas.
En la práctica, sin embargo, no siempre se dispone de una muestra normal compatible. Su obtención puede ser demasiado costosa o invasiva, o puede que no se haya almacenado el tejido sano del paciente. Esto puede limitar el acceso a pruebas genómicas de alta calidad, especialmente en entornos con recursos limitados.
ClairS-TO está diseñado para funcionar solo con muestras tumorales. Utiliza una arquitectura de aprendizaje profundo de doble red: una red se centra en confirmar mutaciones genuinas, mientras que la otra se entrena para rechazar errores de secuenciación y otros ruidos. Al aprender patrones en datos tumorales de lectura larga, el sistema puede inferir qué cambios probablemente sean variantes somáticas reales, incluso sin una muestra normal para comparar.
Este enfoque puede hacer que el análisis de ADN tumoral sea más rentable y práctico cuando el material de muestra es limitado. En entornos clínicos, esto podría significar que más pacientes puedan recibir un perfil genómico detallado de sus cánceres, lo que a su vez puede orientar las terapias dirigidas y la inscripción en ensayos clínicos.
Primer llamador de variantes de aprendizaje profundo para ARN de lectura larga
Mientras que ClairS-TO aborda el ADN en los tumores, Clair3-RNA se centra en el ARN, la molécula que transporta las instrucciones genéticas desde el ADN a la maquinaria de producción de proteínas de la célula.
La secuenciación de ARN revela qué genes están activos, en qué formas y a qué niveles. La secuenciación de ARN de lectura larga va un paso más allá al capturar transcripciones completas, lo que facilita la comprensión de cómo se unen los exones y la detección de isoformas raras o complejas.
Sin embargo, el ARN conlleva sus propias complicaciones. Las células editan de forma natural algunas moléculas de ARN, y las tecnologías de secuenciación pueden introducir errores. Ambos pueden camuflarse como mutaciones, lo que dificulta la identificación de variantes genéticas verdaderas.
Clair3-RNA se describe como el primer llamador de variantes pequeñas basado en aprendizaje profundo del mundo, diseñado específicamente para la secuenciación de ARN de lectura larga. Utiliza modelos avanzados de redes neuronales para distinguir mutaciones reales del ruido biológico y los eventos de edición de ARN. Esto permite a investigadores y médicos analizar simultáneamente la expresión génica y las variantes genéticas con mayor fiabilidad.
En términos prácticos, Clair3-RNA podría ayudar a los científicos a estudiar cómo las mutaciones afectan el procesamiento del ARN, identificar variantes asociadas a enfermedades directamente a partir del ARN y comprender mejor cómo cambia la actividad genética en afecciones como el cáncer, los trastornos neurológicos y las enfermedades inmunes.
Basándose en un conjunto de herramientas de IA ampliamente utilizado
ClairS-TO y Clair3-RNA amplían la serie Clair existente, que ya incluye Clair3, una herramienta estándar de la industria para la identificación de variantes de lectura larga. Los algoritmos Clair son conocidos por su velocidad, precisión y robustez, y se publican como software de código abierto.
Según la HKU, las herramientas Clair se han descargado más de 400,000 veces y son ampliamente adoptadas por importantes institutos de investigación y empresas de secuenciación de todo el mundo. Esta amplia adopción permite que las nuevas capacidades se extiendan rápidamente tanto a la investigación como a la clínica.
Para estudiantes y científicos en sus inicios profesionales, la serie Clair también ofrece un ejemplo práctico de cómo la informática y la ingeniería pueden influir directamente en la medicina. Los modelos de aprendizaje profundo, antes asociados principalmente con el reconocimiento de imágenes o el procesamiento del lenguaje, ahora son fundamentales para la lectura e interpretación del genoma por parte de los investigadores.
Que viene despues
El último trabajo del equipo de la HKU destaca cómo la IA puede facilitar el acceso a la genómica de vanguardia. Al reducir la necesidad de muestras normales compatibles y minimizar la complejidad de los datos de ARN, ClairS-TO y Clair3-RNA podrían reducir las barreras para hospitales y laboratorios que deseen adoptar la secuenciación de lectura larga.
Es probable que las futuras orientaciones incluyan mayor capacitación sobre diversas poblaciones de pacientes, la integración con sistemas de informes clínicos y la expansión a otros tipos de variación genómica. A medida que las tecnologías de secuenciación de lectura larga sigan mejorando y reduciendo su coste, herramientas como estas serán cruciales para convertir los datos brutos en información práctica.
Para los pacientes, la promesa a largo plazo es un diagnóstico de cáncer más preciso y planes de tratamiento más personalizados. Para los investigadores, representa una visión más clara de cómo los cambios en el ADN y el ARN influyen en la salud y la enfermedad, y una vía más rápida desde el descubrimiento genómico hasta el impacto en el mundo real.

