¿Qué es el identificador InChI de sustancias químicas?

inchi triplenlace.com

InChI es un acrónimo de las palabras inglesas IUPAC International Chemical Identifier (InChI). Se trata de un sistema para identificar las sustancias químicas que codifica la estructura molecular y facilita la búsqueda de información en bases de datos y en la web sobre dicha sustancia. La IUPAC y el Instituto Nacional de Estándares y Tecnología (NIST) norteamericano empezaron a desarrollarlo hace aproximadamente una década.

El formato se basa en “capas” de información; los átomos y su conectividad y, en su caso, la tautomería, los isótopos, la estereoquímica, la carga electrónica

Hasta ahora, las sustancias químicas se buscaban en las bases de datos mediante sus números de registro en el Chemical Abstracts Service (CAS). Pero el InChI tiene algunas ventajas; por ejemplo, la mayor parte de la información en un inchi es legible con cierta práctica.

El formato se puede considerar como como una versión general y muy formalizada de los nombres de la nomenclatura IUPAC. Uno de los datos que no contiene es el de las coordenadas tridimensionales de los átomos, diferenciándose así de otros como el del Protein Data Bank.

Los nombres InChI se obtienen mediante un algoritmo que convierte la entrada de información estructural en un identificador único en  tres pasos: normalización (para eliminar información redundante),  canonización (para generar una etiqueta única para cada átomo), y  serialización (para crear la cadena de caracteres).

Una modalidad es el InChIKey, que es un identificador de longitud fija de 25 caracteres. Se trata de una representación digital del InChI no legible. Se creó para facilitar aún más las búsquedas pero tiene el inconveniente de que dos moléculas pueden tener el mismo InChIKey, si bien la probabilidad es muy baja.

Capas

Cada identificador InChI comienza con la cadena “InChI =” seguida por el número de versión del algoritmo (en la actualidad es el 1). Después viene la letra S para indicar “inchi estándar”, con lo que se diferencia este tipo de formato, creado en 2009, del primitivo. El resto de la información se ha estructurado en una secuencia de capas y subcapas separadas por el delimitador “/” cada una de las cuales comienzan con una letra de prefijo característica (a excepción de la subcapa de la fórmula química de la capa principal). Los cuatro más importantes y sus subcapas con

  1. Capa principal
    • Fórmula química (sin prefijo). Es la única obligatoria en cada InChI.
    • Conectividad atómica (prefijo: “c”). Los átomos existentes en la fórmula química (a excepción de los hidrógenos) se numeran secuencialmente especificándose qué átomos están unidos a cuáles en la molécula. .
    • Átomos de hidrógeno (prefijo: “h”). Proporciona el número de átomos de H conectados a los demás átomos. .
  2. Capa de carga
    • Subcapa de protones (prefijo: “p”)
    • Subcapa de carga (prefijo: “q”)
  3. Capa de estereoquímica
    • Enlaces dobles y cumulenos (prefijo: “b”)
    • Estereoquímica tetraédrica de átomos y alenos (prefijos: “t”, “m”)
    • Tipo de información estereoquímica (prefijo: “s”)
  4. Capa de isótopos
    Prefijos: “i”, “h”, así como “b”, “t”, “m”, “s” para estereoquímica isotópica
    .

Ejemplos

Por ejemplo, el etanol (CH3-CH 2-OH) tiene este identificador InChI estándar:

InChI = 1S/C2H6O/c1-2-3/h3H,2H2,1H3

El ácido L-ascórbico

L-Ascorbic acid.svg

este otro:

InChI = 1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1

Las estructuras más complejas, como la de la morfina:

empiezan a tener inchis demasiado largos. Por eso se desarrolló el InChIKey, que en el caso de este compuesto es BQJCRHHNABKAKU-KBQPJGBKSA-N.

———————

Fuentes:

Leave a Reply

Your email address will not be published.