El número de moléculas que se descubre cada día es muy grande. Y es preciso identificarlas adecuadamente y sin ambigüedad. De ello se encarga el Chemical Abstracts Service (CAS), que recoge todas las moléculas descritas en la literatura científica desde 1957 y gran parte de las descubiertas anteriormente. Se trata de una enorme base de datos que incluye compuestos orgánicos e inorgánicos, minerales, isótopos, aleaciones, mezclas y materiales no estructurables (sustancias de composición desconocida o variable, productos de reacciones complejas o de origen biológico). A día de hoy (marzo de 2023) el Chemical Abstracts Service “sabe” de 182 millones de sustancias orgánicas e inorgánicas únicas y 68 millones de proteínas y secuencias de ADN y cada día entran en la base de datos unas 15.000 moléculas nuevas. Para no confundir unas con otras se les asigna su correspondiente número CAS.
Los números CAS son números de serie, por lo que no contienen ninguna información sobre las estructuras en sí mismas. Por eso se hizo necesario encontrar una forma mejor de identificar las moléculas que el número CAS. Así surgieron notaciones como InChI o SMILES. De la nomenclatura InChI ya hemos hablado en otro lugar. Aquí comentaremos en qué consiste la SMILES. En cualquier caso, tanto el lenguaje InChI como el SMILES es interpretado por la mayoría de editores de lenguaje químico. En agosto de 2006 la UIQTA introdujo el InChI como estándar para la representación de estructuras moleculares, pero hay quien considera que SMILES es más inteligible para la lectura humana que el InChI y que tiene una base más amplia de soporte de software fundamentado en la teoría de grafos.
SMILES
SMILES significa Simplified Molecular Input Line Entry Specification (especificación de introducción lineal molecular simplificada) y es un sistema de nomenclatura que trata de describir la estructura de una molécula usando cortas cadenas de caracteres sencillos. Data de finales de la década de 1980, aunque ha experimentado algunas mejoras, como la creación en 2007 del estándar abierto OpenSMILES.
Generalmente se puede escribir varias cadenas SMILES igualmente aceptables para una molécula. Por ejemplo, CCO, OCC y C(O)C especifican indistintamente al etanol. De hecho, se han desarrollado algoritmos para asegurar que se genera la misma cadena SMILES para una molécula sin importar el orden de los átomos en la estructura. Para la especificación de estereoisómeros se recurre a las cadenas SMILES isoméricas.
Ejemplos
Veremos algunos ejemplos de cadenas SMILE. Las que sirven para describir átomos individuales son las más sencillas, e incluso triviales. Simplemente se usa la abreviatura estándar de cada elemento químico entre corchetes, como [Au] para el oro. Los corchetes pueden ser omitidos para “subconjuntos orgánicos” de B, C, N, O, P, S, F, Cl, Br, y I. Si se omiten los corchetes se asume que el elemento va a acompañado por un número de hidrógeno implícitos según la valencia del elemento. Así, la cadena SMILES para el agua es simplemente O.
Para denotar iones se emplean signos más y menos. Por ejemplo, el anión hidróxido se representa por [OH-], el catión oxonio por [OH3+], y el catión cobalto III por [Co+3] o por [Co+++].
Se admite que los enlaces entre átomos son simples salvo que se especifique lo contrario. Para indicar las posiciones por las que se cierran los anillos se emplean etiquetas numéricas que indican la conectividad entre átomos no adyacentes en la cadena SMILES. Por ejemplo, para el ciclohexano y el dioxano las cadenas SMILES son C1CCCCC1 y O1CCOCC1 respectivamente. Si hay un segundo anillo, se recurre a la etiqueta “2”. Así, la cadena SMILES del naftaleno es c1cccc2c1cccc2.
En cuanto a los enlaces dobles y triples pueden ser representados por los símbolos ‘=’ y ‘#’ respectivamente, como se ilustra en la cadena SMILES O=C=O (dióxido de carbono) y C#N (cianuro de hidrógeno).
Existen reglas también para expresar compuestos aromático (el imidazol es n1c[nH]cc1) ramificaciones de cadenas o sustituciones en anillos, pudiendo distinguirse incluso entre isómeros como el 3-cianoanisol y el 4-cianoanisol (COc(c1)cccc1C#N y COc(cc1)ccc1C#N, respectivamente) o configuraciones estereoquímicas como la de los dobles enlaces, la Z – E (cis – trans). Pare ellos se usando los caracteres “/” y “\”. Por ejemplo, F/C=C/F es una representación del E-difluoroeteno, en el que los átomos de flúor están en lados opuestos del enlace doble, mientras que F/C=C\F es una representación para el Z-difluoroeteno, en el que los átomos de flúor están al mismo lado del doble enlace.
E incluso se pueden especificar sustituciones isotópicas. Así, el benceno con un átomo de carbono estuviera sustituido por carbono-14 se escribiría como [14c]1ccccc1, y el deuterocloroformo es [2H]C(Cl)(Cl)Cl.
Estos son otros ejemplos:
Dinitrógeno | N≡N | N#N |
Isocianato de metilo (MIC) | CH3–N=C=O | CN=C=O |
Sulfato de cobre (II) | Cu2+ SO42- | [Cu+2].[O-]S(=O)(=O)[O-] |
Enantotoxina (C17H22O2) | ![]() |
CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO |
Piretrina II (C21H28O5) | ![]() |
COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C |
Aflatoxina B1 (C17H12O6) | ![]() |
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 |
Glucosa (C6H12O6) | ![]() |
OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1 |
Fuentes
- Colaboradores de Wikipedia. SMILES [en línea]. Wikipedia, La enciclopedia libre, 2022 [fecha de consulta: 7 de marzo del 2023]. Disponible en https: //es.wikipedia.org/w/index.php?title=SMILES&oldid=141960499.
- Colaboradores de Wikipedia. Número de registro CAS [en línea]. Wikipedia, La enciclopedia libre, 2021 [fecha de consulta: 7 de marzo del 2023]. Disponible en <https: //es.wikipedia.org/w/index.php?title=N%C3%BAmero_de_registro_CAS&oldid=138311159>.